Un nouvel outil d’IA aide les ordinateurs à interpréter le monde

Un nouvel outil d’IA aide les ordinateurs à interpréter le monde

Copier et coller : c’est un concept simple. Vous définissez du texte ou une image sur votre ordinateur, le copiez et le collez là où vous le souhaitez. Maintenant, pensez à ce nouveau canapé en cuir dont vous rêvez. Les applications populaires de réalité augmentée (RA) vous permettent de couper et de coller une image du canapé dans une photo de votre salon pour voir si vous l’aimez avant de l’acheter.

Une équipe de chercheurs du département d’informatique Thomas Lord de l’USC Viterbi a maintenant développé une technique similaire pour copier des objets virtuels 3D et les coller dans de véritables scènes d’intérieur. Cela crée une image globale naturelle et réaliste en termes de relations spatiales, d’orientations d’objets et d’éclairage.

De plus, la technique appelée Copier-Coller 3D peut apprendre aux ordinateurs à reconnaître l’objet virtuel 3D dans une multitude de paramètres différents sans avoir à recourir au processus fastidieux et coûteux consistant à demander à un humain d’alimenter l’ordinateur avec des tonnes de données.

« Il s’agit de former des systèmes d’apprentissage automatique à la reconnaissance d’objets 3D dans des scènes intérieures avec une méthode qui améliore considérablement les modèles d’objets 3D existants et atteint des performances de pointe », a déclaré le professeur d’informatique Laurent Itti.

L’un des doctorants d’Itti, Yunhao « Andy » Ge, présente un document de recherche, 3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection, lors de la 37e conférence sur les systèmes de traitement de l’information neuronale (NeurIPS 2023) à la Nouvelle-Orléans, en décembre. 11-16.

« Il s’agit du premier article montrant que nous pouvons insérer des objets 3D photoréalistes dans une scène intérieure réelle et créer suffisamment de données pour entraîner un modèle d’IA afin d’améliorer lui-même la reconnaissance de tels objets », a déclaré Ge.

Itti et Ge ont collaboré au projet avec le professeur adjoint d’informatique Jiajun Wu et son doctorat de quatrième année. Hong-Xing « Koven » Yu, étudiant à l’Université de Stanford, ainsi que quatre informaticiens de Bosch Research North America : Cheng Zhao, Yuliang Guo, Xinyu Huang et Liu Ren.

‘De profondes implications

L’outil Copier-Coller 3D est ce que l’on appelle dans le monde de l’IA une technique d’augmentation générative des données, dans laquelle les algorithmes apprennent à produire un contenu cohérent et significatif qui ressemble étroitement à la production créée par l’homme en apprenant des modèles, des tendances et des relations.

Le copier-coller 3D pourrait avoir des implications « profondes » à la fois dans les domaines de l’infographie et de la vision par ordinateur, ont déclaré Itti et Ge.

Prenons par exemple la technologie de conduite autonome.

L’image d’une vache est surtout associée aux pâturages et autres décors bucoliques.

Si vous souhaitez apprendre à une IA dans une voiture autonome à éviter de heurter une vache devant votre véhicule en mouvement, l’IA risque d’être confuse au début : une vache ne se trouve normalement pas au milieu d’une route. Il faudrait lui donner l’image d’une vache devant une voiture pour qu’il reconnaisse rapidement l’objet.

Mais l’outil Copier-Coller 3D permet à un ordinateur de reconnaître un objet dans une variété infinie d’environnements sans avoir à charger en amont une tonne d’images. Et cela peut créer de nouvelles images qui n’existent pas dans le monde réel – par exemple, une vache marchant sur la lune – qui se fondent parfaitement dans une photo d’un environnement intérieur et semblent physiquement plausibles.

« Vous n’avez pas besoin d’un humain pour effectuer l’étiquetage manuel », a expliqué Ge, « car lorsque cet objet virtuel 3D est inséré dans une scène intérieure réelle, il génère automatiquement des étiquettes que l’IA doit comprendre. »

Itti a ajouté : « Cet outil peut générer des millions de combinaisons d’une image d’un objet, ce qui permet au modèle d’IA d’être encore mieux entraîné grâce aux données de haute qualité créées par cet outil. »

La clé est de rendre l’objet inséré physiquement plausible, ce qui signifie qu’il n’entrera pas en collision avec des objets existants et qu’il aura le bon éclairage. Le copier-coller 3D identifie d’abord les emplacements physiquement réalisables et pose les objets insérés afin d’éviter les collisions avec la disposition existante de la pièce. Par la suite, il estime l’éclairage variable spatialement pour l’emplacement d’insertion, permettant le mélange immersif des objets virtuels dans la scène originale avec des apparences et des ombres plausibles.

Ajouts virtuels

En bref, le copier-coller 3D peut améliorer la façon dont les ordinateurs voient et interprètent les choses dans l’espace 3D.

« À mesure que la technologie AR devient plus répandue et utilisée dans diverses applications », a déclaré Ge, « les techniques que nous avons développées peuvent contribuer à améliorer l’expérience utilisateur et à faire en sorte que les objets virtuels se fondent parfaitement dans notre monde réel. »

Une autre application du Copier-Coller 3D pourrait être la numérisation des flux de travail industriels.

Alors que les entreprises industrielles s’orientent vers la numérisation de leurs flux de travail et la création de jumeaux numériques d’actifs du monde réel, la capacité d’insérer des objets 3D réalistes dans ces représentations numériques devient cruciale, ont déclaré Itti et Ge.

La méthode Copier-Coller 3D, ont-ils déclaré, pourrait garantir que tout ajout virtuel à ces jumeaux numériques, tels que de nouveaux équipements ou structures, soit effectué d’une manière physiquement précise et visuellement cohérente.

« Nos résultats mettent en évidence le potentiel de l’augmentation des données 3D pour améliorer les performances des tâches de perception 3D, ouvrant ainsi de nouvelles voies de recherche et d’applications pratiques », a déclaré Ge.