Les ingénieurs se tournent vers une ancienne source pour renforcer l’avenir de la vision par ordinateur
L’intelligence artificielle semble parfaite pour créer des ensembles massifs d’images nécessaires pour entraîner des voitures autonomes et d’autres machines à voir leur environnement, mais les systèmes d’IA générative actuels présentent des lacunes qui peuvent limiter leur utilisation. Aujourd’hui, les ingénieurs de Princeton ont développé un système logiciel pour surmonter ces limites et créer rapidement des ensembles d’images pour préparer les machines à presque tous les paramètres visuels.
Le nouveau système, appelé Infinigen, s’appuie sur les mathématiques pour créer des objets et des environnements naturels en trois dimensions. Infinigen est un générateur procédural, qui en informatique désigne un programme qui crée du contenu basé sur des algorithmes automatisés conçus par l’homme plutôt que sur la saisie manuelle de données à forte intensité de main-d’œuvre ou sur les réseaux de neurones qui alimentent l’IA moderne. De cette manière, le nouveau programme génère une myriade d’objets 3D en utilisant uniquement des règles mathématiques aléatoires.
Infinigen est « un programme dynamique pour créer des scènes naturelles illimitées, diverses et réalistes », a déclaré Jia Deng, professeur agrégé d’informatique à Princeton et auteur principal d’une nouvelle étude qui détaille le système logiciel. Le document a été présenté à la conférence CVPR 2023.
L’approche mathématique d’Infinigen lui permet de créer des données visuelles étiquetées, nécessaires pour entraîner les systèmes de vision par ordinateur, y compris ceux déployés sur les robots domestiques et les voitures autonomes. Étant donné qu’Infinigen génère chaque image par programmation (il crée d’abord un monde 3D, le remplit d’objets et place une caméra pour prendre une photo), Infinigen peut automatiquement fournir des étiquettes détaillées sur chaque image, y compris la catégorie et l’emplacement de chaque objet.
Les images avec des étiquettes automatiques peuvent ensuite être utilisées pour entraîner un robot à reconnaître et à localiser des objets à partir d’une seule image en entrée. De telles données visuelles étiquetées ne seraient pas possibles avec les générateurs d’images IA existants, selon Deng, car ces programmes génèrent des images à l’aide d’un réseau neuronal profond qui ne permet pas l’extraction d’étiquettes.
De plus, les utilisateurs d’Infinigen ont un contrôle précis des paramètres du système, tels que l’éclairage précis et l’angle de vue, et peuvent affiner le système pour rendre les images plus utiles en tant que données d’entraînement.
En plus de générer des mondes virtuels peuplés d’objets numériques aux formes, tailles, textures et couleurs naturelles, les capacités d’Infinigen s’étendent aux représentations synthétiques de phénomènes naturels, notamment le feu, les nuages, la pluie et la neige.
« Nous espérons qu’Infinigen se révélera être une ressource utile non seulement pour créer des données de formation pour la vision par ordinateur, mais aussi pour la réalité augmentée et virtuelle, le développement de jeux, la réalisation de films, l’impression 3D et la génération de contenu en général », a déclaré Deng.
Pour construire Infinigen, les chercheurs de Princeton ont commencé avec Blender, un système graphique open-source gratuit d’outils logiciels prédéfinis qui date des années 1990. Conformément à l’esprit de Blender, les chercheurs de Princeton ont publié le code d’Infinigen sous une licence compatible GPL, ce qui signifie que n’importe qui peut l’utiliser librement.
En élargissant considérablement le menu d’objets et de paysages rendus en 3D, un autre avantage clé d’Infinigen est qu’il peut renforcer la capacité des machines à effectuer des reconstructions 3D, à partir de pixels 2D seulement, des espaces complexes dans lesquels elles fonctionneront. Bien que passer des images du monde réel aux images synthétiques pour développer des voitures et des robots qui se déplaceront dans le monde réel puisse sembler contre-intuitif, les ensembles de données d’images réelles ont des limites clés, a déclaré Deng.
Pour commencer, les ordinateurs qui guident les robots et les voitures intelligentes ne perçoivent pas les images et autres objets visuels comme le font les humains. Une image qui semble en trois dimensions pour un humain n’est qu’un ensemble de pixels en deux dimensions pour un ordinateur. Pour permettre aux robots de percevoir une image en 3D, l’image doit inclure une instruction appelée « vérité terrain 3D ». C’est difficile à faire avec des images 2D existantes, mais facile pour un système comme Infinigen.
« Les ensembles de données synthétiques d’images 3D ont montré une grande promesse initiale », a déclaré Deng, « et nous avons développé Infinigen pour tenir davantage cette promesse. »
Pour Infinigen, les chercheurs de Princeton ont conçu des sous-programmes, appelés générateurs, qui se spécialisent dans la production de types distincts d’objets numériques, par exemple, des « poissons » ou des « montagnes ». Les utilisateurs peuvent travailler avec les sous-programmes pour personnaliser une gamme de paramètres, notamment la taille, la texture, la couleur et la réflectivité.
« Les utilisateurs peuvent modifier les paramètres pour créer autant de réalité ou d’irréalité qu’ils le souhaitent pour leur tâche particulière », a déclaré Deng. « L’expansivité peut aider à garantir que les machines sont largement formées pour gérer et naviguer dans l’éventail complet des environnements rencontrés. »
Les chercheurs espèrent qu’Infinigen deviendra un outil collaboratif, permettant aux utilisateurs d’ajouter plus de fonctionnalités au fur et à mesure de son développement.
« L’objectif est que la couverture d’Infinigen devienne si bonne que le projet devienne le lieu de référence pour les données de formation à la vision par ordinateur, quelle que soit la tâche », a déclaré Deng. « Nous voulons qu’Infinigen devienne un effort collaboratif et communautaire qui fournit un outil utile à de nombreux utilisateurs. »