L'expérience visuelle des enfants peut être la clé d'une meilleure formation en vision par ordinateur
Une nouvelle approche inspirée par l'homme pour entraîner les systèmes d'intelligence artificielle (IA) à identifier des objets et à naviguer dans leur environnement pourrait ouvrir la voie au développement de systèmes d'IA plus avancés pour explorer des environnements extrêmes ou des mondes lointains, selon les recherches d'une équipe interdisciplinaire de État de Pennsylvanie.
Au cours des deux premières années de leur vie, les enfants font l’expérience d’un ensemble quelque peu restreint d’objets et de visages, mais avec de nombreux points de vue différents et dans des conditions d’éclairage variables. Inspirés par cette vision du développement, les chercheurs ont introduit une nouvelle approche d’apprentissage automatique qui utilise les informations sur la position spatiale pour entraîner plus efficacement les systèmes visuels de l’IA.
Ils ont constaté que les modèles d’IA formés selon la nouvelle méthode surpassaient les modèles de base jusqu’à 14,99 %. Ils ont rapporté leurs découvertes dans le numéro de mai de la revue Motifs.
« Les approches actuelles en matière d'IA utilisent des ensembles massifs de photographies aléatoires provenant d'Internet pour la formation. En revanche, notre stratégie s'appuie sur la psychologie du développement, qui étudie la façon dont les enfants perçoivent le monde », a déclaré Lizhen Zhu, auteur principal et doctorante dans l'étude. Collège des sciences et technologies de l'information à Penn State.
Les chercheurs ont développé un nouvel algorithme d’apprentissage contrastif, qui est un type de méthode d’apprentissage auto-supervisé dans lequel un système d’IA apprend à détecter des modèles visuels pour identifier quand deux images sont des dérivations de la même image de base, ce qui donne lieu à une paire positive. Cependant, ces algorithmes traitent souvent les images du même objet prises sous différents angles comme des entités distinctes plutôt que comme des paires positives.
La prise en compte des données environnementales, y compris la localisation, permet au système d'IA de surmonter ces défis et de détecter les paires positives quels que soient les changements de position ou de rotation de la caméra, d'angle ou de condition d'éclairage et de distance focale, ou de zoom, selon les chercheurs.
« Nous émettons l'hypothèse que l'apprentissage visuel des nourrissons dépend de la perception de l'emplacement. Afin de générer un ensemble de données égocentriques avec des informations spatio-temporelles, nous avons mis en place des environnements virtuels dans la plateforme ThreeDWorld, qui est un environnement de simulation physique 3D interactif et haute fidélité. Cela a permis nous permettre de manipuler et de mesurer l'emplacement des caméras de visualisation comme si un enfant marchait dans une maison », a ajouté Zhu.
Les scientifiques ont créé trois environnements de simulation : House14K, House100K et Apartment14K, « 14K » et « 100K » faisant référence au nombre approximatif d'échantillons d'images pris dans chaque environnement. Ensuite, ils ont exécuté des modèles d'apprentissage contrastifs de base et des modèles avec le nouvel algorithme à travers les simulations à trois reprises pour voir dans quelle mesure chacun classifiait les images. L’équipe a constaté que les modèles formés sur leur algorithme surpassaient les modèles de base sur diverses tâches.
Par exemple, lors d'une tâche de reconnaissance de la pièce dans l'appartement virtuel, le modèle augmenté a réalisé en moyenne 99,35 %, soit une amélioration de 14,99 % par rapport au modèle de base. Ces nouveaux ensembles de données sont disponibles pour que d'autres scientifiques puissent les utiliser dans le cadre de leur formation via www.child-view.com.
« Il est toujours difficile pour les modèles d'apprendre dans un nouvel environnement avec une petite quantité de données. Notre travail représente l'une des premières tentatives de formation à l'IA plus économe en énergie et plus flexible utilisant du contenu visuel », a déclaré James Wang, professeur distingué de sciences de l'information. et technologie et conseiller de Zhu.
La recherche a des implications pour le développement futur de systèmes d’IA avancés destinés à naviguer et à apprendre de nouveaux environnements, selon les scientifiques.
« Cette approche serait particulièrement bénéfique dans les situations où une équipe de robots autonomes disposant de ressources limitées doit apprendre à naviguer dans un environnement totalement inconnu », a déclaré Wang. « Pour ouvrir la voie à de futures applications, nous prévoyons d'affiner notre modèle afin de mieux exploiter les informations spatiales et d'incorporer des environnements plus diversifiés. »
Des collaborateurs du Département de psychologie et du Département d'informatique et d'ingénierie de Penn State ont également contribué à cette étude.