Aider les modèles d'apprentissage automatique à identifier des objets dans n'importe quelle pose

Aider les modèles d'apprentissage automatique à identifier des objets dans n'importe quelle pose

Une nouvelle approche de reconnaissance visuelle a amélioré la capacité d'une technique d'apprentissage automatique à identifier un objet et à déterminer comment il est orienté dans l'espace, selon une étude présentée en octobre lors de la Conférence européenne sur la vision par ordinateur à Milan, en Italie.

L'apprentissage auto-supervisé est une approche d'apprentissage automatique qui s'entraîne sur des données non étiquetées, étendant ainsi la généralisabilité aux données du monde réel. Bien qu’il excelle dans l’identification d’objets, une tâche appelée classification sémantique, il peut avoir du mal à reconnaître des objets dans de nouvelles poses.

Cette faiblesse devient rapidement un problème dans des situations telles que la navigation des véhicules autonomes, où un algorithme doit évaluer si une voiture qui approche constitue une menace de collision frontale ou si elle est orientée latéralement et ne fait que passer.

« Notre travail aide les machines à percevoir le monde davantage comme le font les humains, ouvrant la voie à des robots plus intelligents, à des voitures autonomes plus sûres et à des interactions plus intuitives entre la technologie et le monde physique », a déclaré Stella Yu, professeur d'informatique à l'Université du Michigan et ingénierie et auteur principal de l’étude.

Pour aider les machines à apprendre à la fois les identités et les poses des objets, l'équipe de recherche a développé une nouvelle référence d'apprentissage auto-supervisée avec des protocoles de définition de problèmes, de formation et d'évaluation ainsi qu'un ensemble de données de triplets d'images non étiquetés pour l'apprentissage des représentations conscient des poses.

Les triplets d'images impliquent la capture de trois prises de vue adjacentes du même objet avec de légers changements de pose de la caméra, ce que l'on appelle une trajectoire de point de vue fluide. Cependant, ni les étiquettes d'objet (par exemple « voiture ») ni les étiquettes de pose (par exemple, vue frontale) ne sont fournies.

Cela imite la vision robotique dans laquelle le robot effectue un panoramique sur une caméra lorsqu'il se déplace dans l'environnement. Même si le robot comprend qu’il regarde le même objet, il ne sait pas ce qu’est l’objet ni sa pose.

Les approches précédentes géraient généralement la régularisation en mappant différentes vues du même objet sur la même caractéristique au niveau de la couche finale d'un réseau neuronal profond. La nouvelle approche utilise la fonctionnalité de couche intermédiaire et impose une régularisation de la trajectoire du point de vue, qui mappe à la place trois vues consécutives d'un objet sur une ligne droite dans l'espace des fonctionnalités. La première stratégie améliore les performances d'estimation de pose de 10 à 20 %, tandis que la seconde stratégie améliore encore l'estimation de pose de 4 % sans réduire la classification sémantique.

« Plus important encore, nous mappons une image sur une caractéristique qui code non seulement les identités des objets mais également les poses des objets, et une telle carte de caractéristiques peut mieux se généraliser aux images d'objets nouveaux que le robot n'a jamais vus auparavant », a déclaré Jiayun Wang, de l'Université de Diplômé d'un doctorat en sciences de la vision et du laboratoire de recherche en IA de Berkeley en Californie et premier auteur de l'étude.

Ce concept peut être appliqué pour découvrir des modèles significatifs dans divers types de données associées, telles que l'audio multicanal ou les séries temporelles. Par exemple, chaque instantané audio à un moment spécifique peut se voir attribuer une caractéristique unique, tandis que la séquence entière est mappée sur une trajectoire de caractéristiques fluide qui capture la façon dont les choses changent continuellement au fil du temps.