Un modèle d'IA pourrait renforcer l'intelligence des robots grâce à la reconnaissance d'objets

Un modèle d'IA pourrait renforcer l'intelligence des robots grâce à la reconnaissance d'objets

Des chercheurs de Stanford ont développé un modèle de vision par ordinateur innovant qui reconnaît les fonctions réelles des objets, permettant potentiellement aux robots autonomes de sélectionner et d'utiliser les outils plus efficacement.

Dans le domaine de l’IA connu sous le nom de vision par ordinateur, les chercheurs ont réussi à former des modèles capables d’identifier des objets dans des images bidimensionnelles. Il s’agit d’une compétence essentielle pour un avenir de robots capables de naviguer dans le monde de manière autonome. Mais la reconnaissance d’objets n’est qu’une première étape. L’IA doit également comprendre la fonction des parties d’un objet : distinguer un bec d’un manche, ou la lame d’un couteau à pain de celle d’un couteau à beurre.

Les experts en vision par ordinateur appellent ces chevauchements d’utilités « correspondance fonctionnelle ». C’est l’un des défis les plus difficiles en vision par ordinateur. Mais maintenant, dans un article qui sera présenté à la Conférence internationale sur la vision par ordinateur (ICCV 2025), les chercheurs de Stanford présenteront un nouveau modèle d'IA capable non seulement de reconnaître diverses parties d'un objet et de discerner leurs objectifs dans le monde réel, mais également de cartographier ceux-ci avec une granularité pixel par pixel entre les objets.

Un futur robot pourrait être capable de distinguer, par exemple, un couperet à viande d'un couteau à pain ou une truelle d'une pelle et de sélectionner l'outil approprié pour le travail. Potentiellement, suggèrent les chercheurs, un robot pourrait un jour transférer les compétences nécessaires pour utiliser une truelle à une pelle – ou une bouteille à une bouilloire – pour accomplir un travail avec différents outils.

« Notre modèle peut regarder des images d'une bouteille en verre et d'une bouilloire à thé et reconnaître le bec verseur sur chacune d'elles, mais il comprend également que le bec verseur est utilisé pour verser », explique le co-premier auteur Stefan Stojanov, chercheur postdoctoral à Stanford conseillé par les auteurs principaux Jiajun Wu et Daniel Yamins. « Nous voulons construire un système de vision qui soutiendra ce type de généralisation : analogiser, transférer une compétence d'un objet à un autre pour atteindre la même fonction. »

Établir une correspondance est l'art de déterminer quels pixels de deux images font référence au même point du monde, même si les photographies sont prises sous des angles différents ou représentent des objets différents. C’est déjà assez difficile si l’image représente le même objet mais, comme le montre l’exemple de la bouteille par rapport à la bouilloire à thé, le monde réel est rarement aussi simple. Les robots autonomes devront généraliser à travers les catégories d’objets et décider quel objet utiliser pour une tâche donnée.

Un jour, espèrent les chercheurs, un robot dans une cuisine sera capable de sélectionner une bouilloire pour préparer une tasse de thé, de savoir la saisir par la poignée et d'utiliser la bouilloire pour verser de l'eau chaude par son bec.

Règles d'autonomie

Une véritable correspondance fonctionnelle rendrait les robots bien plus adaptables qu’ils ne le sont actuellement. Un robot domestique n’aurait pas besoin de formation sur tous les outils à sa disposition, mais pourrait raisonner par analogie pour comprendre que même si un couteau à pain et un couteau à beurre peuvent tous deux couper, ils remplissent chacun un objectif spécifique.

Dans leurs travaux, disent les chercheurs, ils ont atteint une correspondance fonctionnelle « dense », là où les efforts antérieurs n'avaient permis d'obtenir qu'une correspondance clairsemée pour définir seulement quelques points clés sur chaque objet. Jusqu’à présent, le défi résidait dans le manque de données, qui devaient généralement être collectées grâce à des annotations humaines.

« Contrairement à l'apprentissage supervisé traditionnel dans lequel vous avez des images d'entrée et les étiquettes correspondantes écrites par des humains, il n'est pas possible d'annoter humainement des milliers de pixels en les alignant individuellement sur deux objets différents », explique le co-premier auteur Linan « Frank » Zhao, qui a récemment obtenu sa maîtrise en informatique à Stanford. « Nous avons donc demandé à l'IA de nous aider. »

L'équipe a réussi à trouver une solution avec ce que l'on appelle une supervision faible : en utilisant des modèles de langage de vision pour générer des étiquettes permettant d'identifier les pièces fonctionnelles et en faisant appel à des experts humains uniquement pour contrôler la qualité du pipeline de données. Il s’agit d’une approche de formation beaucoup plus efficace et rentable.

« Quelque chose qui aurait été très difficile à apprendre il y a quelques années grâce à un apprentissage supervisé peut désormais être réalisé avec beaucoup moins d'effort humain », ajoute Zhao.

Dans l’exemple de la bouilloire et de la bouteille, par exemple, chaque pixel du bec de la bouilloire est aligné avec un pixel de l’embouchure de la bouteille, offrant ainsi une cartographie fonctionnelle dense entre les deux objets. Le nouveau système de vision peut repérer la fonction dans la structure d'objets disparates, une fusion précieuse entre définition fonctionnelle et cohérence spatiale.

Voir l'avenir

Pour l’instant, le système a été testé uniquement sur des images et non dans le cadre d’expériences réelles avec des robots, mais l’équipe estime que le modèle constitue une avancée prometteuse pour la robotique et la vision par ordinateur. La correspondance fonctionnelle dense fait partie d’une tendance plus large de l’IA dans laquelle les modèles passent de la simple reconnaissance de formes au raisonnement sur les objets. Là où les modèles précédents ne voyaient que des motifs de pixels, les systèmes plus récents peuvent en déduire une intention.

« Il s'agit d'une leçon sur la forme qui suit la fonction », explique Yunzhi Zhang, doctorant en informatique à Stanford. « Les parties d'objet qui remplissent une fonction spécifique ont tendance à rester cohérentes entre les objets, même si les autres parties varient considérablement. »

Pour l’avenir, les chercheurs souhaitent intégrer leur modèle dans des agents incarnés et créer des ensembles de données plus riches.

« Si nous parvenons à trouver un moyen d'obtenir des correspondances fonctionnelles plus précises, cela devrait s'avérer être un pas en avant important », déclare Stojanov. « En fin de compte, apprendre aux machines à voir le monde à travers le prisme de la fonction pourrait changer la trajectoire de la vision par ordinateur, en la rendant moins axée sur les modèles et davantage sur l'utilité. »