La méthode enseigne des modèles d'IA génératifs pour localiser des objets personnalisés
Supposons qu'une personne emmène son bouledogue français, Bowser, au parc à chiens. Identifier Bowser alors qu'il joue parmi les autres chiens est facile pour le propriétaire du chien sur place.
Mais si quelqu’un souhaite utiliser un modèle d’IA générative tel que GPT-5 pour surveiller son animal de compagnie pendant qu’il est au travail, le modèle pourrait échouer dans cette tâche fondamentale. Les modèles de langage visuel comme GPT-5 excellent souvent dans la reconnaissance d'objets généraux, comme un chien, mais ils sont peu performants dans la localisation d'objets personnalisés, comme Bowser le bouledogue français.
Pour remédier à cette lacune, des chercheurs du MIT et du MIT-IBM Watson AI Lab ont introduit une nouvelle méthode de formation qui enseigne aux modèles de langage de vision pour localiser des objets personnalisés dans une scène.
Leur méthode utilise des données de suivi vidéo soigneusement préparées dans lesquelles le même objet est suivi sur plusieurs images. Ils ont conçu l'ensemble de données de sorte que le modèle doit se concentrer sur des indices contextuels pour identifier l'objet personnalisé, plutôt que de s'appuyer sur des connaissances précédemment mémorisées.
Lorsqu'on lui donne quelques exemples d'images montrant un objet personnalisé, comme l'animal de compagnie de quelqu'un, le modèle recyclé est mieux à même d'identifier l'emplacement de ce même animal dans une nouvelle image.
Les modèles recyclés avec leur méthode ont surpassé les systèmes de pointe dans cette tâche. Surtout, leur technique laisse intactes le reste des capacités générales du modèle.
Cette nouvelle approche pourrait aider les futurs systèmes d'IA à suivre des objets spécifiques dans le temps, comme le sac à dos d'un enfant, ou à localiser des objets d'intérêt, comme une espèce animale dans le cadre de la surveillance écologique. Cela pourrait également contribuer au développement de technologies d’assistance basées sur l’IA qui aideraient les utilisateurs malvoyants à trouver certains objets dans une pièce.
« En fin de compte, nous voulons que ces modèles soient capables d'apprendre du contexte, tout comme le font les humains. Si un modèle peut bien faire cela, plutôt que de le recycler pour chaque nouvelle tâche, nous pourrions simplement fournir quelques exemples et il déduireait comment effectuer la tâche à partir de ce contexte. Il s'agit d'une capacité très puissante », déclare Jehanzeb Mirza, postdoctorant au MIT et auteur principal d'un article sur cette technique publié sur le site Web. arXiv serveur de préimpression.
Mirza est rejoint sur l'article par les co-auteurs principaux Sivan Doveh, étudiant diplômé à l'Institut des sciences Weizmann ; et Nimrod Shabtay, chercheur chez IBM Research ; James Glass, chercheur scientifique principal et chef du groupe des systèmes de langage parlé au laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ; et d'autres. Les travaux seront présentés lors de la Conférence internationale sur la vision par ordinateur (ICCV 2025), qui se tiendra du 19 au 23 octobre à Honolulu, à Hawaï.
Une lacune inattendue
Les chercheurs ont découvert que les grands modèles linguistiques (LLM) peuvent exceller dans l’apprentissage à partir du contexte. S'ils donnent à un LLM quelques exemples d'une tâche, comme des problèmes d'addition, il peut apprendre à répondre à de nouveaux problèmes d'addition en fonction du contexte qui a été fourni.
Un modèle de langage vision (VLM) est essentiellement un LLM auquel est connecté un composant visuel. Les chercheurs du MIT ont donc pensé qu'il hériterait des capacités d'apprentissage en contexte du LLM. Mais ce n’est pas le cas.
« La communauté des chercheurs n'a pas encore été en mesure de trouver une réponse claire à ce problème particulier. Le goulot d'étranglement pourrait provenir du fait que certaines informations visuelles sont perdues lors du processus de fusion des deux composants, mais nous ne le savons tout simplement pas », explique Mirza.
Les chercheurs ont entrepris d'améliorer les capacités des VLM à effectuer une localisation en contexte, ce qui implique la recherche d'un objet spécifique dans une nouvelle image. Ils se sont concentrés sur les données utilisées pour recycler les VLM existants pour une nouvelle tâche, un processus appelé réglage fin.
Les données de réglage fin typiques sont collectées à partir de sources aléatoires et représentent des collections d'objets du quotidien. Une image peut représenter des voitures garées dans une rue, tandis qu’une autre comprend un bouquet de fleurs.
« Il n'y a pas de réelle cohérence dans ces données, donc le modèle n'apprend jamais à reconnaître le même objet dans plusieurs images », explique-t-il.
Pour résoudre ce problème, les chercheurs ont développé un nouvel ensemble de données en sélectionnant des échantillons à partir de données de suivi vidéo existantes. Ces données sont des clips vidéo montrant le même objet se déplaçant dans une scène, comme un tigre traversant une prairie.
Ils ont découpé des images de ces vidéos et structuré l'ensemble de données de manière à ce que chaque entrée soit constituée de plusieurs images montrant le même objet dans différents contextes, avec des exemples de questions et de réponses sur son emplacement.
« En utilisant plusieurs images du même objet dans différents contextes, nous encourageons le modèle à localiser systématiquement cet objet d'intérêt en se concentrant sur le contexte », explique Mirza.
Forcer la concentration
Mais les chercheurs ont découvert que les VLM ont tendance à tricher. Au lieu de répondre en fonction d’indices contextuels, ils identifieront l’objet à l’aide des connaissances acquises lors de la pré-formation.
Par exemple, puisque le modèle a déjà appris qu'une image de tigre et l'étiquette « tigre » sont corrélées, il pourrait identifier le tigre traversant la prairie sur la base de ces connaissances pré-entraînées, au lieu de déduire du contexte.
Pour résoudre ce problème, les chercheurs ont utilisé des pseudo-noms plutôt que des noms réels de catégories d’objets dans l’ensemble de données. Dans ce cas, ils ont changé le nom du tigre en « Charlie ».
« Il nous a fallu un certain temps pour comprendre comment empêcher le modèle de tricher. Mais nous avons changé la donne pour le modèle. Le modèle ne sait pas que 'Charlie' peut être un tigre, il est donc obligé de regarder le contexte », dit-il.
Les chercheurs ont également dû relever des défis pour trouver la meilleure façon de préparer les données. Si les images sont trop rapprochées, l’arrière-plan ne changera pas suffisamment pour offrir une diversité de données.
Au final, le réglage fin des VLM avec ce nouvel ensemble de données a amélioré la précision de la localisation personnalisée d'environ 12 % en moyenne. Lorsqu'ils ont inclus l'ensemble de données avec des pseudo-noms, les gains de performances ont atteint 21 %.
À mesure que la taille du modèle augmente, leur technique entraîne des gains de performances plus importants.
À l'avenir, les chercheurs souhaitent étudier les raisons possibles pour lesquelles les VLM n'héritent pas des capacités d'apprentissage en contexte de leurs LLM de base. En outre, ils prévoient d’explorer des mécanismes supplémentaires pour améliorer les performances d’un VLM sans avoir besoin de le recycler avec de nouvelles données.
« Ce travail recadre la localisation d'objets personnalisés en quelques plans – en s'adaptant à la volée au même objet dans de nouvelles scènes – comme un problème de réglage des instructions et utilise des séquences de suivi vidéo pour apprendre aux VLM à localiser en fonction du contexte visuel plutôt que des priorités de classe. Il introduit également la première référence pour ce paramètre avec des gains solides dans les VLM ouverts et propriétaires.
« Compte tenu de l'immense importance d'une mise à la terre rapide et spécifique à une instance, souvent sans réglage fin, pour les utilisateurs de flux de travail du monde réel (tels que la robotique, les assistants de réalité augmentée, les outils créatifs, etc.), la recette pratique et centrée sur les données offerte par ce travail peut contribuer à améliorer l'adoption généralisée des modèles de base du langage visuel », explique Saurav Jha, postdoctorant à l'Institut d'intelligence artificielle Mila-Québec, qui n’a pas participé à ce travail.
