Le système AI découvre les catégories visuelles tout en s'adaptant à de nouveaux contextes

Une nouvelle approche appelée catégorisation ad hoc ouverte (OAK) aide les systèmes AI à réinterpréter dynamiquement la même image différemment en fonction du contexte de catégorisation, plutôt que d'utiliser une interprétation visuelle fixe. Une étude dirigée par l'Université du Michigan sur ce sujet a été présentée en juin 2025 à la conférence IEEE sur la vision par ordinateur et la reconnaissance des modèles (CVPR) à Nashville, Tennessee.

« Lorsque les gens pensent à utiliser l'IA pour la catégorisation d'images, ils supposent souvent que chaque image a un sens fixe et objectif. Notre travail montre qu'une image peut être considérée à partir de plusieurs perspectives, en fonction de la tâche, du contexte ou des buts. Tout comme les humains ne voient pas une image comme statique, mais adaptez sa signification en fonction de ce dont ils ont besoin, AI devraient interpréter les images de manière flexible, un ajustement basé sur le contexte et les objectifs, » a déclaré Stella étude.

La catégorisation d'IA précédente utilisait des catégories rigides fixes comme «chaise», «voiture» ou «chien» qui ne pouvaient pas s'adapter à différentes fins ou contextes. Le chêne peut plutôt évaluer la même image différemment en fonction du contexte souhaité. Par exemple, une image d'une personne à boire pourrait être classée par l'action «boire», «l'emplacement» dans un magasin », ou l'humeur« heureuse ».

L'équipe de recherche a construit son modèle en développant le clip d'Openai, un modèle d'IA en langue visuelle de fondation qui apprend à associer des images aux descriptions textuelles. Ils ont ajouté des jetons de contexte qui fonctionnent comme des ensembles d'instructions spécialisés pour le modèle d'IA. Ces jetons, appris à la fois des données étiquetées et non marquées, sont introduites dans le système aux côtés des données d'image pour façonner le traitement des fonctionnalités visuelles pour différents contextes. Il en résulte que le modèle se concentre naturellement sur les régions d'images pertinentes – telles que les mains pour l'action ou le fond pour l'emplacement – sans dire explicitement où chercher.

Surtout, les nouveaux jetons de contexte suivent une formation tandis que le système de clip d'origine reste le même, permettant au modèle de s'adapter à des fins différentes sans perdre les connaissances existantes.

« Nous avons été surpris par l'efficacité du système à concentrer l'attention de manière appropriée et à organiser proprement les données avec un mécanisme aussi simple de quelques jetons et de quelques exemples étiquetés par contexte », a déclaré Zilin Wang, un doctorant en informatique et en génie chez UM et auteur principal de l'étude.

De plus, Oak est en mesure de découvrir de nouvelles catégories qu'il n'a jamais vues pendant la formation. Par exemple, lorsqu'on lui a demandé de reconnaître les articles dans une image qui peut être vendue lors d'une vente de garage, le système apprendrait à trouver des articles comme des bagages ou des chapeaux même s'ils étaient seulement des exemples de chaussures.

Oak découvre de nouvelles catégories en combinant les approches de haut en bas et ascendantes. Les conseils sémantiques descendants utilisent les connaissances linguistiques pour proposer de nouvelles catégories potentielles. Si vous savez que les chaussures peuvent être vendues lors de la vente de garage, le système étend que proposer des chapeaux pourrait également être vendu à la vente de garage, même sans voir un exemple de chapeau pendant la formation.

En plus de sa connaissance du langage, Oak utilise un regroupement visuel ascendant qui découvre les modèles dans des données visuelles non étiquetées. Le système pourrait remarquer que de nombreuses valises apparaissent dans des images non marquées pour la tâche à accomplir. Il découvre donc une nouvelle catégorie pertinente pour la vente de garage, même si aucune valise n'est étiquetée comme un article valide.

Les chercheurs obtiennent ces deux approches pour travailler ensemble pendant la formation. Des propositions sémantiques comme les chapeaux incitent le système visuel à rechercher des chapeaux, et s'ils se trouvent, cela confirme une nouvelle catégorie valide. D'un autre côté, les clusters visuels notables utilisent les connaissances de texte d'image existantes de Clip pour aider à identifier ce qu'il faut appeler le cluster.

« Nous recherchons de nouvelles catégories en utilisant à la fois les méthodes descendantes et ascendantes, et elles doivent interagir », a déclaré Wang.

L'équipe de recherche a testé Oak sur deux ensembles de données d'image, Stanford et Clevr-4, et a comparé les performances à deux groupes de modèles de référence – CLIP avec un vocabulaire étendu et une découverte de catégorie généralisée ou un DCN.

Oak a atteint de la pointe de la technologie dans la précision et la découverte de concepts dans plusieurs catégorisations. Notamment, Oak a atteint 87,4% de précision nouvelle lors de l'identification de l'humeur dans l'ensemble de données de Stanford, dépassant le clip et le GCD de plus de 50%.

Bien que toutes les méthodes génèrent des cartes de saillance, les cartes d'Oak se concentrent sur la bonne partie de l'image pour chaque contexte en apprenant des données plutôt que des programmes, offrant à la fois une flexibilité et des résultats interprétables.

À l'avenir, l'approche contextuelle d'Oak sera utile dans des applications comme la robotique, où les systèmes doivent percevoir le même environnement différemment en fonction de leur tâche actuelle.

L'Université de Californie, Berkeley et le Bosch Center pour l'IA ont également contribué à cette recherche.