Les modèles de vision en languettement plus claire grâce aux données d'entraînement synthétiques

Les modèles de vision en languettement plus claire grâce aux données d'entraînement synthétiques

Dans la course à développer une IA qui comprend des images complexes comme les prévisions financières, les diagrammes médicaux et les étiquettes de nutrition – essentiels pour que l'IA fonctionne indépendamment dans des milieux quotidiens – des systèmes de source fermée comme Chatgpt et Claude donnent actuellement le rythme. Mais personne en dehors de leurs fabricants ne sait comment ces modèles ont été formés ou quelles données ils ont utilisés, laissant des alternatives open-source se précipiter pour rattraper leur retard.

Désormais, les chercheurs de Penn Engineering et de l'Allen Institute for IA (AI2) ont développé une nouvelle approche pour former des modèles open-source: utiliser l'IA pour créer des figures scientifiques, des graphiques et des tableaux qui enseignent à d'autres systèmes d'IA comment interpréter des informations visuelles complexes.

Leur outil, Cosyn (abréviation de la synthèse guidée par le code), exploite les compétences de codage des modèles d'IA open source pour rendre les images riches en texte et générer des questions et réponses pertinentes, donnant à d'autres systèmes d'IA les données dont ils ont besoin pour apprendre à « voir » et à comprendre les chiffres scientifiques.

Alors que les chercheurs détaillent dans un article pour ACL 2025, l'une des principales conférences d'IA au monde, les modèles formés Cosyn correspondent ou surpassent leurs pairs propriétaires.

« C'est comme emmener un étudiant qui est génial pour l'écrire et lui demander d'apprendre à quelqu'un à dessiner, simplement en décrivant à quoi devrait ressembler le dessin », explique Yue Yang (Greng'25), co-premier auteur et chercheur au groupe de recherche Prior: Perceptual Reasoning and Interaction. « Nous transférons essentiellement les forces de l'IA open source du texte à la vision. »

Images synthétiques, résultats réels

L'ensemble de données résultant, appelé COSYN-400K, comprend plus de 400 000 images synthétiques et 2,7 millions d'ensembles d'instructions correspondantes, dans des catégories aussi variées que les graphiques scientifiques, les structures chimiques et les captures d'écran d'interface utilisateur. Les modèles formés par Cosyn ont surperformé les meilleurs systèmes propriétaires comme GPT-4V et Gemini 1.5 Flash sur une suite de sept tests de référence.

Dans un cas particulièrement frappant, les chercheurs n'ont généré synthétiquement que 7 000 étiquettes de nutrition pour former un modèle pour une nouvelle référence qu'ils ont créée, NutritionQA. Ce petit ensemble de données ciblé a permis à leur modèle de battre d'autres formes sur des millions d'images réelles.

« La formation de l'IA avec Cosyn est incroyablement efficace des données », explique Mark Yatskar, professeur adjoint à CIS et co-avis de doctorat de Yang. « Nous montrons que les données synthétiques peuvent aider les modèles à se généraliser aux scénarios du monde réel qui pourraient être uniques aux besoins d'une personne, comme lire une étiquette nutritionnelle pour une personne à faible vision. »

Échelle et diversification de l'ensemble de données

La création de centaines de milliers d'exemples de formation utiles et variés a posé ses propres défis.

Pour atteindre l'échelle requise, le co-auteur Ajay Patel, un doctorant en informatique et en sciences de l'information (CIS), a développé une bibliothèque de logiciels appelée DataDreamer qui automatise l'ensemble du processus de génération de données. Cela a permis à l'équipe d'inviter des modèles de langage en parallèle, permettant une production à grande échelle d'images synthétiques et d'instructions.

Afin d'éviter la répétition, l'équipe a exploité les «personnages» de «profils de personnages courts comme« un romancier de science-fiction »ou« un professeur de chimie », qui a guidé les réponses de l'IA et a façonné le contenu et le ton de chaque exemple. L'intégration de ces personnages dans des invites a conduit Cosyn à produire des données d'entraînement plus riches et plus variées dans un large éventail de domaines.

« Les modèles d'IA ont tendance à se répéter à moins que vous ne les enfoncez dans différentes perspectives », explique Patel. « Les personnages nous donnent une façon évolutive de le faire, et les résultats parlent d'eux-mêmes. »

Niveler les règles du jeu pour l'IA open source

En construisant Cosyn entièrement avec des outils open-source, les chercheurs espèrent démocratiser l'accès à de puissantes méthodes de formation en langue visuelle sans les défis éthiques et juridiques entourant le grattage Web et le contenu protégé par le droit d'auteur.

« Il s'agit d'une étape vers l'IA nous aidant à faire de nouvelles découvertes scientifiques », ajoute Chris Callison-Burch, professeur à CIS, qui a co-avisé Yang et conseille actuellement Patel. « Il ouvre la porte aux systèmes d'IA qui peuvent raisonner sur les documents scientifiques, ce qui pourrait aider un large éventail de personnes, des étudiants aux chercheurs. »

De la compréhension à l'action

L'équipe a publié le Cosyn Code et l'ensemble de données au public, invitant la communauté de la recherche mondiale à s'appuyer sur leur travail.

Yang regarde déjà les données synthétiques qui peuvent aider l'IA non seulement à comprendre les images, mais aussi à interagir avec eux, en servant d'agents numériques intelligents qui peuvent cliquer sur les boutons, remplir les formulaires et aider les utilisateurs dans les tâches quotidiennes.

« À long terme, nous voulons une IA qui peut agir dans le monde, pas seulement le décrire », explique Yang. « C'est une façon de l'enseigner comment. »