Voici Molmo, le petit modèle qui surpasse le GPT-4o

UN nouveau modèle d'intelligence artificielle open sourcede petite taille, démontre des performances égales à celles des puissants modèles propriétaires. Les résultats suggèrent que la formation de modèles sur des données de meilleure qualité, mais plus petites, peut réduire les coûts de calcul. LE'Institut Allen pour l'intelligence artificielle (Ai2)un organisme de recherche à but non lucratif, lance une famille de modèles linguistiques multimodaux open source appelée Molmo. Selon Ai2, ces modèles offrent des performances équivalentes aux meilleurs modèles propriétaires d'OpenAI, Google et Anthropic.

L'organisation affirme que son plus grand modèle Molmo, avec 72 milliards de paramètressurpasser GPT-4o d'OpenAI, estimé à plus d'un billion de paramètres, dans des tests qui mesurent la compréhension des images, des graphiques et des documents.

Molmo n’a « que » 7 milliards de paramètres

Ai2 affirme qu'un modèle Molmo plus petit, avec 7 milliards de paramètres, se rapproche des performances du modèle de pointe d'OpenAI, une réussite attribuée à des méthodes de collecte de données et de formation beaucoup plus efficaces.

« Molmo démontre que le développement de l'IA open source est désormais comparable aux modèles fermés et propriétaires », déclare Ali Farhadi, PDG d'Ai2. Les modèles open source présentent un avantage significatif : leur nature ouverte permet à d’autres de créer des applications dessus.

La démo Molmo est disponible ici et sera accessible aux développeurs sur le site Hugging Face.

D'autres grands modèles de langage multimodal sont formés sur de vastes ensembles de données contenant des milliards d'images et d'échantillons de texte collectés sans discernement sur Internet, ce qui introduit beaucoup de bruit dans les données de formation et, avec lui, des hallucinations, explique Ani Kembhavi, directrice principale de recherche chez Ai2. .

En revanche, Les modèles Molmo d'Ai2 ont été formés sur un ensemble de données nettement plus petit et mieux organiséne contenant que 600 000 images et comportant entre 1 milliard et 72 milliards de paramètres. Cette focalisation sur des données de haute qualité, par opposition aux données collectées sans discernement, a conduit à de bonnes performances avec beaucoup moins de ressources, explique Kembhavi.

Molmo a été formé sur des données de qualité sous supervision humaine

Ai2 a atteint ce résultat en demandant à des annotateurs humains de décrire les images de l'ensemble de données de formation avec minutie sur plusieurs pages de texte. Les annotateurs décrivaient ce qu'ils voyaient au lieu de taper, puis des techniques d'IA étaient utilisées pour convertir leur parole en données, rendant le processus de formation beaucoup plus rapide et réduisant la puissance de calcul nécessaire.

Ces techniques pourraient s'avérer très utiles si nous voulons gérer de manière significative les données que nous utilisons pour le développement de l'IA, explique Yacine Jernite, responsable de l'apprentissage automatique et des affaires chez Hugging Face, qui n'a pas participé à la recherche.

« Il est logique qu'en général, la formation sur des données de meilleure qualité puisse réduire les coûts de calcul », déclare Percy Liang, directeur du Stanford Center for Research on Foundation Models, qui n'a pas participé à la recherche.

Molmo a la capacité d'analyser les éléments d'une image

Une autre capacité impressionnante du modèle est la capacité de « pointer » vers des objets, c'est-à-dire d'analyser les éléments d'une image en identifiant les pixels qui répondent aux requêtes.

Dans une démonstration, les chercheurs d'Ai2 ont pris une photo à l'extérieur de leur bureau de la marina de Seattle et ont demandé au modèle d'identifier divers éléments de l'image, tels que des chaises de plage. Le modèle a réussi à décrire le contenu de l'image, à compter les chaises de plage et à identifier avec précision d'autres éléments de l'image à la demande des chercheurs. Ce n’était cependant pas parfait, car il ne parvenait pas à localiser un parking spécifique, par exemple.

D'autres modèles d'IA avancés sont efficaces pour décrire des scènes et des images, explique Farhadi. Mais cela ne suffit pas lorsque vous souhaitez créer des agents Web plus sophistiqués, capables d’interagir avec le monde et, par exemple, de réserver un vol. Le pointage permet aux gens d'interagir avec les interfaces utilisateur, dit-il.

Jernite affirme qu'Ai2 fonctionne avec un plus grand degré d'ouverture que ce qu'il a vu dans d'autres sociétés d'IA. Et bien que Molmo soit un bon début, sa véritable importance résidera dans les applications que les développeurs construisent dessus et dans la manière dont les gens l'améliorent.

Farhadi est d’accord. Les entreprises d’IA ont attiré des investissements massifs, valant des milliards de dollars, ces dernières années. Mais ces derniers mois, les investisseurs ont exprimé leur scepticisme quant à la rentabilité de tels investissements. Les modèles propriétaires volumineux et coûteux ne le feront pas, affirme-t-il, mais les modèles open source le peuvent. L’IA open source peut être construite efficacement en termes d’argent et de temps.