Meta présente Chameleon, un modèle multimodal de fusion précoce

Meta présente Chameleon, un modèle multimodal de fusion précoce

Les chercheurs en IA de Meta, la société propriétaire de Facebook, Instagram, WhatsApp et de nombreux autres produits, ont conçu et construit un modèle multimodal pour rivaliser avec Gemini de Google.

Appelé Chameleon, le nouveau système est construit sur une première architecture de fusion et, de ce fait, il est capable de combiner plusieurs entrées d'une manière impossible avec la plupart des autres systèmes.

Le groupe, appelé Chameleon Team, a rédigé un article décrivant son nouveau modèle, y compris son architecture et ses performances lors des tests. Il est publié sur le arXiv serveur de préimpression.

Les modèles multimodaux d'IA, comme leur nom l'indique, sont des applications capables d'accepter plus d'un type de saisie lors d'une requête : un utilisateur peut soumettre la photo d'un cheval, par exemple, tout en demandant également combien de membres de sa race ont remporté le prix. Derby kentucky.

À ce jour, la plupart de ces modèles ont traité ces données en tant qu’entités distinctes au début du traitement, puis les ont ensuite rassemblées pour rechercher des associations – une technique appelée fusion tardive.

Une telle approche s’est avérée efficace, mais elle présente des limites en termes d’intégration. Pour surmonter ce problème, l'équipe de Meta a basé son modèle sur une architecture de fusion précoce.

Cette architecture a permis à l’équipe d’entrelacer les associations dès le départ. Ils y sont parvenus en convertissant les images en jetons, de la même manière que les LLM analysent les mots. L’équipe a également ajouté la possibilité d’utiliser un vocabulaire unifié de jetons provenant de différentes sources, notamment des images, du code ou du texte, et affirme que cela a permis d’appliquer l’informatique transformatrice avec des types mixtes de données d’entrée.

Les chercheurs notent que contrairement à Gemini, Chameleon est un modèle de bout en bout, ce qui rend inutile le recours à des décodeurs d’images. Ils ont également développé et utilisé de nouveaux types de techniques de formation pour permettre à leur modèle de fonctionner avec plusieurs types de jetons, ceux qui impliquaient un apprentissage en deux étapes et un ensemble de données massif d'environ 4 400 milliards de textes, d'images ou de paires de jetons ainsi que des données entrelacées. Le système a été entraîné à l’aide de 7 milliards puis de 34 milliards de paramètres sur 5 millions d’heures sur un GPU haute vitesse.

Le résultat, affirme l’équipe de recherche, est un modèle capable d’accepter uniquement du texte, des images uniquement, ou une combinaison des deux, et de renvoyer des réponses et des associations intelligentes avec une meilleure précision que ses concurrents.