Gaia

Voici Gaia, référence en matière d’IA nouvelle génération

Gaia est le nom d’une nouvelle référence en matière d’intelligence artificielle qui vise à évaluer si les chatbots comme ChatGPT sont capables de démontrer un raisonnement et des compétences de type humain dans les tâches quotidiennes.

Créé par des chercheurs de Meta, Hugging Face, AutoGPT et GenAI, le benchmark « pose des questions du monde réel qui nécessitent un ensemble de compétences fondamentales telles que raisonnement, gestion multimodale, navigation web et compétence générale dans l’utilisation des outils »écrivent les chercheurs dans un article publié sur arXiv.

Gaia se concentre sur les compétences humaines

Selon les chercheurs, les questions de Gaia sont « conceptuellement simples pour les humains, mais difficiles pour une IA plus avancée ». Ils ont testé le benchmark sur des répondants humains et sur GPT-4, constatant que les humains ont obtenu un score de 92 %, tandis que GPT-4 avec des plugins n’a obtenu qu’un score de 15 %.

« Cette disparité notable en termes de performances contraste avec la tendance récente des LLM à surpasser les humains dans des tâches nécessitant une expertise professionnelle, par exemple en droit ou en chimie », peut-on lire dans le journal.

Plutôt que de se concentrer sur les tâches difficiles pour les humains, les chercheurs suggèrent que les benchmarks devraient cibler les tâches qui démontrent qu’un système d’IA a une robustesse similaire à celle de l’humain moyen.

Gaia, 466 questions du monde réel avec des réponses uniques

La méthodologie Gaia a conduit les chercheurs à concevoir 466 questions du monde réel avec des réponses uniques. Trois cents réponses sont conservées en privé pour alimenter un classement public Gaia, tandis que 166 questions et réponses ont été publiées sous forme d’ensembles de développement.

« Résoudre Gaia représenterait une étape importante dans la recherche sur l’IA », a déclaré l’auteur principal Grégoire Mialon de Meta AI.

crédit : arxiv.org

L’écart de performance entre les humains et l’IA

Jusqu’à maintenant, Le score principal de Gaia appartient à GPT-4 avec des plugins sélectionnés manuellement, avec une précision de 30 %. Les créateurs du benchmark ont ​​déclaré qu’un système qui résoudrait Gaia pourrait être considéré comme une intelligence artificielle générale dans un délai raisonnable.

« Les tâches qui sont difficiles pour les humains ne le sont pas nécessairement pour les systèmes récents », lit-on dans le document, qui critique la pratique courante consistant à tester les IA sur des examens complexes en mathématiques, sciences et droit.

Au lieu de cela, Gaia se concentre sur des questions telles que : « Quelle ville a accueilli le Concours Eurovision de la chanson 2022 selon le site officiel ? et « Combien d’images y a-t-il dans le dernier article Wikipédia Lego pour 2022 ?

« Nous pensons que l’avènement de l’intelligence générale artificielle (IAG) dépend de la capacité d’un système à faire preuve d’une robustesse semblable à celle d’un humain dans de tels domaines », ont écrit les chercheurs.

Gaia pourrait influencer l’avenir de l’IA

La sortie de Gaia représente une nouvelle direction passionnante pour la recherche sur l’IA qui pourrait avoir de vastes implications. En se concentrant sur les compétences humaines dans les activités quotidiennes, plutôt que sur les compétences spécialisées, Gaia pousse le domaine au-delà des références les plus étroites de l’IA.

Si les futurs systèmes peuvent faire preuve de bon sens, d’adaptabilité et de raisonnement au niveau humain, tels que mesurés par Gaia, on dira qu’ils ont atteint l’intelligence générale artificielle (AGI) dans un sens pratique. Cela pourrait accélérer la diffusion des assistants, services et produits IA.

Pour les chercheurs, le chemin vers l’AGI est encore long

Cependant, les auteurs préviennent que les chatbots actuels ont encore un long chemin à parcourir pour résoudre Gaia. Leurs performances montrent les limites actuelles du raisonnement, de l’utilisation des outils et de la gestion de diverses situations réelles.

Alors que les chercheurs relèvent le défi Gaia, leurs résultats révéleront les progrès réalisés pour rendre les systèmes d’IA plus performants, plus généraux et plus fiables. Mais des références comme Gaia conduisent également à une réflexion sur la manière de façonner l’IA au profit de l’humanité.

En plus de stimuler les avancées techniques, Gaia pourrait aider à orienter l’IA dans une direction qui met l’accent sur des valeurs humaines partagées telles que l’empathie, la créativité et le jugement éthique.

Vous pouvez consulter le classement de référence GAIA ici pour voir quel LLM de nouvelle génération est actuellement le plus performant dans cette évaluation.