Les chercheurs recherchent un consensus sur ce qui constitue l’intelligence artificielle générale

Une équipe de chercheurs de DeepMind se concentrant sur la prochaine frontière de l’intelligence artificielle – l’intelligence générale artificielle (AGI) – a réalisé qu’elle devait d’abord résoudre un problème clé. Qu’est-ce que l’AGI exactement, ont-ils demandé ?

Elle est souvent considérée en général comme un type d’intelligence artificielle possédant la capacité de comprendre, d’apprendre et d’appliquer des connaissances dans un large éventail de tâches, fonctionnant comme le cerveau humain. Wikipedia élargit la portée en suggérant que l’AGI est « un type hypothétique d’agent intelligent ». [that] pourrait apprendre à accomplir n’importe quelle tâche intellectuelle que les êtres humains ou les animaux peuvent accomplir. »

La charte d’OpenAI décrit l’AGI comme un ensemble de « systèmes hautement autonomes qui surpassent les humains dans les tâches les plus rentables ».

Gary Marcus, expert en IA et fondateur de Geographic Intelligence, l’a défini comme « toute intelligence flexible et générale, dotée d’une ingéniosité et d’une fiabilité comparables (ou supérieures) à l’intelligence humaine ».

Avec autant de variations dans les définitions, l’équipe DeepMind a adopté une notion simple exprimée il y a des siècles par Voltaire : « Si vous souhaitez converser avec moi, définissez vos termes. »

Dans un article publié sur le serveur de prépublication arXivles chercheurs ont décrit ce qu’ils ont appelé « un cadre pour classer les capacités et le comportement des modèles AGI ».

Ce faisant, ils espèrent établir un langage commun pour les chercheurs qui mesurent les progrès, comparent les approches et évaluent les risques.

« Atteindre une « intelligence » de niveau humain est un objectif implicite ou explicite pour de nombreuses personnes dans notre domaine », a déclaré Shane Legg, qui a introduit le terme AGI il y a 20 ans.

Dans une interview avec MIT Review, Legg a expliqué : « Je vois tellement de discussions où les gens semblent utiliser le terme pour signifier des choses différentes, et cela conduit à toutes sortes de confusion. Maintenant que l’AGI devient un sujet si important, nous devons affiner ce que nous voulons dire.

Dans le arXiv Dans son article intitulé « Niveaux d’AGI : opérationnaliser les progrès sur la voie de l’AGI », l’équipe a résumé plusieurs principes requis d’un modèle AGI. Ils mettent l’accent sur les capacités d’un système et non sur le processus.

« Réaliser l’AGI n’implique pas que les systèmes « pensent » ou « comprennent » [or] possèdent des qualités telles que la conscience ou la sensibilité », a souligné l’équipe.

Un système AGI doit également avoir la capacité d’apprendre de nouvelles tâches et savoir quand demander des éclaircissements ou de l’aide à des humains pour une tâche.

Un autre paramètre est l’accent mis sur le déploiement potentiel, et pas nécessairement réel, d’un programme. « Exiger le déploiement comme condition de mesure de l’AGI introduit des obstacles non techniques tels que des considérations juridiques et sociales, ainsi que des problèmes potentiels d’éthique et de sécurité », ont expliqué les chercheurs.

L’équipe a ensuite compilé une liste de seuils d’intelligence allant du « niveau 0, sans AGI » au « niveau 5, surhumain ». Les niveaux 1 à 4 comprenaient les niveaux de réussite « Émergent », « Compétent », « Expert » et « Virtuoses ».

Trois programmes ont atteint le seuil du label AGI. Mais ces trois modèles de texte génératifs (ChatGPT, Bard et Llama 2) n’ont atteint que le « niveau 1, émergent ». Aucun autre programme d’IA actuel ne répondait aux critères de l’AGI.

Parmi les autres programmes répertoriés comme IA, citons SHRDLU, un des premiers ordinateurs de compréhension du langage naturel développé au MIT, répertorié au « Niveau 1, Emerging AI ».

Au « niveau 2, compétent » se trouvent Siri, Alexa et Google Assistant. Le vérificateur de grammaire Grammarly se classe au « niveau 3, Expert AI ».

Plus haut dans cette liste, au « Niveau 4, Virtuoso », se trouvent Deep Blue et AlphaGo. En tête de liste, « Niveau 5, Superhumain », se trouvent AlphaFold de DeepMind, qui prédit la structure 3D d’une protéine à partir de sa séquence d’acides aminés ; et StockFish, un puissant programme d’échecs open source.

Cependant, il n’existe pas de définition unique proposée pour l’AGI, et les changements sont constants.

« À mesure que nous obtenons davantage de connaissances sur ces processus sous-jacents, il peut être important de revoir notre définition de l’AGI », déclare Meredith Ringel Morris, principale scientifique de Google DeepMind pour l’interaction entre l’homme et l’IA.

« Il est impossible d’énumérer l’ensemble des tâches réalisables par une intelligence suffisamment générale », ont déclaré les chercheurs. « En tant que tel, un benchmark AGI devrait être un benchmark vivant. Un tel benchmark devrait donc inclure un cadre pour générer et convenir de nouvelles tâches. »