Un système d'IA a atteint le niveau humain lors d'un test d'« intelligence générale » : voici ce que cela signifie
Un nouveau modèle d'intelligence artificielle (IA) vient d'obtenir des résultats au niveau humain dans un test conçu pour mesurer « l'intelligence générale ».
Le 20 décembre, le système o3 d'OpenAI a obtenu un score de 85 % sur le benchmark ARC-AGI, bien au-dessus du précédent meilleur score de l'IA de 55 % et à égalité avec le score humain moyen. Il a également obtenu de bons résultats à un test de mathématiques très difficile.
Créer une intelligence générale artificielle, ou AGI, est l’objectif déclaré de tous les grands laboratoires de recherche en IA. À première vue, OpenAI semble avoir au moins fait un pas significatif vers cet objectif.
Même si le scepticisme demeure, de nombreux chercheurs et développeurs en IA estiment que quelque chose vient de changer. Pour beaucoup, la perspective de l’AGI semble désormais plus réelle, urgente et plus proche que prévu. Est-ce qu'ils ont raison ?
Généralisation et intelligence
Pour comprendre ce que signifie le résultat o3, vous devez comprendre en quoi consiste le test ARC-AGI. En termes techniques, il s'agit d'un test de « l'efficacité des échantillons » d'un système d'IA pour s'adapter à quelque chose de nouveau : combien d'exemples d'une situation nouvelle le système doit voir pour comprendre comment il fonctionne.
Un système d'IA comme ChatGPT (GPT-4) n'est pas très efficace en matière d'échantillonnage. Il a été « entraîné » sur des millions d’exemples de textes humains, construisant des « règles » probabilistes sur les combinaisons de mots les plus probables.
Le résultat est plutôt bon pour les tâches courantes. Il est mauvais pour les tâches peu courantes, car il contient moins de données (moins d'échantillons) sur ces tâches.
Jusqu’à ce que les systèmes d’IA puissent apprendre à partir d’un petit nombre d’exemples et s’adapter avec plus d’efficacité, ils ne seront utilisés que pour des tâches très répétitives et pour lesquelles des échecs occasionnels sont tolérables.
La capacité de résoudre avec précision des problèmes jusqu’alors inconnus ou nouveaux à partir d’échantillons limités de données est connue sous le nom de capacité de généralisation. Il est largement considéré comme un élément nécessaire, voire fondamental, du renseignement.
Grilles et motifs
Le benchmark ARC-AGI teste l'adaptation efficace d'un échantillon en utilisant de petits problèmes de carrés de grille comme celui ci-dessous. L’IA doit comprendre le modèle qui transforme la grille de gauche en grille de droite.
Chaque question donne trois exemples dont vous pouvez tirer des leçons. Le système d’IA doit ensuite comprendre les règles qui « généralisent » des trois exemples au quatrième.
Ceux-ci ressemblent beaucoup aux tests de QI dont vous vous souvenez parfois à l’école.
Faiblesses des règles et adaptation
Nous ne savons pas exactement comment OpenAI a procédé, mais les résultats suggèrent que le modèle o3 est hautement adaptable. A partir de quelques exemples seulement, il trouve des règles qui peuvent être généralisées.
Pour déterminer un modèle, nous ne devons pas faire d’hypothèses inutiles ni être plus précis que ce que nous devons réellement être. En théorie, si vous parvenez à identifier les règles « les plus faibles » qui font ce que vous voulez, alors vous avez maximisé votre capacité d’adaptation à de nouvelles situations.
Qu’entendons-nous par les règles les plus faibles ? La définition technique est complexe, mais les règles les plus faibles sont généralement celles qui peuvent être décrites dans des énoncés plus simples.
Dans l'exemple ci-dessus, une expression anglaise simple de la règle pourrait être quelque chose comme : « Toute forme avec une ligne saillante se déplacera vers la fin de cette ligne et » couvrira » toutes les autres formes avec lesquelles elle chevauche. «
Vous recherchez des chaînes de pensée ?
Bien que nous ne sachions pas encore comment OpenAI est parvenu à ce résultat, il semble peu probable qu'ils aient délibérément optimisé le système o3 pour trouver des règles faibles. Cependant, pour réussir les tâches ARC-AGI, il faut les trouver.
Nous savons qu'OpenAI a commencé avec une version à usage général du modèle o3 (qui diffère de la plupart des autres modèles, car il peut passer plus de temps à « réfléchir » à des questions difficiles), puis l'a formé spécifiquement pour le test ARC-AGI.
Le chercheur français en IA François Chollet, qui a conçu le benchmark, estime que les recherches o3 passent par différentes « chaînes de pensée » décrivant les étapes à suivre pour résoudre la tâche. Il choisirait alors le « meilleur » selon une règle vaguement définie, ou « heuristique ».
Ce ne serait « pas différent » de la façon dont le système AlphaGo de Google recherchait différentes séquences de mouvements possibles pour battre le champion du monde de Go.
Vous pouvez considérer ces chaînes de pensée comme des programmes qui correspondent aux exemples. Bien sûr, si cela ressemble à l’IA Go-playing, alors elle a besoin d’une heuristique, ou d’une règle vague, pour décider quel programme est le meilleur.
Il pourrait y avoir des milliers de programmes différents apparemment tout aussi valides générés. Cette heuristique pourrait être « choisir le plus faible » ou « choisir le plus simple ».
Cependant, si c'est comme AlphaGo, alors ils ont simplement demandé à une IA de créer une heuristique. C'était le processus pour AlphaGo. Google a formé un modèle pour évaluer différentes séquences de mouvements comme étant meilleures ou pires que d'autres.
Ce que nous ne savons toujours pas
La question est alors : est-ce vraiment plus proche de l’AGI ? Si c'est ainsi que fonctionne o3, alors le modèle sous-jacent n'est peut-être pas bien meilleur que les modèles précédents.
Les concepts que le modèle apprend du langage pourraient ne pas être plus adaptés à la généralisation qu’auparavant. Au lieu de cela, nous assistons peut-être simplement à une « chaîne de pensée » plus généralisable trouvée grâce aux étapes supplémentaires de formation d’une heuristique spécialisée pour ce test. La preuve, comme toujours, sera dans le pudding.
Presque tout sur o3 reste inconnu. OpenAI a limité la divulgation à quelques présentations médiatiques et les premiers tests à une poignée de chercheurs, de laboratoires et d'institutions de sécurité de l'IA.
Comprendre véritablement le potentiel de l'o3 nécessitera un travail approfondi, comprenant des évaluations, une compréhension de la répartition de ses capacités, de la fréquence de ses échecs et de sa fréquence de réussite.
Lorsque o3 sera enfin publié, nous saurons bien mieux s'il est à peu près aussi adaptable qu'un humain moyen.
Si tel est le cas, cela pourrait avoir un impact économique révolutionnaire énorme, ouvrant la voie à une nouvelle ère d’intelligence accélérée et auto-améliorée. Nous aurons besoin de nouvelles références pour l’AGI elle-même et d’une réflexion sérieuse sur la manière dont elle devrait être gouvernée.
Sinon, ce sera quand même un résultat impressionnant. Cependant, la vie quotidienne restera sensiblement la même.