Qu’un modèle d’IA est coincé en jouant quelque chose d’aussi basique que «Pokémon» semble inquiétant. Ce n’est pas du tout
C’était en 2013 et presque personne n’avait entendu parler Profondeurune petite startup d’intelligence artificielle. Ses chercheurs sont venus pour faire en sorte que son système d’IA apprenne à jouer des jeux vidéo (déjà gagnés) et l’a formé avec quelques titres de l’ancienne console Atari.
Parmi eux, «Breakout» (en Espagne, il est apparu comme «Arkanoid»), et une vidéo de l’époque montre comment après 10 minutes de jeu, la machine ne savait rien. Après deux heures de jeu, oui, j’ai déjà joué en tant qu’expert.
Mais à quatre heures, quelque chose d’incroyable a passé: La machine a découvert un « truc » Pour maximiser l’effort: il a fait que le ballon finit par créer « un tunnel », puis a jeté le ballon à travers ce tunnel afin qu’il n’arrête pas de rebondir et de terminer presque tout le niveau sans effort.
Depuis lors, l’utilisation de jeux vidéo pour former des modèles d’IA ou pour vérifier s’ils sont capables de leur s’adapter et de les compléter est courant dans l’industrie. C’est précisément ce que Anthropic a essayé lorsque Claude 3.7 Sonnet a lancé il y a quelques semaines.
Ce modèle hybride de l’IA s’est avéré être une avancée notable dans des domaines tels que la programmation et le raisonnement, mais en anthropique, ils voulaient le tester avec un test singulier: Pour jouer au jeu vidéo «Pokémon».
L’IA est coincée
Dans cette expérience, les responsables d’Anthropic voulaient évaluer si les systèmes d’IA « peuvent faire face à des défis avec des compétences de plus en plus complexes, non seulement par la formation, mais un raisonnement généralisé ».
Les versions précédentes de Claude ont même passé un mauvais moment à essayer de commencer à jouer à partir de l’écran de départ du jeu vidéo, mais « Ertid Thinking » de Claude 3.7 permet au nouveau modèle «Planifier à l’avancerappelez-vous leurs objectifs et s’adaptez lorsque les stratégies initiales échouent »d’une manière que leurs prédécesseurs n’ont pas fait.
Pour les responsables de l’anthropique, ces améliorations finiront par aider à résoudre des problèmes réels. C’est quelque chose que nous voyons également avec le Benchmark Arc-Aagi 2, qui vise précisément à mesurer la capacité des choses qui sont faciles pour nous (contrôler un jeu vidéo, résoudre un puzzle visuel) mais ces modèles sont particulièrement difficiles.


Source: anthropique.
L’avancée de l’anthropique ici est remarquable, mais est loin de pouvoir être considérée comme un succès. En fait et comme ils commentent dans ARS Technica, des milliers de spectateurs ont vérifié sur la chaîne Twitch créée par Anthropic How Claude a regardé totalement coincé dans le mont Slénitel’une des sections de jeux vidéo.
Dans ce canal, vous pouvez également voir comment Claude essaie toujours de résoudre le problème et de faire avancer. « Pensez » et « raison » et montre même ce que « pensée » et « raisonnement », mais le modèle ne surmonte toujours pas ce jeu vidéo.
Et malgré tout, c’est une grande réalisation de l’IA
Compte tenu du fait que le jeu vidéo est orienté vers les enfants, il semble facile de mépriser la réalisation de l’anthropique, mais ces avancées doivent être appréciées très positivement. Pour commencer, le modèle Claude 3.7 était utilisé n’était pas « pressé » pour jouer au jeu vidéo: j’ai dû en savoir plus sur la marche et m’adapter au jeu.
Ici également, Claude « voit » l’écran et ce qui arrive à réagir en fonction de cette analyse. Et le problème est que Les graphiques «Pokémon» sont très basiques et pixélisésqui soulève un défi encore plus grand pour le modèle anthropique: avec de meilleurs graphiques, il se comporterait probablement beaucoup mieux, expliquait l’un des responsables de l’expérience.
Même ainsi, Claude se comporte particulièrement bien dans les parties du jeu dans lequel le texte est montré, ce qui permet à ce modèle de mieux reconnaître ce qu’il doit faire dans cette phase du jeu vidéo.
Mais s’il y a un problème grave, c’est aussi celui de la mémorisation. Claude a du mal à se souvenir de tout ce que vous avez appris: Il a une « mémoire » limitée Sur 200 000 jetons et lorsqu’ils épuisent Claude, ils recourent à des résumés et condensent les informations, ce qui peut conduire à éliminer les petits détails qui sont importants à avancer dans le jeu.
Quoi qu’il en soit, la réalisation de l’anthropique reste remarquable, et indique un avenir dans lequel ces modèles peuvent jouer de manière autonome et le faire exceptionnellement à toutes sortes de jeux. Comme DeepMind l’a déjà fait avec cette version simpliste de «l’arkanoïde», mais en grande partie.
Dans Simseo | Le dernier Google est une IA qui joue aux jeux vidéo. La clé: compréhensive le langage naturel