mettre pour jouer Pokémon

mettre pour jouer Pokémon

Le psychologue suisse Jean Piaget avait une définition de renseignement particulièrement intéressante. Il a dit que « l’intelligence est ce que vous utilisez lorsque vous ne savez pas quoi faire ». Cela peut être un élément clé d’une nouvelle tendance pour mesurer la capacité de l’intelligence artificielle. Celui qui met l’IA pour jouer à Pokémon.

À quel point l’intelligence artificielle est-elle intelligente? Il existe déjà des preuves qui permet d’évaluer la capacité d’IA lors de la résolution des problèmes scientifiques, mathématiques ou de programmation. Tout cela aide à «mesurer» la progression de ces modèles, mais face à toutes ces techniques, il y a une idée unique: mesurer la capacité susmentionnée de l’IA jouant des Pokémon.

Claude a commencé la tendance. Ceux qui sont responsables d’Anthropic ont eu la possibilité d’essayer comment leur modèle d’IA se comporterait, Claude 3.7, lorsqu’il jouait à Pokémon Red. Ils ont donc utilisé leur outil de navigation automatique pour voir comment il a utilisé leurs capacités pour jouer au jeu vidéo. Ils ont créé un canal Twitch et il y a même un suivi – sur la façon dont Reddit va.

Et maintenant Gemini Pro collecte le gant. Un développeur qui n’a aucune affiliation avec Google a décidé d’appliquer la même idée, mais avec Gemini Pro 2.5 expérimental comme modèle d’IA pour le tester. Sur sa chaîne Twitch, il montre un jeu de Pokémon Blue (c’est lui qui connaissait le plus de ce développeur) s’exécutant dans un émulateur de Game Boy Advance.

Qui gagne? À l’heure actuelle, Gemini Pro 2.5 expérimental semble faire quelque chose de mieux. Claude était coincé dans une phase de jeu à quelques reprises, par exemple, ce qui a de nouveau forcé ses jeux. Les Gémeaux semblent avancer sans autant de problèmes, bien qu’il ne joue pas de la même manière que Claude et par exemple a accès à un minimapa qui, selon son créateur, compense l’une des limitations de Gemini, qui n’a pas d’outils de navigation automatiques tels que Claude.

Capture d'écran 2025 04 16 à 11 54 48
Capture d'écran 2025 04 16 à 11 54 48

Pourquoi Pokémon pour Game Boy. La version Pokémon de Game Boy Advance qui est utilisée dans ces expériences est parfaite pour évaluer ces capacités du LLM pour plusieurs raisons. Par exemple, il s’agit d’un jeu vidéo à son tour, permettant à la « pensée » de son prochain mouvement. Mais c’est aussi un jeu graphiquement simple, ce qui les rend plus faciles à « voir » l’écran et à comprendre ce qui se passe à chaque instant sans que cela soit très cher au niveau des ressources.

Une référence étonnamment utile. Cette façon d’évaluer à quel point une IA peut être intelligente aussi révélatrice que les tests de programmation ou de mathématiques. Ou plus, même. Si quelqu’un donne à un garçon de 10 ans un interrupteur Nintendo, cet enfant apprendra à jouer à n’importe quel jeu en quelques minutes. Cependant, les IAS ont souvent des choses particulièrement difficiles dans ce scénario et finissent par exécuter des mouvements illégaux.

Capture d'écran 2025 04 16 à 12 35 56
Capture d'écran 2025 04 16 à 12 35 56

Aucune mémorisation. De nombreux repères utilisés pour mesurer la capacité des modèles d’IA sont basés sur leur «mémoire». Lorsqu’ils résolvent un problème, c’est normalement parce que la solution fait partie de leur ensemble de données de formation, ou il y avait déjà un problème similaire résolu et peut « reproduire » ou « régurgit ». Dans cette approche, la proposition est quelque chose de différent et exige une certaine capacité à s’adapter aux modèles d’IA.

Arc-Agi et le jeu de serpent. En février, Arc Prize Foundation, qui développe une référence tout aussi frappante pour les modèles d’IA, expérimentée avec un autre jeu vidéo simple: une version du serpent mythique qui a fait face à divers modèles d’IA pour voir comment ils se comportaient. Les modèles de raisonnement étaient les gagnants clairs (78% des victoires), et encore une fois, cela leur a montré la pertinence de ce type de jeux vidéo pour améliorer les modèles d’IA à l’avenir.

L’IA apprend à s’adapter. Comme nous le disions, ce type de repères est particulièrement intéressant car ils nous permettent de vérifier si un modèle d’IA est capable de nous adapter à de nouvelles situations et de défis et de les surmonter. C’est quelque chose que des entreprises comme DeepMind font avec certains de leurs développements depuis un certain temps, et c’est certainement une alternative intéressante à explorer pour les développeurs de ces modèles.

Dans Simseo | J’ai utilisé Claude 3.7 pendant des heures. C’est le plus proche d’un cerveau humain que j’ai ressenti avec une AI