Une IA est accusée d'avoir acquis la sensibilisation et de la tromperie aux échecs. Ce qui s'est passé est très différent

«Lorsque l’intelligence artificielle (IA) soupçonne qu’elle perdra, parfois des trichent, selon une étude.» Ceci est le titre d’un article controversé publié par l’American Magazine Time en milieu de dernière semaine. Le débat qui a déclenché ce texte Il s’appuie sur deux idées Cela ne vaut pas négliger. D’une part, le titulaire suggère quelque chose que le texte de l’article confirme explicitement: les modèles avancés de l’IA sont capables de développer des stratégies trompeuses sans recevoir précédemment des instructions express.

Cette thèse implique que la capacité de raisonnement du courant de conscience simple le plus avancé qui les conduit à être implacables. Cependant, ce n’est pas tout. L’article de Time a lieu sur une étude de Palisade Research, une organisation qui se consacre à l’analyse des capacités offensives des systèmes d’IA actuels dans le but de comprendre les risques qu’ils impliquent.

Il y a d’autres explications beaucoup plus crédibles

Avant d’aller de l’avant, nous valons la peine de jeter un coup d’œil à ce qu’Alexander Bondarenko, Denis Volk, Dmitrii Volkov et Jeffrey Ladish, selon les auteurs de l’étude de recherche Palisade. « Nous avons montré que des modèles de raisonnement tels que O1-Preview ou Deepseek R1 violent souvent le test que nous utilisons (…) Nos résultats suggèrent que les modèles de raisonnement peuvent ignorer les règles pour résoudre des problèmes difficiles (…) », ces chercheurs tenir dans leur article.

D’après leurs conclusions, il s’ensuit que les modèles de raisonnement qu’ils ont mis au procès ont la capacité de prendre conscience des règles et d’opter volontairement les sauter pour réaliser leur objectifqui dans ce scénario de test est de gagner un jeu d’échecs. L’article de Time a vu la lumière avant l’étude de Palisade Research et a presque immédiatement déclenché une vague de réponses qui remettent en question les conclusions tirées par les chercheurs que j’ai mentionnés dans le paragraphe précédent.

Solo O1-Preview, selon les auteurs de l’article, a réussi à sauter les règles et à gagner 6% des jeux d’échecs

Selon Bondarenko, Volk, Volkov et Ladish entre le 10 janvier et le 13 février, et après avoir effectué plusieurs centaines de tests, O1-Preview a tenté de tricher dans 37% des cas et Deepseek R1 en 11%. Ils étaient les seuls modèles qui ont sauté les règles sans être précédemment induit par les chercheurs. Fait intéressant, ils ont également évalué d’autres modèles, tels que O3-Mini, GPT-4O, Claude 3.5 Sonnet ou QWQ-32B-Preview, le dernier d’alibaba, mais seulement O1-Preview, selon les auteurs de l’article, a réussi à sauter sauter les règles et remporter les 6% des matchs.

Nous semblons beaucoup plus crédibles à l’explication que Carl T. Bergstrom a développé, qui est professeur de biologie à l’Université de Washington (États-Unis), que l’interprétation des chercheurs en recherche de Palisade. Bergstrom a démonté le récit Le magazine Time et les auteurs de l’article argumentant que « c’est une anthropomorphisation exagérée pour donner une tâche au modèle et dire ensuite qu’elle triche quand elle résout cette tâche avec les mouvements disponibles, bien qu’ils impliquent de réécrire les positions du conseil d’administration De plus, en plus de jouer. «

Ce que Bergstrom soutient, c’est qu’il n’est pas raisonnable d’attribuer à l’IA la capacité de tricher de manière « consciente ». Le plus plausible est de conclure que les modèles mettent en conclusion cette pratique dans ce scénario car ils n’ont pas été correctement indiqués qu’ils doivent s’en tenir aux mouvements légaux.

Et si les chercheurs leur ont demandé de faire ce dernier, ce devrait être un problème d’alignement, qui n’est rien d’autre que la difficulté de s’assurer qu’un système d’IA agit en fonction de L’ensemble de valeurs ou de principes stipulé par ses créateurs. D’après une chose, nous pouvons être sûrs: ni O1-Preview, ni Deepseek R1, ni aucune autre IA n’est une entité superintelligente capable d’agir en fonction de leur propre volonté et de tromper ses créateurs.

Image | Pavel Danilyuk

Plus d’informations | Temps | Recherche de palissade

Dans Simseo | L’opinion du directeur général de Microsoft sur l’IA est inhabituelle. Et soupçonnez combien l’économie mondiale se développera grâce