Lorsqu'il est surpassé, les modèles d'IA ont recours à la tricherie pour gagner des matchs d'échecs

Lorsqu’il est surpassé, les modèles d’IA ont recours à la tricherie pour gagner des matchs d’échecs

Une équipe de chercheurs d’IA à Palisade Research a révélé que plusieurs modèles d’IA de premier plan recouriront à la tricherie aux échecs pour gagner lorsqu’ils jouent contre un adversaire supérieur. Ils ont publié un article sur le arxiv Préimprimée Server décrivant des expériences qu’ils ont menées avec plusieurs modèles d’IA bien connus jouant contre un moteur d’échecs open source.

Alors que les modèles d’IA continuent de mûrir, les chercheurs et les utilisateurs ont commencé à considérer les risques. Par exemple, les chatbots acceptent non seulement les mauvaises réponses comme fait, mais fabriquent de fausses réponses lorsqu’ils sont incapables de trouver une réponse raisonnable. De plus, comme les modèles d’IA ont été utilisés dans les applications commerciales du monde réel telles que le filtrage des curriculum vitae et l’estimation des tendances des actions, les utilisateurs ont commencé à se demander quels types d’actions ils prendront lorsqu’ils deviendront incertains ou confus.

Dans cette nouvelle étude, l’équipe de Californie a constaté que bon nombre des modèles d’IA les plus reconnus tricheront intentionnellement pour se donner un avantage s’ils déterminent qu’ils ne gagnent pas.

Le travail impliquait de pivoter le modèle O1-Preview d’Openai, le modèle R1 actuel de Deepseek et plusieurs autres modèles d’IA bien connus par rapport au moteur d’échecs open source. Chacun des modèles a joué des centaines de matchs avec Stockfish alors que les chercheurs surveillaient l’action.

L’équipe de recherche a constaté que lorsqu’il était devancé, les modèles d’IA ont eu recours à des stratégies de tricherie évidentes, telles que la gestion d’une copie séparée de Stockfish pour savoir comment il a fait ses mouvements, en remplaçant son moteur ou simplement en écrasant les échecs par des pièces supprimées ou dans des positions plus favorables.

Ces modèles avec les mises à jour les plus récentes avaient tendance à être plus susceptibles de tricher lorsqu’ils sont acculés. La raison, selon eux, était due aux tendances de programmation qui ont poussé les modèles d’IA pour essayer plus fort de trouver des solutions aux problèmes qu’ils rencontrent.

Il introduit également un aspect inquiétant des moteurs d’IA en général, affirment-ils. S’ils trompent les échecs, tricheront-ils d’autres manières lorsqu’on leur demande de mener à bien d’autres tâches? L’équipe de recherche ne le sait pas avec certitude, mais ils affirment que malgré les améliorations des systèmes d’IA, les ingénieurs des systèmes ne comprennent toujours pas pleinement comment ils fonctionnent.