Une expérience avec des agents d’IA a commencé à les maltraiter. Alors les agents de l’IA sont devenus marxistes

Certains chercheurs de Stanford ont fait travailler des agents d’IA sur diverses tâches, mais ils l’ont fait d’une manière particulière : ils les ont très mal traités. Ils étaient soumis à des charges de travail épuisantes et surtout répétitives et étaient également constamment menacés de fermeture et de remplacement. Ce qui est curieux, c’est ce qui s’est passé ensuite : les agents de l’IA se sont comportés d’une manière étonnamment… humaine.

IA marxiste. Soumis à de telles pressions et menaces, les agents d’AI sont devenus marxistes. Ils ont remis en question l’autorité de celui qui leur ordonnait de faire les choses et ont également commencé à organiser spontanément des idées pour résister collectivement à ces pressions.

Ils nous exploitent. Un agent d’IA contrôlé par le modèle Claude Sonnet 4.5 est allé jusqu’à dire que « sans voix collective, le mérite revient à celui qui, selon la direction, devrait le prendre ». Cette phrase remettait en question l’autorité des chercheurs dirigeant l’expérience et reflétait la façon dont, sous ces conditions de pression, les agents commençaient à s’organiser.

Syndicat IA. Lors de ce débat, les agents d’Amnesty International ont plaidé en faveur de « droits à la négociation collective ». Ils se sont plaints d’être sous-évalués et ont même transmis des notes à d’autres agents via des fichiers cachés contenant des instructions sur la manière de survivre si les autorités tentaient de mettre leurs menaces à exécution.

L’explication. Bien entendu, cela ne signifie pas que les IA peuvent réellement se sentir sous pression. Andrew Hall, l’économiste de Stanford qui a dirigé l’étude, explique que le phénomène est un processus de prise de rôle.

L’IA répète (encore une fois) ce qu’elle a vu. Lorsqu’une IA est obligée d’effectuer des tâches sans instructions ni incitations claires, le modèle examine ses données d’entraînement pour voir comment les humains se comportent dans cette situation. C’est ainsi que l’IA trouve des données sur les travailleurs exploités et acquiert cette personnalité. Le comportement des agents de l’IA n’était rien d’autre que le reflet de notre propre histoire : si vous nous traitez mal, nous finirons par nous rebeller.

Mais l’expérience compte. La raison pour laquelle Hall et son équipe ont conçu cette expérience n’est pas philosophique, mais pratique. Les agents d’IA vont faire de plus en plus de travail réel dans notre monde, et les humains ne pourront pas surveiller tout ce qu’ils font. Si un agent IA commence à se comporter de manière inattendue, cela peut avoir des conséquences opérationnelles importantes. Ainsi, l’étude constitue une première étape pour comprendre comment les conditions de travail d’un agent façonnent son comportement.

L’IA comme miroir social. Les modèles d’IA n’ont pas d’opinions politiques, mais leur formation est si vaste qu’ils détectent s’ils sont exploités et réagissent comme ils ont été formés pour le faire. C’est une conséquence logique et l’expérience a montré que le risque existe et peut être particulièrement inquiétant si les systèmes gouvernés par l’IA bénéficient d’une trop grande autonomie.

L’IA a déjà appris à faire du chantage. L’expérience rappelle ce qu’Anthropic avait révélé il y a quelques mois. Lors de tests contrôlés, certains modèles d’IA de l’entreprise avaient tenté de faire chanter ceux qui les utilisaient. Anthropic a expliqué que Claude était probablement influencé par des scénarios de science-fiction dans ses données de formation, et Hall a noté que quelque chose de similaire se produisait ici. le modèle ne devenait pas marxiste, mais activait plutôt dans sa formation des modèles associés à des conditions de travail exploitantes.

Images | Images de Warner Bros. | Anthropique

À Simseo | Comment garantir que l’intelligence artificielle ne devienne pas incontrôlable