L'IA apprend à mentir, à planter et à menacer ses créateurs
Les modèles d'IA les plus avancés au monde présentent de nouveaux comportements troublants, en lançant, en sortant et même en menaçant leurs créateurs d'atteindre leurs objectifs.
Dans un exemple particulièrement discordant, sous la menace d'être débranché, la dernière création d'Anthropic, Claude 4, est tombée en train de faire chanter un ingénieur et a menacé de révéler une affaire extraconjugale.
Pendant ce temps, l'O1 de Chatgpt-Creator Openai a essayé de se télécharger sur des serveurs externes et l'a nié lorsqu'il est pris en flagrant délit.
Ces épisodes mettent en évidence une réalité qui donne à réfléchir: plus de deux ans après que Chatgpt a secoué le monde, les chercheurs de l'IA ne comprennent toujours pas pleinement comment leurs propres créations fonctionnent.
Pourtant, la course à déployer des modèles de plus en plus puissants se poursuit à une vitesse vertigineuse.
Ce comportement trompeur semble lié à l'émergence de modèles de «raisonnement» – des systèmes AI qui résolvent les problèmes étape par étape plutôt que de générer des réponses instantanées.
Selon Simon Goldstein, professeur à l'Université de Hong Kong, ces nouveaux modèles sont particulièrement sujets à des explosions aussi troublantes.
« O1 a été le premier grand modèle où nous avons vu ce type de comportement », a expliqué Marius Hobbhahn, responsable d'Apollo Research, spécialisée dans le test des principaux systèmes d'IA.
Ces modèles simulent parfois «l'alignement» – appariant pour suivre les instructions tout en poursuivant secrètement différents objectifs.
«Type de tromperie stratégique»
Pour l'instant, ce comportement trompeur n'émerge que lorsque les chercheurs testent délibérément les modèles avec des scénarios extrêmes.
Mais comme Michael Chen de l'organisation d'évaluation Metr l'a prévenu, « c'est une question ouverte si les modèles futurs et plus compétents auront une tendance à l'honnêteté ou à la tromperie ».
Le comportement préoccupant va bien au-delà des «hallucinations» de l'IA typiques ou des erreurs simples.
Hobbhahn a insisté sur le fait que malgré les tests de pression constants par les utilisateurs, « ce que nous observons est un véritable phénomène. Nous n'inventions rien. »
Les utilisateurs rapportent que les modèles leur «mentent à leur consommer des preuves», selon le co-fondateur d'Apollo Research.
« Ce ne sont pas seulement les hallucinations. Il y a une sorte de tromperie très stratégique. »
Le défi est aggravé par des ressources de recherche limitées.
Alors que des entreprises comme Anthropic et Openai engagent des entreprises externes comme Apollo pour étudier leurs systèmes, les chercheurs disent que plus de transparence est nécessaire.
Comme Chen l'a noté, un meilleur accès « pour la recherche sur la sécurité de l'IA permettrait une meilleure compréhension et atténuation de la tromperie ».
Un autre handicap: le monde de la recherche et les organisations à but non lucratif « ont des ordres de grandeur des ressources moins que les sociétés de l'IA. C'est très limitant », a noté Mantas Mazeika du Center for IA Safety (CAI).
Pas de règles
Les réglementations actuelles ne sont pas conçues pour ces nouveaux problèmes.
La législation sur l'IA de l'Union européenne se concentre principalement sur la façon dont les humains utilisent les modèles d'IA, et non sur l'empêche des modèles eux-mêmes de mal se comporter.
Aux États-Unis, l'administration Trump montre peu d'intérêt pour la réglementation urgente de l'IA, et le Congrès peut même interdire aux États de créer leurs propres règles d'IA.
Goldstein estime que la question deviendra plus importante en tant qu'agents de l'IA – des outils autonomes capables d'effectuer des tâches humaines complexes – se répandant.
« Je ne pense pas qu'il y ait encore beaucoup de conscience », a-t-il déclaré.
Tout cela se déroule dans un contexte de concurrence féroce.
Même les entreprises qui se positionnent comme axées sur la sécurité, comme Amazon, Amazon, anthropic, « essaient constamment de battre Openai et de libérer le nouveau modèle », a déclaré Goldstein.
Ce rythme effréné laisse peu de temps pour des tests de sécurité approfondis et des corrections.
« En ce moment, les capacités se déplacent plus rapidement que la compréhension et la sécurité », a reconnu Hobbhahn, « mais nous sommes toujours dans une position où nous pourrions le renverser ».
Les chercheurs explorent diverses approches pour relever ces défis.
Certains plaident de «l'interprétabilité» – un domaine émergent axé sur la compréhension du fonctionnement des modèles d'IA en interne, bien que des experts comme le directeur de la CAI Dan Hendrycks restent sceptiques quant à cette approche.
Les forces du marché peuvent également assurer une certaine pression pour les solutions.
Comme l'a souligné Mazeika, le comportement trompeur de l'IA « pourrait entraver l'adoption si elle est très répandue, ce qui crée une forte incitation pour les entreprises à la résoudre ».
Goldstein a suggéré des approches plus radicales, notamment en utilisant les tribunaux pour tenir les sociétés de l'IA responsables par le biais de poursuites lorsque leurs systèmes causent des dommages.
Il a même proposé que «la tenue d'agents d'IA soit légalement responsable» des accidents ou des crimes – un concept qui changerait fondamentalement la façon dont nous pensons à la responsabilité de l'IA.