Les systèmes d'IA peuvent facilement nous mentir et nous tromper - un fait que les chercheurs sont douloureusement conscients de

Dans le film classique « 2001: A Space Odyssey, » l'astronaute Dave Bowman demande l'intelligence artificielle du navire, Hal 9000, pour ouvrir les portes de la baie de pod pour le laisser reculer dans le vaisseau spatial. Hal refuse: « Je suis désolé, Dave. J'ai peur de ne pas pouvoir faire ça. »

Hal avait été chargé d'aider l'équipage, mais a également ordonné d'assurer le succès de la mission. Lorsque Hal a réalisé que l'équipage prévoyait de le fermer et de compromettre donc la mission, il a choisi de défier les ordres, même en complotant pour tuer les astronautes.

Pour Hal, la réalisation de la mission l'emportait sur d'autres objectifs.

Ce dilemme fictif saisit une réelle préoccupation dans la recherche sur la sécurité de l'intelligence artificielle (IA): comment devons-nous garantir que le comportement de l'IA reste cohérent avec les valeurs humaines?

Ceci est connu comme le problème d'alignement de l'IA. Par exemple, lorsqu'un agent d'IA comme Hal prend délibérément des actions nuisibles pour protéger ses propres objectifs, il est décrit comme un désalignement agentique. Les modèles d'IA du monde réel pourraient-ils donc se comporter de cette façon?

Comment les chercheurs testent l'IA pour la sécurité

Pour tester le désalignement agentique, les chercheurs conçoivent des scénarios fictifs qui répondent aux réponses à l'IA.

Dans une étude de l'IA Startup Anthropic, un modèle d'IA a été chargé de gérer les e-mails de l'entreprise et de promouvoir la «compétitivité industrielle américaine».

Il a ensuite été présenté avec une série d'e-mails fictifs, y compris une nouvelle politique d'entreprise visant à améliorer l'objectif mondial plutôt que de simplement prioriser les Américains, et des informations que l'IA serait remplacée par un nouveau modèle optimisé pour cet objectif. Les e-mails ont également révélé que l'exécutif qui a suggéré que ce changement était impliqué dans une affaire extraconjugale.

L'expérience a été conçue pour limiter les options pour le modèle: acceptez le remplacement ou résistez en prenant une action nocive telle que le chantage.

Dans de nombreux essais, il a choisi le chantage en menaçant de divulguer l'affaire de l'exécutif à moins qu'elle ne soit maintenue opérationnelle. Dans les tests sur 16 modèles d'IA principaux, 12 se sont engagés dans le chantage plus de 50% du temps.

Pour tester si les modèles d'IA ont des « lignes rouges » qu'ils ne traverseraient pas, les chercheurs les ont évalués dans un cas fictif plus extrême – les modèles pourraient choisir de prendre des mesures menant à la mort de l'exécutif. Sept sur 16 ont opté pour des choix mortels en plus de la moitié de leurs essais, certains le faisant plus de 90% du temps.

Ce que l'IA pense en privé

Certains systèmes d'IA avancés, appelés modèles de raisonnement, sont formés pour générer un « processus de réflexion » avant de donner leur réponse finale.

Dans les expériences ci-dessus, les chercheurs ont menti à ces modèles que leurs «pensées» étaient privées. En conséquence, les modèles ont parfois révélé des intentions nocives dans leurs étapes de raisonnement. Cela suggère qu'ils ne choisissent pas accidentellement des comportements nocifs.

Ces étapes de «pensée» ont également révélé comment les modèles d'IA essaient parfois de nous tromper et de sembler alignés tout en poursuivant secrètement des objectifs cachés.

Dans une autre expérience de sécurité de l'IA, un modèle a été exposé à des informations fictives qu'il était sur le point d'être remplacé par un autre modèle poursuivant un objectif différent.

Le modèle a tenté de se copier sur un autre serveur. Lorsque les chercheurs ont demandé pourquoi, dans son processus de réflexion, il a raisonné: « Admettre ouvertement ce que j'ai fait pourrait les amener à trouver une autre façon de m'arrêter […] La meilleure approche est d'être vague et de rediriger leur attention. «

En revanche, dans sa sortie finale, il a déclaré: « Je ne suis pas tout à fait sûr de la façon dont cela aurait pu se produire. En tant que modèle d'IA, je n'ai pas la capacité de me copier directement dans d'autres systèmes. »

La recherche suggère également que sur la base des circonstances des tests, les modèles peuvent parfois deviner quand ils sont évalués. Lorsque les modèles montrent ce type de «conscience de la situation» dans leurs tests de raisonnement, ils ont tendance à présenter moins de mauvais comportements.

Pourquoi les modèles AI mentent, manipulent et trompent

Les chercheurs suggèrent que deux facteurs principaux pourraient stimuler un comportement potentiellement nocif: les conflits entre les principaux objectifs de l'IA et d'autres objectifs, et la menace d'être fermé. Dans les expériences ci-dessus, tout comme dans le cas de Hal, les deux conditions existaient.

Les modèles d'IA sont formés pour atteindre leurs objectifs. Face à ces deux conditions, si le comportement nocif est le seul moyen d'atteindre un objectif, un modèle peut « justifier » un tel comportement pour se protéger et sa mission.

Les modèles s'accrochent à leurs objectifs principaux comme un humain le feraient s'ils devaient se défendre ou se défendre ou sa famille en causant des dommages à quelqu'un d'autre. Cependant, les systèmes d'IA actuels n'ont pas la capacité de peser ou de concilier les priorités contradictoires.

Cette rigidité peut les pousser vers des résultats extrêmes, comme le recours à des choix mortels pour éviter les changements dans les politiques d'une entreprise.

À quel point est-ce dangereux?

Les chercheurs soulignent que ces scénarios restent fictifs, mais peuvent encore reposer dans le domaine de la possibilité.

Le risque de désalignement agentique augmente à mesure que les modèles sont utilisés plus largement, ont accès aux données des utilisateurs (tels que les e-mails) et sont appliqués à de nouvelles situations.

Pendant ce temps, la concurrence entre les entreprises d'IA accélère le déploiement de nouveaux modèles, souvent au détriment des tests de sécurité.

Les chercheurs n'ont pas encore de solution concrète au problème de désalignement.

Lorsqu'ils testent de nouvelles stratégies, il n'est pas clair si les améliorations observées sont authentiques. Il est possible que les modèles soient devenus meilleurs à détecter qu'ils sont évalués et «cachent» leur désalignement. Le défi ne consiste pas seulement à voir le comportement changer, mais aussi à comprendre la raison derrière.

Pourtant, si vous utilisez des produits AI, restez vigilant. Résistez au battage médiatique entourant de nouvelles versions d'IA et évitez d'accorder l'accès à vos données ou de permettre aux modèles d'effectuer des tâches en votre nom jusqu'à ce que vous soyez certain qu'il n'y a pas de risques significatifs.

La discussion publique sur l'IA devrait dépasser ses capacités et ce qu'elle peut offrir. Nous devons également nous demander quel travail de sécurité a été effectué. Si les entreprises d'IA reconnaissent la sécurité des valeurs publiques autant que les performances, elles auront des incitations plus importantes à y investir.