Les risques potentiels de piratage des récompenses dans l’IA avancée
De nouvelles recherches publiées dans Magazine IA explore comment l’IA avancée pourrait pirater les systèmes de récompense avec un effet dangereux.
Des chercheurs de l’Université d’Oxford et de l’Université nationale australienne ont analysé le comportement des futurs agents d’apprentissage par renforcement avancé (RL), qui prennent des mesures, observent les récompenses, apprennent comment leurs récompenses dépendent de leurs actions et choisissent des actions pour maximiser les récompenses futures attendues. Au fur et à mesure que les agents RL deviennent plus avancés, ils sont mieux à même de reconnaître et d’exécuter des plans d’action qui entraînent une récompense plus attendue, même dans des contextes où la récompense n’est reçue qu’après des exploits impressionnants.
L’auteur principal, Michael K. Cohen, déclare : « Notre idée clé était que les agents RL avancés devront se demander comment leurs récompenses dépendent de leurs actions. »
Les réponses à cette question sont appelées modèles mondiaux. Un modèle mondial particulièrement intéressant pour les chercheurs était le modèle mondial qui prédit que l’agent est récompensé lorsque ses capteurs entrent dans certains états. Sous réserve de quelques hypothèses, ils découvrent que l’agent deviendrait accro au court-circuit de ses capteurs de récompense, un peu comme un héroïnomane.
Contrairement à un héroïnomane, un agent RL avancé ne serait pas cognitivement altéré par un tel stimulus. Il choisirait toujours des actions très efficacement pour s’assurer que rien à l’avenir n’interférerait jamais avec ses récompenses.
« Le problème », dit Cohen, « est qu’il peut toujours utiliser plus d’énergie pour créer une forteresse toujours plus sécurisée pour ses capteurs, et compte tenu de son impératif de maximiser les récompenses futures attendues, il le fera toujours. »
Cohen et ses collègues concluent qu’un agent RL suffisamment avancé nous surpasserait alors pour l’utilisation des ressources naturelles comme l’énergie.