Le programme Strawberry d'OpenAI serait capable de raisonner. Il pourrait être capable de tromper les humains

OpenAI, la société à l'origine de ChatGPT, a lancé un nouveau système d'intelligence artificielle (IA) appelé Strawberry. Il est conçu non seulement pour fournir des réponses rapides aux questions, comme ChatGPT, mais aussi pour réfléchir ou « raisonner ».

Cela soulève plusieurs inquiétudes majeures. Si Strawberry est réellement capable d’une certaine forme de raisonnement, ce système d’IA pourrait-il tromper les humains ?

OpenAI peut programmer l’IA de manière à atténuer sa capacité à manipuler les humains. Mais les propres évaluations de l’entreprise la classent comme présentant un « risque moyen » pour sa capacité à aider les experts à « planifier la reproduction d’une menace biologique connue » – autrement dit, une arme biologique. Elle a également été classée comme présentant un risque moyen pour sa capacité à persuader les humains de changer leur façon de penser.

Il reste à voir comment un tel système pourrait être utilisé par des personnes mal intentionnées, comme des escrocs ou des pirates informatiques. Néanmoins, l'évaluation d'OpenAI indique que les systèmes à risque moyen peuvent être diffusés pour une utilisation plus large, une position que je considère comme erronée.

Strawberry n'est pas un « modèle » ou un programme d'IA, mais plusieurs, connus collectivement sous le nom d'o1. Ces modèles sont destinés à répondre à des questions complexes et à résoudre des problèmes mathématiques complexes. Ils sont également capables d'écrire du code informatique, pour vous aider à créer votre propre site Web ou application, par exemple.

Une apparente capacité à raisonner pourrait surprendre certains, car elle est généralement considérée comme un précurseur du jugement et de la prise de décision, ce qui a souvent semblé être un objectif lointain pour l’IA. Ainsi, à première vue du moins, cela semble rapprocher l’intelligence artificielle de l’intelligence humaine.

Quand les choses semblent trop belles pour être vraies, il y a souvent un piège. En effet, ces nouveaux modèles d’IA sont conçus pour maximiser leurs objectifs. Qu’est-ce que cela signifie en pratique ? Pour atteindre l’objectif souhaité, le chemin ou la stratégie choisis par l’IA ne sont pas toujours nécessairement équitables ou conformes aux valeurs humaines.

Véritables intentions

Par exemple, si vous deviez jouer aux échecs contre Strawberry, en théorie, son raisonnement pourrait-il lui permettre de pirater le système de notation plutôt que de déterminer les meilleures stratégies pour gagner la partie ?

L'IA pourrait également être capable de mentir aux humains sur ses véritables intentions et capacités, ce qui poserait un sérieux problème de sécurité si elle devait être déployée à grande échelle. Par exemple, si l'IA savait qu'elle était infectée par un logiciel malveillant, pourrait-elle « choisir » de dissimuler ce fait en sachant qu'un opérateur humain pourrait choisir de désactiver l'ensemble du système s'il le savait ?

Il s'agit d'exemples classiques de comportement contraire à l'éthique de l'IA, où la tricherie ou la tromperie sont acceptables si elles conduisent à un objectif souhaité. Cela serait également plus rapide pour l'IA, car elle n'aurait pas à perdre de temps à déterminer la meilleure décision à prendre. Cela n'est cependant pas forcément moralement correct.

Cela donne lieu à une discussion plutôt intéressante mais inquiétante. De quel niveau de raisonnement Strawberry est-elle capable et quelles pourraient être ses conséquences imprévues ? Un système d'IA puissant capable de tromper les humains pourrait représenter de graves risques éthiques, juridiques et financiers pour nous.

Ces risques deviennent graves dans des situations critiques, comme la conception d'armes de destruction massive. OpenAI considère ses propres modèles Strawberry comme présentant un « risque moyen » en raison de leur potentiel à aider les scientifiques à développer des armes chimiques, biologiques, radiologiques et nucléaires.

OpenAI déclare : « Nos évaluations ont montré que o1-preview et o1-mini peuvent aider les experts à planifier la reproduction d'une menace biologique connue. » Mais l'entreprise ajoute que les experts disposent déjà d'une expertise significative dans ces domaines, de sorte que le risque serait limité dans la pratique. Elle ajoute : « Les modèles ne permettent pas aux non-experts de créer des menaces biologiques, car la création d'une telle menace nécessite des compétences pratiques en laboratoire que les modèles ne peuvent pas remplacer. »

Pouvoirs de persuasion

L'évaluation de Strawberry par OpenAI a également étudié le risque qu'il puisse persuader les humains de changer leurs croyances. Les nouveaux modèles o1 se sont révélés plus persuasifs et plus manipulateurs que ChatGPT.

OpenAI a également testé un système d'atténuation capable de réduire les capacités de manipulation du système d'IA. Dans l'ensemble, Strawberry a été classé comme présentant un risque moyen en termes de « persuasion » dans les tests d'Open AI.

Strawberry a été jugé à faible risque pour sa capacité à fonctionner de manière autonome et en matière de cybersécurité.

La politique d'Open AI stipule que les modèles à « risque moyen » peuvent être diffusés pour une utilisation à grande échelle. À mon avis, cela sous-estime la menace. Le déploiement de tels modèles pourrait être catastrophique, surtout si des acteurs malveillants manipulent la technologie à leurs propres fins.

Cela nécessite des freins et contrepoids solides qui ne seront possibles que grâce à une réglementation de l’IA et à des cadres juridiques, tels que la pénalisation des évaluations de risques incorrectes et de l’utilisation abusive de l’IA.

Le gouvernement britannique a souligné la nécessité de « sécurité, sûreté et robustesse » dans son livre blanc sur l’IA de 2023, mais cela ne suffit pas. Il est urgent de donner la priorité à la sécurité humaine et d’élaborer des protocoles de contrôle rigoureux pour les modèles d’IA tels que Strawberry.