Qu'est-ce que "l'alignement de l'IA" ? La façon préférée de la Silicon Valley de penser à la sécurité de l'IA passe à côté des vrais problèmes

Crédit : Pixabay/CC0 Domaine public

Alors que les systèmes d’intelligence artificielle (IA) de plus en plus performants se généralisent, la question des risques qu’ils peuvent poser revêt une nouvelle urgence. Les gouvernements, les chercheurs et les développeurs ont mis l’accent sur la sécurité de l’IA.

L’UE progresse sur la réglementation de l’IA, le Royaume-Uni organise un sommet sur la sécurité de l’IA et l’Australie sollicite des contributions pour soutenir une IA sûre et responsable.

La vague d’intérêt actuelle est l’occasion d’aborder des problèmes concrets de sécurité liés à l’IA, tels que les préjugés, les abus et l’exploitation au travail. Mais beaucoup dans la Silicon Valley voient la sécurité à travers le prisme spéculatif de «l’alignement de l’IA», qui passe à côté des dommages très réels que les systèmes d’IA actuels peuvent causer à la société et des moyens pragmatiques que nous pouvons y remédier.

Qu’est-ce que « l’alignement de l’IA » ?

« L’alignement de l’IA » consiste à essayer de s’assurer que le comportement des systèmes d’IA correspond à ce que nous vouloir et ce que nous attendre. La recherche sur l’alignement a tendance à se concentrer sur de futurs systèmes d’IA hypothétiques, plus avancés que la technologie actuelle.

C’est un problème difficile parce qu’il est difficile de prédire comment la technologie se développera, et aussi parce que les humains ne sont pas très doués pour savoir ce que nous voulons ou pour nous mettre d’accord à ce sujet.

Néanmoins, les recherches sur l’alignement ne manquent pas. Il existe une foule de propositions techniques et philosophiques avec des noms ésotériques tels que « l’apprentissage par renforcement inverse coopératif » et « l’amplification itérée ».

Il existe deux grandes écoles de pensée. Dans un alignement « descendant », les concepteurs spécifient explicitement les valeurs et les principes éthiques à suivre par l’IA (pensez aux trois lois de la robotique d’Asimov), tandis que les efforts « ascendants » tentent d’inverser les valeurs humaines à partir des données, puis de construire des systèmes d’IA aligné sur ces valeurs. Il y a bien sûr des difficultés à définir les « valeurs humaines », à décider qui choisit quelles valeurs sont importantes et à déterminer ce qui se passe lorsque les humains ne sont pas d’accord.

OpenAI, la société à l’origine du chatbot ChatGPT et du générateur d’images DALL-E, entre autres produits, a récemment présenté ses plans de « superalignement ». Ce plan vise à éviter les questions délicates et à aligner une future IA superintelligente en construisant d’abord une IA purement humaine pour aider à la recherche d’alignement.

Mais pour ce faire, ils doivent d’abord aligner l’IA de recherche d’alignement…

Pourquoi l’alignement est-il censé être si important ?

Les partisans de l’approche d’alignement de la sécurité de l’IA affirment que le fait de ne pas « résoudre » l’alignement de l’IA pourrait entraîner d’énormes risques, pouvant aller jusqu’à l’extinction de l’humanité.

La croyance en ces risques découle en grande partie de l’idée que « l’intelligence générale artificielle » (AGI) – en gros, un système d’IA qui peut faire tout ce qu’un humain peut faire – pourrait être développée dans un avenir proche, et pourrait ensuite continuer à s’améliorer sans intervention humaine. . Dans ce récit, l’IA super-intelligente pourrait alors anéantir la race humaine, soit intentionnellement, soit comme effet secondaire d’un autre projet.

De la même manière que la simple possibilité du paradis et de l’enfer était suffisante pour convaincre le philosophe Blaise Pascal de croire en Dieu, la possibilité d’un futur super-AGI est suffisante pour convaincre certains groupes que nous devrions consacrer tous nos efforts à « résoudre » l’alignement de l’IA. .

Il y a beaucoup de pièges philosophiques avec ce genre de raisonnement. Il est également très difficile de faire des prédictions sur la technologie.

Même en laissant ces préoccupations de côté, l’alignement (et encore moins le « superalignement ») est une façon limitée et inadéquate de penser à la sécurité et aux systèmes d’IA.

Trois problèmes avec l’alignement de l’IA

D’abord, le concept d' »alignement » n’est pas bien défini. La recherche sur l’alignement vise généralement des objectifs vagues comme la construction de systèmes « prouvablement bénéfiques » ou « la prévention de l’extinction humaine ».

Mais ces objectifs sont assez étroits. Une IA super-intelligente pourrait les rencontrer et faire encore un mal immense.

Plus important, La sécurité de l’IA ne se limite pas aux machines et aux logiciels. Comme toute technologie, l’IA est à la fois technique et sociale.

Rendre l’IA sûre impliquera de s’attaquer à toute une série de problèmes, notamment l’économie politique du développement de l’IA, les pratiques de travail abusives, les problèmes de données détournées et les impacts écologiques. Nous devons également être honnêtes quant aux utilisations probables de l’IA avancée (telles que la surveillance autoritaire omniprésente et la manipulation sociale) et qui en bénéficiera en cours de route (entreprises technologiques bien implantées).

Enfin, traiter l’alignement de l’IA comme un problème technique place le pouvoir au mauvais endroit. Les technologues ne devraient pas être ceux qui décident quels risques et quelles valeurs comptent.

Les règles régissant les systèmes d’IA devraient être déterminées par le débat public et les institutions démocratiques.

OpenAI fait des efforts à cet égard, comme la consultation d’utilisateurs dans différents domaines de travail lors de la conception de ChatGPT. Cependant, nous devons nous méfier des efforts visant à « résoudre » la sécurité de l’IA en recueillant simplement les commentaires d’un groupe plus large de personnes, sans laisser d’espace pour aborder des questions plus importantes.

Un autre problème est le manque de diversité – idéologique et démographique – parmi les chercheurs en alignement. Beaucoup ont des liens avec des groupes de la Silicon Valley tels que des altruistes et des rationalistes efficaces, et il y a un manque de représentation des femmes et d’autres groupes de personnes marginalisées qui ont historiquement été les moteurs du progrès dans la compréhension des dommages que la technologie peut faire.

Si ce n’est pas l’alignement, alors quoi?

Les impacts de la technologie sur la société ne peuvent pas être traités en utilisant uniquement la technologie.

L’idée de « l’alignement de l’IA » positionne les entreprises d’IA comme des gardiens protégeant les utilisateurs contre l’IA voyou, plutôt que comme les développeurs de systèmes d’IA qui pourraient bien causer des dommages. Bien que l’IA sûre soit certainement un bon objectif, l’aborder en se concentrant étroitement sur «l’alignement» ignore trop de dommages pressants et potentiels.

Alors, quelle est la meilleure façon de penser à la sécurité de l’IA ? En tant que problème social et technique à résoudre en premier lieu en reconnaissant et en traitant les préjudices existants.

Cela ne veut pas dire que la recherche sur l’alignement ne sera pas utile, mais le cadrage n’est pas utile. Et des schémas insensés comme le « superalignement » d’OpenAI reviennent à donner un coup de pied à la boîte méta-éthique d’un bloc sur la route, et à espérer que nous ne trébucherons pas dessus plus tard.