Comment la guerre américaine contre les «biais idéologiques» laisse les élans de l'IA

Les systèmes d’intelligence artificielle (IA) gravement comportés ont une longue histoire en science-fiction. En 1961, dans les célèbres bandes dessinées Astro Boy d’Osamu Tezuka, un clone d’un magicien de robot populaire a été reprogrammé en un voleur super puissant. Dans le film de 1968 « 2001: A Space Odyssey », le Shipboard Computer HAL 9000 se révèle être plus sinistre que les astronautes à bord.

Plus récemment, les chatbots du monde réel tels que Tay de Microsoft ont montré que les modèles AI « Going Bad » ne sont plus de science-fiction. Tay a commencé à cracher des textes racistes et sexuellement explicites dans les heures suivant sa sortie publique en 2016.

Les modèles d’IA génératifs que nous utilisons depuis le lancement de Chatgpt en novembre 2022 se comportent généralement bien. Il y a des signes que cela peut être sur le point de changer.

Le 20 février, la Federal Trade Commission américaine a annoncé une enquête pour comprendre « comment les consommateurs ont été blessés […] Par des plateformes technologiques qui limitent la capacité des utilisateurs à partager leurs idées ou leurs affiliations librement et ouvertement. « Présentant l’enquête, la Commission a déclaré que les plateformes ayant des processus internes pour supprimer le contenu dangereux » peuvent avoir violé la loi. «

La dernière version du modèle GROK appartenant à Elon Musk sert déjà des opinions « basées » et propose un « mode désarticulé » qui est « destiné à être répréhensible, inapproprié et offensant ». Les mises à jour récentes de Chatgpt permettent au bot de produire « l’érotisme et le gore ».

Ces développements interviennent après les déménagements du président américain Donald Trump pour dérégler les systèmes d’IA. La tentative de Trump de supprimer les «biais idéologiques» de l’IA peut voir le retour du comportement voyou que les développeurs de l’IA ont travaillé dur pour supprimer.

Décrets

En janvier, Trump a publié un décret exécutif contre des « programmes de discrimination illégale et immorale, selon le nom de » Diversité, capitaux propres et inclusion « (DEI) » et une autre sur « la suppression des obstacles à l’innovation de l’IA » (qui comprend « le social conçu agendas « ).

En février, les États-Unis ont refusé de rejoindre 62 autres nations pour signer une « déclaration sur l’IA inclusive et durable » au Paris AI Action Summit.

Qu’est-ce que cela signifie pour les produits d’IA que nous voyons autour de nous? Certaines sociétés génératrices de l’IA, dont Microsoft et Google, sont des fournisseurs du gouvernement fédéral américain. Ces entreprises pourraient subir une pression directe significative pour éliminer les mesures pour rendre les systèmes d’IA en toute sécurité, si les mesures sont perçues comme soutenant le DEI ou ralentissant l’innovation.

L’interprétation par les développeurs d’IA des décrets pourrait entraîner la réduction des équipes de sécurité de l’IA en taille ou en portée, ou remplacées par des équipes dont l’ordre du jour social s’aligne mieux avec celui de Trump.

Pourquoi est-ce important? Avant que les algorithmes d’IA génératifs ne soient formés, ils ne sont ni utiles ni nocifs. Cependant, lorsqu’ils sont nourris, un régime d’expression humaine grattée à travers Internet, leur propension à refléter les biais et les comportements tels que le racisme, le sexisme, le capable et le langage abusif devient clair.

Les risques d’IA et comment ils sont gérés

Les principaux développeurs d’IA consacrent beaucoup d’efforts à supprimer les résultats biaisés et les comportements de modèle indésirables et récompenser les réponses plus éthiques neutres et équilibrées.

Certaines de ces mesures pourraient être considérées comme la mise en œuvre de principes DEI, même s’ils aident à éviter des incidents comme celui impliquant Tay. Ils incluent l’utilisation de la rétroaction humaine pour régler les sorties du modèle, ainsi que la surveillance et la mesure du biais vers des populations spécifiques.

Une autre approche, développée par Anthropic pour son modèle Claude, utilise un document politique appelé «Constitution» pour diriger explicitement le modèle pour respecter les principes d’un comportement inoffensif et respectueux.

Les sorties du modèle sont souvent testées via «équipe rouge». Dans ce processus, des ingénieurs rapides et des experts internes en matière de sécurité de l’IA font de leur mieux pour provoquer des réponses dangereuses et offensives des modèles d’IA génératifs.

Un article de blog Microsoft de janvier a décrit son équipe rouge comme « la première étape pour identifier les dommages potentiels […] pour mesurer, gérer et régir les risques d’IA pour nos clients. «

Les risques couvrent un « large éventail de vulnérabilités », « y compris la sécurité traditionnelle, l’IA responsable et les dommages psychosociaux ».

Le blog note également « Il est crucial de concevoir des sondes en équipe rouge qui non seulement expliquent les différences linguistiques mais redéfinissent également les dommages dans différents contextes politiques et culturels ». De nombreux produits d’IA génératifs ont une base d’utilisateurs globale. Ce type d’effort est donc important pour rendre les produits sûrs pour les consommateurs et les entreprises bien au-delà des frontières américaines.

Nous pouvons être sur le point de réapprendre certaines leçons

Malheureusement, aucun de ces efforts pour rendre les modèles d’IA génératifs sûrs n’est un processus à un coup. Une fois que les modèles d’IA génératifs sont installés dans des chatbots ou d’autres applications, ils digèrent continuellement les informations du monde humain à travers des invites et d’autres entrées.

Ce régime peut déplacer leur comportement pour le pire avec le temps. Les attaques malveillantes, telles que l’injection rapide des utilisateurs et l’intoxication aux données, peuvent produire des changements plus dramatiques.

Le journaliste technologique Kevin Roose a utilisé une injection rapide pour faire en sorte que le chatbot AI de Microsoft Bing révèle son « auto-ombre ». Le résultat? Cela l’a encouragé à quitter sa femme. La recherche publiée le mois dernier a montré qu’une simple goutte de données empoisonnées pouvait faire en sorte que les modèles de conseils médicaux génèrent une désinformation.

Une surveillance constante et une correction des sorties d’IA sont essentielles. Il n’y a aucun autre moyen d’éviter les comportements offensants, discriminatoires ou dangereux surgir sans avertissement dans les réponses générées.

Pourtant, tous les signes suggèrent que l’administration Trump favorise une réduction de la réglementation éthique de l’IA. Les décrets peuvent être interprétés comme autorisant ou encourager la liberté d’expression et la génération d’opinions même discriminatoires et nuisibles sur des sujets tels que les femmes, la race, les individus LGBTQIA + et les immigrants.

Les efforts génératifs de la modération de l’IA peuvent suivre le chemin des programmes de modération des faits et de modération de contenu d’experts de Meta. Cela pourrait avoir un impact sur les utilisateurs mondiaux de produits IA fabriqués aux États-Unis tels que Openai Chatgpt, Microsoft Co-Pilot et Google Gemini.

Nous pourrions être sur le point de redécouvrir à quel point ces efforts ont été essentiels pour garder les modèles d’IA en échec.