Travail intérieur de l'Ai an Enigma - même à ses créateurs

Même les plus grands esprits humains construisant une intelligence artificielle générative qui est prête à changer le monde admettre qu’ils ne comprennent pas comment pensent les esprits numériques.

« Les gens en dehors du terrain sont souvent surpris et alarmés d’apprendre que nous ne comprenons pas comment fonctionnent nos propres créations d’IA », a écrit le cofondateur anthropique Dario Amodei dans un essai publié en ligne en avril.

« Ce manque de compréhension est essentiellement sans précédent dans l’histoire de la technologie. »

Contrairement aux logiciels traditionnels qui suivent les chemins de logique pré-oriés dictés par les programmeurs, les modèles génératifs de l’IA (Gen AI) sont formés pour trouver leur propre façon de réussir une fois invité.

Dans un récent podcast, Chris Olah, qui faisait partie de Chatgpt-Maker Openai avant de rejoindre Anthropic, a décrit le général AI comme un « échafaudage » sur lequel les circuits se développent.

Olah est considéré comme une autorité dans la soi-disant interprétabilité mécaniste, une méthode de modèles d’IA ingénierie inverse pour comprendre comment ils fonctionnent.

Cette science, née il y a environ dix ans, cherche à déterminer exactement comment l’IA passe d’une requête à une réponse.

« La saisie de l’intégralité d’un modèle grand langage est une tâche incroyablement ambitieuse », a déclaré Neel Nanda, chercheur principal au Google Deepmind AI Lab.

Il était « quelque peu analogue à essayer de bien comprendre le cerveau humain », a ajouté Nanda à l’AFP, notant que les neuroscientifiques n’ont pas encore réussi sur ce front.

Placer dans l’esprit numérique pour comprendre leur fonctionnement intérieur est passé d’un domaine peu connu il y a quelques années à peine à être un domaine chaud de l’étude académique.

« Les étudiants sont très attirés par cela parce qu’ils perçoivent l’impact qu’elle peut avoir », a déclaré Mark Crovella, professeur d’informatique à l’Université de Boston.

Le domaine d’étude gagne également du terrain en raison de son potentiel pour rendre la génération AI encore plus puissante, et parce que regarder les cerveaux numériques peut être intellectuellement excitant, a ajouté le professeur.

Garder l’IA honnête

L’interprétabilité mécaniste consiste à étudier non seulement les résultats servis par Gen AI, mais sur le scrutin des calculs effectués pendant que la technologie réfléchit aux requêtes, selon Crovella.

« Vous pouvez examiner le modèle … observer les calculs qui sont effectués et essayer de les comprendre », a expliqué le professeur.

Startup Goodfire utilise un logiciel AI capable de représenter des données sous la forme d’étapes de raisonnement pour mieux comprendre le traitement de l’IA et les erreurs correctes.

L’outil est également destiné à empêcher les modèles Gen AI d’être utilisés avec malveillance ou de décider d’eux-mêmes pour tromper les humains sur ce qu’ils font.

« Cela ressemble à une course contre le temps pour y arriver avant de mettre en œuvre des modèles d’IA extrêmement intelligents dans le monde sans comprendre comment ils fonctionnent », a déclaré Eric Ho, directeur général de Goodfire.

Dans son essai, Amodei a déclaré que les progrès récents l’ont rendu optimiste que la clé pour déchiffrer complètement l’IA se trouvera dans les deux ans.

« Je suis d’accord que d’ici 2027, nous pourrions avoir une interprétabilité qui détecte de manière fiable les biais de modèles et les intentions nuisibles », a déclaré le professeur agrégé de l’Université d’Auburn, Anh Nguyen.

Selon Crovella de l’Université de Boston, les chercheurs peuvent déjà accéder aux représentations de chaque neurone numérique dans les cerveaux d’IA.

« Contrairement au cerveau humain, nous avons en fait l’équivalent de chaque neurone instrumenté à l’intérieur de ces modèles », a déclaré l’académique. « Tout ce qui se passe à l’intérieur du modèle nous est pleinement connu. Il s’agit de découvrir la bonne façon d’interroger cela. »

Exploiter le fonctionnement intérieur des esprits de la génération AI pourrait ouvrir la voie à son adoption dans les domaines où de minuscules erreurs peuvent avoir des conséquences dramatiques, comme la sécurité nationale, a déclaré Amodei.

Pour Nanda, une meilleure compréhension de ce que fait Gen Ai pourrait également catapulter les découvertes humaines, tout comme l’IA de Deepmind aux échecs, Alphazer, a révélé des mouvements d’échecs entièrement nouveaux auxquels aucun des grands maîtres n’avait jamais pensé.

Correctement compris, un modèle Gen AI avec un cachet de fiabilité saisirait un avantage concurrentiel sur le marché.

Une telle percée par une entreprise américaine serait également une victoire pour la nation dans sa rivalité technologique avec la Chine.

« L’IA puissante façonnera le destin de l’humanité », a écrit Amodei.

« Nous méritons de comprendre nos propres créations avant de transformer radicalement notre économie, nos vies et notre avenir. »