L'étude craque le code derrière pourquoi l'IA se comporte comme elle

Les modèles d’IA comme Chatgpt ont étonné le monde de leur capacité à écrire de la poésie, à résoudre des équations et même à passer des examens médicaux. Mais ils peuvent également produire un contenu nocif ou favoriser la désinformation.

Dans une nouvelle étude, les chercheurs de l’Université de George Washington ont utilisé la physique pour disséquer et expliquer le mécanisme d’attention au cœur des systèmes d’IA. La recherche est publiée sur le arxiv serveur de préimprimée.

Les chercheurs Neil Johnson et Frank Yingjie Huo ont examiné pourquoi l’IA se répète, pourquoi il représente parfois les choses et d’où vient le contenu nocif ou biaisé, même lorsque l’entrée semble innocente.

Les chercheurs ont constaté que le mécanisme d’attention au cœur de ces systèmes se comporte comme deux hauts tournants travaillant ensemble pour fournir une réponse. Les réponses de l’IA sont façonnées non seulement par l’entrée, mais par la façon dont l’entrée interagit avec tout ce que l’IA a jamais appris.

Cette analyse pourrait conduire à des solutions qui rendraient l’IA plus sûre, plus fiable et résistante à la manipulation.