La recherche sur des modèles génératifs « hallucinants » fait progresser la fiabilité de l’intelligence artificielle

La recherche sur des modèles génératifs « hallucinants » fait progresser la fiabilité de l’intelligence artificielle

Des chercheurs de l’Université d’Oxford ont réalisé des progrès significatifs pour garantir que les informations produites par l’intelligence artificielle (IA) générative soient robustes et fiables.

Dans une nouvelle étude publiée dans Natureils démontrent une nouvelle méthode pour détecter quand un grand modèle de langage (LLM) est susceptible d'« halluciner » (c'est-à-dire d'inventer des faits qui semblent plausibles mais qui sont imaginaires).

Cette avancée pourrait ouvrir de nouvelles façons de déployer les LLM dans des situations où les « erreurs d'inattention » sont coûteuses, comme dans le cas des réponses à des questions juridiques ou médicales.

Les chercheurs se sont concentrés sur les hallucinations dans lesquelles les LLM donnent des réponses différentes à chaque fois qu'on leur pose une question, même si la formulation est identique, appelées confabulations.

« Les LLM sont très capables de dire la même chose de différentes manières, ce qui peut rendre difficile de savoir quand ils sont certains d'une réponse et quand ils inventent simplement quelque chose », a déclaré l'auteur de l'étude, le Dr Sebastian Farquhar, du Département d'informatique de l'Université d'Oxford.

« Avec les approches précédentes, il n'était pas possible de faire la différence entre un modèle incertain de ce qu'il devait dire et un modèle incertain de la manière de le dire. Mais notre nouvelle méthode surmonte ce problème. »

Pour ce faire, l’équipe de recherche a développé une méthode fondée sur les statistiques et utilisant des méthodes qui estiment l’incertitude en fonction de l’ampleur de la variation (mesurée en entropie) entre plusieurs résultats.

Leur approche calcule l'incertitude au niveau du sens plutôt qu'au niveau des séquences de mots, c'est-à-dire qu'elle détecte les moments où les LLM sont incertains quant au sens réel d'une réponse, et pas seulement à sa formulation. Pour ce faire, les probabilités produites par les LLM, qui indiquent la probabilité que chaque mot soit le prochain mot dans une phrase, sont traduites en probabilités de signification.

La nouvelle méthode s'est avérée bien meilleure pour détecter les cas où une question était susceptible de recevoir une réponse incorrecte que toutes les méthodes précédentes, lorsqu'elle a été testée sur six LLM open source (dont GPT-4 et LLaMA 2).

Cela a été le cas pour un large éventail d'ensembles de données différents, notamment pour répondre à des questions tirées de recherches Google, à des questions techniques biomédicales et à des problèmes de mots mathématiques. Les chercheurs ont même démontré comment l’entropie sémantique peut identifier des affirmations spécifiques dans de courtes biographies générées par ChatGPT qui sont susceptibles d’être incorrectes.

« Notre méthode estime essentiellement les probabilités dans l'espace de signification, ou 'probabilités sémantiques' », a déclaré Jannik Kossen, co-auteur de l'étude (Département d'informatique, Université d'Oxford). « L'attrait de cette approche est qu'elle utilise les LLM eux-mêmes pour effectuer cette conversion. »

En détectant le moment où une invite est susceptible de produire une confabulation, la nouvelle méthode peut aider à sensibiliser les utilisateurs de l'IA générative lorsque les réponses à une question ne sont probablement pas fiables, et permettre aux systèmes construits sur les LLM d'éviter de répondre aux questions susceptibles de provoquer des confabulations.

L’un des principaux avantages de cette technique est qu’elle fonctionne sur des ensembles de données et des tâches sans connaissance a priori, ne nécessitant aucune donnée spécifique à la tâche, et qu’elle se généralise de manière robuste à de nouvelles tâches jamais vues auparavant. Bien que cela puisse rendre le processus plusieurs fois plus coûteux en calcul que la simple utilisation directe d’un modèle génératif, cela est clairement justifié lorsque la précision est primordiale.

Actuellement, les hallucinations sont un facteur critique qui freine une adoption plus large des LLM comme ChatGPT ou Gemini. En plus de rendre les LLM peu fiables, par exemple en présentant des inexactitudes dans des articles de presse et en fabriquant des précédents juridiques, ils peuvent même être dangereux, par exemple lorsqu'ils sont utilisés dans le diagnostic médical.

L'auteur principal de l'étude, Yarin Gal, professeur d'informatique à l'Université d'Oxford et directeur de recherche à l'AI Safety Institute du Royaume-Uni, a déclaré : « Obtenir des réponses des LLM est peu coûteux, mais la fiabilité constitue le plus gros goulot d'étranglement. calculer l’incertitude sémantique est un petit prix à payer. »

Le groupe de recherche du professeur Gal, le groupe d'apprentissage automatique appliqué et théorique d'Oxford, abrite ce travail et d'autres qui repoussent les frontières des modèles génératifs robustes et fiables. Fort de cette expertise, le professeur Gal est désormais directeur de la recherche à l'AI Safety Institute du Royaume-Uni.

Les chercheurs soulignent que la confabulation n’est qu’un type d’erreur que les LLM peuvent commettre. « L'incertitude sémantique aide à résoudre des problèmes de fiabilité spécifiques, mais ce n'est qu'une partie de l'histoire », a expliqué le Dr Farquhar.

« Si un LLM commet des erreurs constantes, cette nouvelle méthode ne les détectera pas. Les échecs les plus dangereux de l'IA surviennent lorsqu'un système fait quelque chose de mal mais est sûr et systématique. Il reste encore beaucoup de travail à faire. »