AI allucinazioni

Les nouvelles limites de l’IA: le pouvoir augmente, les « hallucinations » augmentent

Le mois dernier, un bot d’intelligence artificielle utilisé pour le soutien technique Curseurun outil émergent pour les programmeurs, a informé certains clients d’un changement de politique présumé: il ne serait plus possible d’utiliser le curseur sur plus qu’un ordinateur. Les utilisateurs indignés se sont évacués sur des forums en ligne, certains ont même annulé l’abonnement. Peu de temps après, la vérité est revenu à la surface: rien n’avait changé. Le bot avait tout inventé.

« Nous n’avons pas de politique de ce type. Bien sûr, vous êtes libre d’utiliser Cursor sur plusieurs machines », a-t-il écrit sur Reddit Michael TruellPDG et co-fondateur de la société. « Malheureusement, il s’agit d’une réponse incorrecte d’un bot de support pour la première ligne. »


Plus puissant, mais moins fiable

Plus de deux ans après le lancement de Chatgpt, les systèmes d’IA sont utilisés dans des zones de plus en plus variées, de l’écriture de textes à la génération de code. Cependant, il n’y a toujours pas de méthode sûre pour garantir la précision des informations générées. Les nouveaux systèmes de « raisonnement » développés par Openai, Google et le Chinois Deepseek semblent s’aggraver à cet égard: plus compétents dans le calcul, mais plus enclins à « confondre les faits ».


Lorsque l’IA « invente » les réponses

Les robots modernes fonctionnent sur la base de calculs mathématiques complexes qui analysent d’énormes quantités de données numériques. Ils ne font pas de distinction entre vrai et faux. Parfois, ils « inventent » des choses. Ce phénomène, appelé Hallucinationpeut atteindre des taux très élevés: dans certains tests, 79% des réponses générées étaient incorrectes. « Malgré nos efforts, ils auront toujours des hallucinations », a-t-il expliqué Amr AwadallahPDG de Vectora et ancien manager de Google. « Cela ne disparaîtra jamais. »


Lorsque l’erreur devient un risque

Si dans des contextes légers, l’erreur peut sembler inoffensive, la question change radicalement en ce qui concerne les domaines sensibles: actes juridiques, diagnostic médical ou données d’entreprise réservées.

« Nous passons beaucoup de temps à essayer de comprendre quelles réponses sont réelles et lesquelles non », a-t-il observé Pratik VermaPDG d’Okahu. « Ne pas gérer correctement ces erreurs éliminent considérablement la valeur des systèmes d’IA, qui devrait automatiser les activités pour vous ».


Les chiffres derrière les hallucinations

Les données internes des entreprises confirment également la croissance du problème. Selon Openai, son système le plus récent, appelé O3avait un taux d’hallucination de 33% dans le test Personqa – plus du double par rapport au prédécesseur O1.

Le nouveau O4-min atteint 48%. Dans le test SimpleQA, qui prévoit des questions générales, O3 avait tort dans 51% des cas, O4-min en 79%.

« Les hallucinations ne sont pas intrinsèquement plus répandues dans les modèles de raisonnement, même si nous travaillons activement à réduire les taux d’hallucinations les plus élevés que nous avons vus dans O3 et O4-MinI », a-t-il déclaré Gaby railaporte-parole d’Openai.
« Nous poursuivrons nos recherches sur les hallucinations dans tous les modèles pour améliorer la précision et la fiabilité ».


Pourquoi ça arrive? Personne ne sait avec certitude

La raison de ces erreurs n’est même pas claire pour les développeurs. Les modèles sont formés sur des quantités de données si grandes que même les experts sont capables de comprendre pleinement leurs mécanismes internes. « Nous ne savons toujours pas comment fonctionnent exactement ces modèles », a-t-il admis Hannaneh Hajishirziprofesseur à l’Université de Washington et chercheur à l’Institut Allen pour l’IA.


Les nouvelles techniques de formation ne suffisent pas

Pendant des années, les entreprises ont amélioré les performances de l’IA simplement en leur nourrissant avec plus de données du Web. Mais maintenant, l’anglais en ligne a été presque complètement « consommé » et se concentre sur Apprentissage du renforcementou l’apprentissage par des tests et des erreurs. Cette technique a donné de bons résultats en mathématiques et en programmation, mais montre des limites évidentes dans d’autres contextes.

« La façon dont ces systèmes sont formés, ils commenceront à se concentrer sur une tâche – et commenceront à oublier les autres », a-t-il expliqué Laura Perez-Beltrachinichercheur à l’Université d’Édimbourg.


Plus de « penser », plus sont faux

Les nouveaux modèles de raisonnement prennent plus de temps pour analyser les problèmes étape par étape. Mais chaque étape peut être l’occasion de générer une erreur. Et le résultat final peut être influencé par une séquence d’erreurs invisibles.

« Ce que le système dit à penser n’est pas nécessairement ce qu’elle pense », a-t-il souligné Aryo Pradipta Gemachercheur à Édimbourg et boursier par Anthropic.


Les données des autres: Google et Deepseek en difficulté

Même les tests effectués par des sociétés indépendantes montrent une augmentation des hallucinations dans les modèles de raisonnement. Vectora Il a surveillé la fréquence à laquelle les chatbots modifient le contenu des nouvelles qu’ils devraient simplement résumer. Les résultats sont clairs: Même dans les cas les plus simples, l’IA invente.

Au début, les taux d’erreur étaient contenus: 1 à 2% pour OpenAI et Google, 4% pour anthropic. Mais avec les nouveaux modèles: Deepseek R1 Il a fait une erreur en 14,3% du temps, O3 par OpenII 6,8%.


Conclusions

Les promesses de l’intelligence artificielle se heurtent aujourd’hui à un problème fondamental: fiabilité. L’évolution vers des modèles de raisonnement a augmenté les compétences analytiques des bots, mais aussi leur tendance à «imaginer» les réponses. Sans une compréhension plus approfondie des mécanismes internes, l’IA risque de perdre la confiance de ses utilisateurs, tout comme son utilisation se développe dans les secteurs les plus délicats de la société.