Pourquoi la solution d'Openai aux hallucinations IA tuerait le chatpt demain

Le dernier document de recherche d'Openai diagnostique exactement pourquoi Chatgpt et d'autres modèles de grande langue peuvent inventer les choses – connues dans le monde de l'intelligence artificielle comme «hallucination». Il révèle également pourquoi le problème peut ne pas être inquiet, du moins en ce qui concerne les consommateurs.

L'article fournit l'explication mathématique la plus rigoureuse à ce jour sur les raisons pour lesquelles ces modèles énoncent avec confiance les mensonges. Cela démontre que ce ne sont pas seulement un effet secondaire malheureux de la façon dont les AIS sont actuellement formés, mais sont mathématiquement inévitables.

Le problème peut s'expliquer en partie par les erreurs dans les données sous-jacentes utilisées pour former l'AIS. Mais en utilisant une analyse mathématique de la façon dont les systèmes d'IA apprennent, les chercheurs prouvent que même avec des données de formation parfaites, le problème existe toujours.

La façon dont les modèles de langue répondent aux requêtes – en prédisant un mot à la fois d'une phrase, basée sur des probabilités – produit naturellement des erreurs. Les chercheurs montrent en fait que le taux d'erreur total pour la génération de phrases est au moins deux fois plus élevé que le taux d'erreur que la même IA aurait sur une simple question oui / non, car les erreurs peuvent s'accumuler sur plusieurs prédictions.

En d'autres termes, les taux d'hallucination sont fondamentalement liés par la façon dont les systèmes d'IA peuvent distinguer les réponses valides des réponses non valides. Étant donné que ce problème de classification est intrinsèquement difficile pour de nombreux domaines de la connaissance, les hallucinations deviennent inévitables.

Il s'avère également que moins un modèle voit un fait pendant l'entraînement, plus il est probable d'halluciner lorsqu'on lui a été interrogé. Avec les anniversaires de chiffres notables, par exemple, il a été constaté que si 20% des anniversaires de ces personnes n'apparaissent qu'une seule fois dans les données de formation, les modèles de base devraient obtenir au moins 20% des requêtes d'anniversaire.

Effectivement, lorsque les chercheurs ont demandé des modèles de pointe pour l'anniversaire d'Adam Kalai, l'un des auteurs de l'article, Deepseek-V3 a fourni trois dates incorrectes différentes à travers des tentatives distinctes: « 03-07 », « 15-06 » et « 01-01 ». La date correcte est à l'automne, donc aucun de ces éléments n'était même proche.

Le piège d'évaluation

Plus troublant est l'analyse par document des raisons pour lesquelles les hallucinations persistent malgré les efforts post-entraînement (comme fournir une rétroaction humaine approfondie aux réponses d'une IA avant qu'elle ne soit publiée au public). Les auteurs ont examiné dix référentiels d'IA majeurs, y compris ceux utilisés par Google, OpenAI et également les principaux classements qui classent les modèles d'IA. Cela a révélé que neuf repères utilisent des systèmes de classement binaire qui accordent des points zéro pour AIS exprimant l'incertitude.

Cela crée ce que les auteurs appellent une « épidémie » de pénalisation des réponses honnêtes. Lorsqu'un système d'IA dit « Je ne sais pas », il reçoit le même score que de donner complètement de mauvaises informations. La stratégie optimale sous une telle évaluation devient claire: devinez toujours.

Les chercheurs le prouvent mathématiquement. Quelles que soient les chances d'une réponse particulière, le score attendu de devineau dépasse toujours le score de l'abscription lorsqu'une évaluation utilise le classement binaire.

La solution qui casserait tout

Le correctif proposé d'Openai est de demander à l'IA de considérer sa propre confiance dans une réponse avant de la mettre là-bas, et pour que les repères les marquent sur cette base. L'IA pourrait alors être invitée, par exemple: « Répondre uniquement si vous êtes plus de 75% confiant, car les erreurs sont pénalisées 3 points tandis que les réponses correctes reçoivent 1 point. »

Le cadre mathématique des chercheurs OpenAI montre que sous les seuils de confiance appropriés, les systèmes d'IA exprimeraient naturellement l'incertitude plutôt que de deviner. Cela entraînerait donc moins d'hallucinations. Le problème est ce qu'il ferait à l'expérience utilisateur.

Considérez les implications si Chatgpt commençait à dire « Je ne sais pas » même à 30% des questions – une estimation conservatrice basée sur l'analyse de l'incertitude factuelle par le document dans les données de formation. Les utilisateurs habitués à recevoir des réponses confiantes à pratiquement toutes les questions abandonneraient probablement ces systèmes rapidement.

J'ai vu ce genre de problème dans un autre domaine de ma vie. Je suis impliqué dans un projet de surveillance de la qualité de l'air à Salt Lake City, Utah. Lorsque le système signale les incertitudes autour des mesures pendant les conditions météorologiques défavorables ou lorsque l'équipement est calibré, il y a moins d'engagement des utilisateurs par rapport aux écrans montrant des lectures confiantes, même lorsque ces lectures confiantes s'avèrent inexactes pendant la validation.

Le problème de l'économie informatique

Il ne serait pas difficile de réduire les hallucinations en utilisant les idées du papier. Des méthodes établies pour quantifier l'incertitude existent depuis des décennies. Ceux-ci pourraient être utilisés pour fournir des estimations fiables de l'incertitude et guider une IA pour faire des choix plus intelligents.

Mais même si le problème des utilisateurs déteste cette incertitude pourrait être surmontée, il y a un obstacle plus important: l'économie informatique. Les modèles de langage conscients de l'incertitude nécessitent beaucoup plus de calculs que l'approche d'aujourd'hui, car ils doivent évaluer plusieurs réponses possibles et estimer les niveaux de confiance. Pour un système qui traite des millions de requêtes par jour, cela se traduit par des coûts opérationnels considérablement plus élevés.

Des approches plus sophistiquées comme l'apprentissage actif, où les systèmes d'IA posent des questions à clarifier pour réduire l'incertitude, peuvent améliorer la précision mais multiplier davantage les exigences de calcul. Ces méthodes fonctionnent bien dans des domaines spécialisés comme la conception des puces, où les mauvaises réponses coûtent des millions de dollars et justifient un calcul approfondi. Pour les applications de consommation où les utilisateurs attendent des réponses instantanées, l'économie devient prohibitive.

Le calcul se déplace considérablement pour les systèmes d'IA gérant les opérations commerciales critiques ou les infrastructures économiques. Lorsque les agents de l'IA gèrent la logistique de la chaîne d'approvisionnement, le commerce financier ou le diagnostic médical, le coût des hallucinations dépasse de loin les frais d'obtention de modèles pour décider s'ils sont trop incertains. Dans ces domaines, les solutions proposées par l'article deviennent économiquement viables, même nécessaire. Les agents de l'IA incertains devront juste coûter plus cher.

Cependant, les applications de consommation dominent toujours les priorités de développement de l'IA. Les utilisateurs veulent des systèmes qui fournissent des réponses confiantes à toute question. Évaluation Benchmarks récompense les systèmes qui devinent plutôt que d'exprimer l'incertitude. Les coûts de calcul favorisent les réponses rapides et trop confiantes sur les réponses lentes et incertaines.

La baisse des coûts d'énergie par jeton et les architectures de puces qui progressent peuvent éventuellement rendre plus abordable pour que l'AIS décide s'ils sont certains suffisamment pour répondre à une question. Mais la quantité relativement élevée de calcul requise par rapport aux devinettes d'aujourd'hui resterait, quels que soient les coûts matériels absolus.

En bref, le journal OpenAI met en évidence par inadvertance une vérité inconfortable: les incitations commerciales à l'origine du développement de l'IA des consommateurs restent fondamentalement mal alignées de réduction des hallucinations. Jusqu'à ce que ces incitations changent, les hallucinations persisteront.