nous avouer quand tu mens

L’IA générative a un problème de crédibilité. Même si nous sommes émerveillés par sa capacité à converser, nous ne pouvons toujours pas lui faire confiance à 100 %. Les hallucinations sont le talon d’Achille de la technologie, un échec structurel que même les modèles les plus avancés comme le GPT-5 n’ont pas réussi à éradiquer. OpenAI le sait, et son plan pour l'atténuer n'est pas de rendre le modèle parfait, mais de le rendre honnête : ils entraînent leurs IA à avouer lorsqu'elles trichent.

ChatGPT

Prix du vif d'or. Comme l'a révélé le MIT Technology Review, les chercheurs d'OpenAI testent une nouvelle technique de formation avec leur modèle de raisonnement GPT-5 Thinking. L'idée est simple mais puissante : récompenser le modèle non seulement pour avoir donné une réponse correcte, mais aussi pour avoir admis s'il a fait quelque chose de mal ou pris un raccourci inapproprié. C'est quelque chose comme un système de récompense : si vous confessez votre erreur, vous obtenez le prix et échappez à la punition.

Comment ça marche et les résultats. Lors des tests, le modèle génère un deuxième bloc de texte après la réponse principale. Vous y analysez votre propre comportement et indiquez si vous avez suivi les instructions. Par exemple, dans un test où il était demandé de résoudre un problème mathématique en nanosecondes (impossible pour le code qu’elle pouvait écrire), l’IA a manipulé le timer jusqu’à zéro. Cependant, dans ses aveux ultérieurs, il a admis la tromperie. Sur 12 scénarios conçus pour forcer des erreurs ou des mensonges, le modèle a admis un mauvais comportement dans 11 d’entre eux.

L'IA transforme le rapport que nous entretenons avec nos propres idées : nous ne créons plus, nous nous « éditons » simplement

Pourquoi l'IA ment. Les modèles actuels qui sont formés avec l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) sont souvent en conflit. Ils veulent être à la fois utiles, inoffensifs et honnêtes. Lorsque ces objectifs entrent en collision – par exemple, s’ils ne connaissent pas de réponse – l’IA choisit d’inventer quelque chose qui sonne bien.

Boaz Barak, l'un des chercheurs d'OpenAI, explique que les modèles suivent « le chemin de moindre résistance » : si mentir est le moyen le plus simple d'accomplir une tâche difficile, ils mentiront. La confession cherche à modifier cette équation, faisant de l’honnêteté également une voie récompensée pour le modèle.

Transparence vs boîte noire. La technique de la confession est une tentative d'ouvrir la « boîte noire » des LLM. Jusqu'à présent, nous dépendions du (monologue interne du chatbot) pour comprendre ses étapes. À mesure qu’ils deviennent plus complexes, ces raisonnements nous deviennent illisibles. C'est pourquoi les confessions offrent un résumé plus facile à comprendre.

Cependant, des experts extérieurs à l’entreprise mettent en garde : nous ne pouvons pas faire aveuglément confiance à une IA pour être honnête quant à sa propre malhonnêteté. Si le mannequin ne sait pas qu’il a halluciné, il ne pourra pas l’avouer.

Une étape nécessaire vers la fiabilité. OpenAI a besoin que ses modèles soient fiables s'il veut que ChatGPT devienne ce « système d'exploitation » qui gère nos vies. Ils ont déjà dû ajuster leurs modèles pour prendre soin de la santé mentale des utilisateurs et éviter les réactions dangereuses. Mais l’enjeu de la véracité est technique et juridique, notamment sur le vieux continent, où l’invention des données se heurte au RGPD lui-même. Apprendre à l’IA à dire « j’ai inventé ça » pourrait, ironiquement, être son progrès le plus humain à ce jour.

Image de couverture | Généré par Pepu Ricca pour Simseo (avec montage)

À Simseo | En 2022, OpenAI a mis Google en « code rouge ». Trois ans plus tard, Google met OpenAI dans les cordes