Certains anciens chercheurs du MIT ont une solution particulière
Les chatbots sont devenus l’un des axes de l’essor du intelligence artificielle (IA). De ChatGPT et Copilot à Claude Chat et Perplexity, ces outils sont à la mode. Cependant, même si nous sommes enthousiastes, nous ne devrions pas faire entièrement confiance à leurs réponses.
Et dites-le à l'avocat qui a utilisé ChatGPT pour gagner un procès et a découvert que les documents présentés au juge contenaient de fausses décisions judiciaires, références et citations. Comme on peut le constater, les chatbots ont de nombreuses vertus, mais la fiabilité n’en fait pas partie.
Une solution possible au problème de fiabilité
Une étude publiée par une startup fondée par d'anciens employés de Google suggère que les chatbots auraient un taux d'hallucinations de au moins trois%. Pour de nombreux utilisateurs, cela peut être un problème mineur, mais les choses changent lorsque l'on parle d'utilisations professionnelles.
Les outils basés sur les grands modèles de langage (LLM) arrivent dans le monde des affaires grâce à des solutions comme Copilot dans Office 365. Désormais, si les employés finissent par gérer des informations erronées, cela pourrait finir par causer plus d'un casse-tête à l'entreprise.
Cleanlab, une startup fondée par d'anciens chercheurs du MIT, vient de lancer sa propre initiative pour répondre à ce problème. Nous parlons d'un outil alimenté par ce qu'ils appellent Trustworthy Language Model (TLM), une approche qui vise à fiabilité des réponses.
TLM fonctionne comme une « couche de confiance » afin que les utilisateurs puissent savoir à quel point la réponse qu'ils viennent de recevoir est fiable grâce à un système de notation. Cet outil a été conçu pour pouvoir fonctionner de manière complémentaire aux modèles tels que GPT-3.5, GPT-4 et aux modèles d'entreprise personnalisés.
Le système envoie notre question à plusieurs modèles puis analyse leur retour. La réponse sera accompagnée d'un score qui sera compris entre 0 et 1. Dans un test simple dans lequel nous avons demandé la racine carrée de neuf, nous avons obtenu une réponse correcte (3) avec un score de 0,885.
Cleanlab souligne que ChatGPT dans sa version gratuite peut commettre des erreurs très simples. Lorsqu'on lui demande combien de fois la lettre « N » apparaît dans le mot « enter », le chatbot OpenAI répond généralement que la lettre apparaît deux fois. Nous l'avons testé et effectivement le chatbot ne répond pas correctement.
La startup imagine sa technologie utile dans un large éventail d’usages. Ils mentionnent que cela pourrait aider chatbots du service client pour être plus fiable. Le chatbot fonctionnerait automatiquement, mais si l’une des réponses tombe en dessous du seuil de fiabilité, une intervention humaine pourrait être demandée.
Si vous êtes un passionné d'intelligence artificielle, vous pouvez essayer TLM via le Web. L'outil est également disponible via une API. A noter que la solution est disponible via des versions open source gratuites et des versions payantes avec des fonctionnalités supplémentaires.
Images | Laboratoire propre | Capture d'écran
À Simseo | Le vainqueur le plus inattendu de la première grande bataille de l’IA est aussi celui que l’on croyait mort : Meta