L’avancée des LLM : les performances et les défauts qui freinent leur adoption
L'intelligence artificielle, avec moi grands modèles de langage (LLM), est au centre des stratégies commerciales d’un nombre croissant d’entreprises et entre avec force dans notre quotidien. Les grands acteurs du secteur, comme OpenAI, Anthropic et Googlecontinuent d'investir d'énormes capitaux pour développer des LLM de plus en plus puissants, comme GPT-4, Claude et Gémeaux.
Ces progrès rapides ont marqué une avancée dans le domaine de l'IA, les LLM atteignant et même dépassant les performances humaines dans de nombreux tests linguistiques conçus pour évaluer des tâches complexes telles que la compréhension de texte, le raisonnement logique et la génération de langage naturel. Malgré ces succès impressionnants, des défis cruciaux persistent qui empêchent les systèmes d’IA actuels d’être considérés comme totalement fiables et sans erreurs.
Nous examinons les performances des meilleurs LLM sur plusieurs critères de langage et de codage, en soulignant à la fois leurs progrès notables et les domaines dans lesquels ils doivent encore s'améliorer. Nous abordons également les problèmes persistants concernant les hallucinations, les inexactitudes factuelles et le manque de robustesse qui entravent l'adoption généralisée de ces systèmes dans des applications critiques.
Index des sujets :
Comment évaluer un LLM
Les progrès continus des grands modèles de langage sont évidents dans leurs scores records sur les principaux benchmarks disponibles. Sur le benchmark MMLU (Compréhension Massive du Langage Multitâche), conçu pour évaluer les compétences en compréhension linguistique dans 57 matières différentes, le modèle Gémeaux Ultra par Google a récemment établi un nouvel état de l'art avec un score de précision de 90,0 %. Cela représente une amélioration notable de 14,8 points de pourcentage par rapport au meilleur score de l'année précédente et un bond incroyable de 57,6 points depuis la première note MMLU en 2019. Il convient particulièrement de noter que le Gemini Ultra est le premier modèle à dépasser la base de référence humaine de 89,8 % sur cette référence exigeante.
Sur les tâches de génération de code, les LLM ont fait de grands progrès. Sur le benchmark populaire HumanEval, qui évalue la capacité des systèmes à générer des solutions efficaces à 164 problèmes de programmation manuscrits, une variante du modèle GPT-4 appelée « AgentCoder » a récemment établi un nouveau record avec un score de 96,3 %. Ce résultat représente un bond de 11,2 points de pourcentage par rapport au score le plus élevé de l'année précédente et une augmentation notable de 64,1 points par rapport aux premiers scores sur HumanEval en 2021, soulignant les progrès rapides dans ce domaine difficile.
Dans l’ensemble, ces résultats illustrent le potentiel de transformation de la vague actuelle de systèmes d’IA de pointe pour un large éventail d’applications linguistiques et de codage. Cependant, comme nous le verrons, d’importants défis restent à relever avant que ces systèmes puissent être considérés comme pleinement fiables et robustes.
Des défis persistants
Malgré des progrès considérables, les LLM actuels souffrent toujours de certaines lacunes fondamentales qui limitent leur fiabilité et entravent leur adoption généralisée dans les applications critiques. L’une des principales préoccupations est la tendance de ces modèles à produire des hallucinations, c’est-à-dire des résultats qui semblent plausibles, mais qui sont en réalité infondés, voire faux.
Un nouveau benchmark baptisé HaluEval, introduit en 2023, vise à quantifier et analyser ce phénomène d'hallucinations. Les résultats sont troublants : le populaire LLM ChatGPT contient des informations hallucinantes invérifiables dans environ 19,5 % de ses réponses sur un large éventail de sujets. Ce qui est encore plus alarmant, c'est que de nombreux dirigeants de LLM, notamment Claude2GPT-3 et autres, ont obtenu de mauvais résultats lorsqu'ils ont été testés sur leur capacité à détecter des hallucinations dans leur propre production.
Un autre problème réside dans la tendance des LLM à produire des réponses non factuelles, voire contraires aux connaissances acceptées sur des questions concrètes. Sur le benchmark TruthfulQA, conçu pour évaluer la véracité des réponses des modèles, même les meilleurs LLM ont obtenu des scores relativement modestes. Bien que GPT-4 avec RLHF ait obtenu le score actuel le plus élevé de 0,6, cela reste bien en deçà de ce que nous attendons d'une IA qui doit prendre des décisions dans des contextes critiques.
Ces manques persistants de fiabilité et de robustesse représentent un obstacle sérieux à l’adoption des LLM dans des domaines sensibles tels que la finance, le droit et la médecine, où les conséquences de réponses trompeuses ou incorrectes pourraient être désastreuses. Il est impératif que ces problèmes soient résolus avant que les LLM puissent être largement mis en œuvre en tant qu'assistants de confiance.
Repères et défis pour l’avenir
Même si les LLM ont fait des progrès significatifs par rapport aux benchmarks conçus traditionnellement, on prend de plus en plus conscience que bon nombre de ces benchmarks ne reflètent peut-être pas pleinement la complexité et les défis des tâches du monde réel. En réponse, de nouveaux ensembles de données d’analyse comparative plus complexes ont été introduits, conçus pour évaluer les capacités des modèles d’IA dans des scénarios plus réalistes et plus complexes.
Un exemple est SWE-bench, un benchmark récent qui inclut 2 294 problèmes de génie logiciel extraits de rapports de problèmes réels sur GitHub et dans les référentiels. Python populaire. Contrairement à de nombreux tests de codage précédents, SWE-bench nécessite que les systèmes coordonnent les changements dans plusieurs fonctions, interagissent avec divers environnements d'exécution et effectuent un raisonnement complexe.
Les résultats du test SWE mettent en évidence les lacunes substantielles qui persistent dans les capacités de codage des LLM de pointe. Même le meilleur modèle, Claude 2 d'Anthropic, n'a pu résoudre que 4,8 % des problèmes de l'ensemble de données, soulignant combien de travail reste à faire pour amener ces systèmes au niveau de compétence requis pour les applications du monde réel.
Ce besoin de références plus exigeantes et plus réalistes est un thème récurrent parmi les chercheurs en IA. À mesure que les performances des modèles continuent de s’améliorer sur les ensembles de données existants, il devient essentiel d’introduire des références qui reflètent plus précisément les véritables défis et complexités auxquels les systèmes d’IA seront confrontés dans leurs mises en œuvre pratiques. Ce n’est qu’en relevant ces défis les plus difficiles que les futurs progrès de l’IA pourront être véritablement transformateurs et conduire à des systèmes robustes et fiables.
Avancées dans le codage basé sur l’IA
Un domaine qui a connu des progrès particulièrement rapides est la capacité des LLM à générer du code fonctionnel et à résoudre des problèmes de programmation. Les chercheurs ont introduit de nombreux benchmarks spécialement conçus pour évaluer cette capacité de codage de l’IA, tels que HumanEval, CodeXGLUE et le récent banc SWE.
Les résultats de ces tests démontrent que même si les principaux LLM s'améliorent rapidement dans la génération de code correct et idiomatique, des défis importants persistent lorsqu'il s'agit de tâches plus exigeantes telles que le débogage, la refactorisation ou la résolution de problèmes réels d'ingénierie logicielle.
Par exemple, sur le populaire HumanEval, la variante de GPT-4 appelée «Codeur d'agent» a récemment établi un nouveau record avec 96,3 % de problèmes résolus correctement. Pourtant, lorsqu'elle a été testée sur le banc SWE, une collection beaucoup plus complexe de problèmes inspirés du monde réel provenant de GitHub, même la meilleure IA pour le codage, Claude 2, n'a résolu que 4,8 % des problèmes.
Cet écart démontre que, bien qu’impressionnantes, les capacités actuelles de codage de l’IA restent limitées à des tâches bien définies et circonscrites. L’extension de ces compétences à des scénarios d’ingénierie logicielle plus généraux et ouverts, avec des exigences vagues et des réplications du code existant, nécessitera des avancées significatives dans les capacités de raisonnement, d’abstraction et de résolution de problèmes des systèmes d’IA.
Au niveau de l'entreprise, cependant, même les capacités limitées actuelles de codage de l'IA trouvent déjà des applications précieuses, telles que la génération d'extraits de code, l'illustration de concepts de programmation et l'assistance aux développeurs. À mesure que ces systèmes s’améliorent, leur impact sur le flux de développement logiciel va probablement croître de façon exponentielle.
Conclusions
Les progrès récents de l'intelligence artificielle, incarnés par la montée en puissance de grands modèles de langage puissants tels que GPT-4, Claude et Gémeaux, ils étaient révolutionnaires. Ces systèmes ont établi de nouveaux records sur des critères particulièrement exigeants, repoussant les limites des capacités de compréhension du langage, de raisonnement et de génération de code.
Pourtant, malgré les progrès réalisés, d’importants obstacles restent à surmonter avant que les systèmes d’IA puissent être considérés comme véritablement fiables et applicables à grande échelle. Les défis persistants liés aux hallucinations, à l'imprécision factuelle et au manque de robustesse sur les tâches du monde réel entravent l'adoption généralisée des LLM dans les applications à enjeux élevés.
Il est crucial que les efforts des chercheurs se concentrent sur ces domaines problématiques clés. L’introduction de références de plus en plus exigeantes et réalistes, telles que HaluEval et SWE-bench, sera essentielle pour générer des améliorations futures et garantir que les progrès de l’IA ne se traduisent pas simplement par des augmentations de scores par rapport à des références vieillissantes, mais plutôt par des améliorations tangibles de la capacité des systèmes du monde réel.
Ce n'est qu'en abordant directement ces défis difficiles que la recherche sur l'IA pourra aspirer à concrétiser pleinement la vision de systèmes d'intelligence artificielle véritablement fiables, cohérents et robustes, capables de jouer le rôle d'assistants de confiance efficaces pour effectuer des tâches pratiques et éviter des écarts ou des erreurs dangereuses. Cette étape reste cruciale pour l’adoption généralisée et réussie de l’IA dans les entreprises et dans la société en général.