Agents IA : voici pourquoi la majorité des projets échouent

On apprend en faisant des erreurs : un proverbe indémodable, qui trouve aussi son sens dans l’utilisation que nous faisons quotidiennement du Large Language Model (LLM). Depuis les premières utilisations du GPT, nous avons été submergés d’émotions contradictoires, un outil au potentiel immense, mais en même temps avec de grandes limites, depuis une connaissance fixée à un moment précis du passé jusqu’à une incapacité à effectuer des actions autres que la production de texte.

Le moteur de tout : l’exploration

Un peu comme un enfant aux prises avec un nouveau jeu, un peu comme saisi par une sorte d’impatience, nous avons commencé à tester l’utilisation du LLM dans de nombreux contextes.

OpenAI a publié un article intitulé « Comment les gens utilisent ChatGPT » (1) , qui indique que l'adoption mondiale a atteint 10 % de la population, un chiffre vraiment remarquable. De plus, il est très intéressant que le pourcentage d’utilisation le plus élevé soit lié à «utilisation non professionnelle ». Cet article nous montre à quel point l’utilisation du LLM devient omniprésente au sein de notre société, non seulement sur le lieu de travail mais aussi dans la vie de tous les jours.

Une utilisation intense permet l'exploration, ce qui nous a permis de surmonter bon nombre des limites initiales des LLM en peu de temps, leapprentissage en contextepar exemple, a permis d'apprendre à partir des exemples fournis. RAG (Retrieval Augmented Generation) était une évolution naturelle et permettait aux modèles d'accéder à des connaissances toujours nouvelles et inédites.

Une grosse limitation : le modèle doit tout faire en une seule étape

Imaginons que nous soyons confrontés à une tâche de ce type : calculer l'âge cumulé des villes les plus anciennes de chaque région d'Italie (2). Un LLM avec une invite avancée, ainsi que les systèmes RAG, auront tendance à échouer dans les tâches de ce type ; d'une manière générale, la limite est dictée par le fait que les tâches complexes nécessitent d'être divisées et exécutées par étapes. Une première idée en ce sens a été le CoT (Chain of Thought), dans lequel, à travers des exemples, nous essayons d'inculquer un raisonnement logique dans le modèle face à un problème, en le guidant dans les étapes à suivre pour arriver à la conclusion. C’est sans doute une bonne idée, mais elle nécessite de disposer immédiatement de toutes les informations, et nous savons que ce n’est souvent pas le cas ; Le raisonnement cela ne suffit pas toujours, il faut des actions, il faut que le modèle puisse interagir avec l'environnement dans lequel il se trouve.

C’est là que se forme la notion d’agents, à partir de «agents d'action» capable de décider quelles actions effectuer dans un certain environnement (3) au plus célèbre Réagir (Raison + Acte) Agents (4), qui combinent les concepts de Chaîne de pensée avec celui de réaliser des actions. Le modèle est donc capable d'utiliser une série d'outils ou de fonctions capables d'effectuer des tâches très spécifiques de manière déterministe et, grâce au CoT, le modèle est instruit sur la meilleure façon de les utiliser.

Le futur est-il agentique ?

Le paragraphe précédent semble indiquer une direction bien précise, les agents et toutes leurs variantes nous ouvriront les portes du futur, et pourtant, outre tant de sensationnalisme, il existe en ligne des rapports et des articles sur les échecs des projets d'IA, et en particulier de l'IA générative dans les entreprises.

Pour prendre un exemple concret, dans le rapport «La fracture GenAI : état de l’IA dans les entreprises 2025» créé par le MIT (5), un pourcentage d'échec de projet est même cité pilote proche de 95 %, l’échec entendu comme l’incapacité à produire un rendement facilement mesurable.

Le rapport ne s'arrête pas au pourcentage, mais tente également de donner une explication à ces résultats : le principal problème ne réside pas dans la technologie, mais plutôt dans la méthode d'adoption, c'est souvent l'absence d'une stratégie adéquate qui dicte l'échec.

L'histoire se répète toujours, tout comme pour les projets plus liés à l'apprentissage automatique, même pour les projets d'IA générative, les principaux éléments du succès sont toujours liés à ces points fondamentaux :

Définissez clairement les objectifs que vous souhaitez atteindre, ce qui peut aussi impliquer de ne pas utiliser de modèle génératif. Alors partez du problème.
Établir des mesures claires avec lesquelles évaluer le succès d'un projet, le retour ne doit pas nécessairement être uniquement économique (par exemple plus de satisfaction client, améliorations opérationnelles de certains processus, etc.)
Assurez-vous que les données avec lesquelles vous souhaitez travailler sont propres et facilement intégrables (vous aurez déjà lu cette phrase, elle est toujours répétée car elle est vraie)
Définir les attentes sur le résultat réel qui peut être obtenu
Explorez et faites des erreurs, puis réessayez.

Comment créer des agents efficaces

Jusqu'à présent, nous avons compris comment les agents sont capables de permettre aux modèles de langage de résoudre des tâches complexes, mais de la même manière, nous avons également dit que la plupart des projets pilote ça ne va pas bien. Après un premier moment de battage médiatique, même dans cette phase, nous avons commencé à observer les comportements des agents dans diverses tâches et contextes, et avec cette exploration plusieurs idées intéressantes ont émergé, du célèbre blog Anthropic intitulé « Construire des agents efficaces» (6) au livre blanc de Google (7), en terminant par le guide OpenAI (8).

Bref, tous les acteurs les plus importants ont eu leur mot à dire sur ce qu'est un agent et sur les bonnes pratiques à adopter pour obtenir de bons résultats.

Cela peut paraître banal, mais les points cruciaux qui ressortent visent toujours une simplification :

Il n'est pas toujours nécessaire d'utiliser des agents, entendus comme des systèmes capables de planifier de manière autonome la résolution d'une tâche ; au contraire, dans de nombreux cas, des flux de travail bien définis et contrôlables suffisent.
L'utilisation de bibliothèques de haut niveau peut vous permettre d'atteindre facilement le MVP, mais dans de nombreux cas, les couches d'abstraction supplémentaires rendent difficile la compréhension des cas d'échec. Ainsi, un avantage initial peut devenir un inconvénient demain, mettez en œuvre »à partir de zéro» ou se limiter aux bibliothèques externes uniquement lorsque cela est nécessaire est préférable.
Donner de l'importance à surveillancec'est-à-dire garder une trace du flux qui a conduit l'agent à résoudre une tâche, depuis les outils invoqués jusqu'aux observations faites par le LLM. Comprendre quand les choses ne fonctionnent pas permet d'améliorer les invites et le flux.

Pourquoi les systèmes multi-agents échouent-ils ?

Ce paragraphe est tiré du titre d’un article de Berkeley, qui part d’une phrase emblématique : « Les systèmes qui réussissent fonctionnent tous de la même manière, chaque système défaillant a ses propres problèmes. »

La question se complique, nous avons commencé au début de l'article à parler des limites d'un seul prompt et d'un seul LLM, pour arriver ici à des systèmes d'agents qui doivent communiquer et interagir entre eux pour résoudre des tâches complexes et potentiellement longues.

Une fois de plus, nous sommes pressés d'exploiter nos nouveaux agents ou workflows de toutes les manières en les faisant fonctionner ensemble, mais malgré une adoption croissante, la recherche montre que le gain en termes de performances reste minime par rapport aux systèmes mono-agent, en plus du fait que les pourcentages de taux d'échec sont élevés. L'importance de cet article réside dans le fait qu'il vise à dresser une taxonomie des différents modes de défaillancepeut-être pas encore complet mais certainement fondamental en tant qu'outil d'analyse et de débogage.

Les recherches montrent que 41% des échecs proviennent d'erreurs liées au fait que les agents ne comprennent pas complètement la tâche, 37% de « désalignement inter-agents »ou de problèmes de communication entre les différents agents (par exemple échec dans la demande d'éclaircissements, inadéquation entre le raisonnement et les actions entreprises, réinitialisation des conversations, saisies erronées, etc.) ; enfin, 21% sont liés à écart de vérifications, c'est-à-dire qu'il n'y a aucun contrôle pour savoir si les travaux sont effectivement terminés.

En y réfléchissant bien, n'est-ce pas peut-être ce qui arrive aussi dans les projets confiés à un groupe de personnes, que ce soit au travail ou à l'école, combien de fois vous est-il arrivé que quelqu'un ne comprenne pas complètement la tâche, ou une partie de celle-ci, ou encore, combien de fois vous ne vous compreniez pas et que deux personnes faisaient le même travail.

Au-delà de la difficulté incontestable de faire fonctionner ensemble des systèmes multi-agents, le véritable problème réside souvent dans la manière dont nous essayons de traduire les problèmes en code.

Quelle direction prenons-nous

Dans le paragraphe précédent, 3 grandes catégories ont été identifiées échecsdans le premier cas sur « piège de spécification » le trait fondamental sur lequel se concentrer est de traiter les spécifications de manière très précise, voire en utilisant des schémas bien définis si nécessaire (par exemple Json Schema). Concernant le problème du désalignement inter-agents, des outils tels que le Model Context Protocol (MCP) et l'Agent2Agent Protocol (A2A) vont dans le sens d'obtenir un standard de facto dans les communications entre agents et outils, et entre agents dans un système multi-agent (potentiellement distribué).

De nombreux points critiques sont encore explorés, mais cette même exploration pilote l’évolution de ces outils.

Conclusions

Le chemin parcouru jusqu’à présent nous montre comment chaque pas en avant ouvre de nouvelles possibilités, de nouvelles tâches qui peuvent être affrontées et, espérons-le, résolues, mais entraîne de nouvelles formes d’échec : savoir les reconnaître et les étudier en profondeur est une condition nécessaire pour transformer le battage médiatique en valeur concrète.

Liens et références

(1) – https://www.nber.org/papers/w34255

(2) – https://medium.com/intuitively-and-exhaustively-explained/llm-agents-intuitively-and-exhaustively-explained-8905858e18e2

(3) – arxiv.org/pdf/2204.01691.pdf

(4) – https://arxiv.org/abs/2210.03629

(5) – https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/

(6) – https://www.anthropic.com/engineering/building-effective-agents

(7) – https://www.kaggle.com/whitepaper-agent-companion

(8) – https://share.google/TzF9xPvPVyfyyvYlu

(9) – https://github.com/multi-agent-systems-failure-taxonomy/MAST