Coûts de l'IA, les entreprises limitent les jetons et les agents

La première phase d’adoption de l’IA par les entreprises a été marquée par une poussée presque effrénée : plus de chatbots, plus d’assistants de code, plus d’automatisation dans les départements techniques et opérationnels. Maintenant, le tableau change. Plusieurs grandes entreprises qui avaient introduit des outils d’IA sur les bureaux des employés introduisent des limites de dépenses, des plafonds de consommation et des indications plus strictes sur le moment où utiliser réellement ces systèmes. Il ne s’agit pas d’une refonte stratégique de l’IA, mais du prix de son industrialisation. Selon le Temps FinancierAmazon, Walmart, Uber, Cisco et Meta ont déjà adopté des mesures pour contenir les usages jugés inutiles ou trop coûteux.

Le problème est apparu avec plus d’acuité à mesure que de nombreuses entreprises sont passées de simples chatbots à des agents. Un agent ne se contente pas de répondre à une question : il exécute plusieurs étapes, interroge des outils externes, appelle d’autres modèles, produit du code, des documents ou des actions automatiques. Chaque étape consomme de la capacité de calcul et donc des tokens, c’est-à-dire l’unité de mesure avec laquelle de nombreux fournisseurs facturent les modèles. Plus de workflow, plus de contexte, plus d’itérations : la dépense augmente.

Goldman Sachs Research prédit que l’utilisation d’agents pourrait entraîner une multiplication par 24 de la consommation de jetons d’ici 2030. (Source : goldmansachs.com)

Des chatbots aux agents : pourquoi la facture s’alourdit

Le changement est technique mais a un effet très concret sur les bilans. OpenAI explique dans sa documentation que le prix des abeilles est basé sur des jetons d’entrée et de sortie, avec des coûts différents selon le modèle et les outils connectés. Anthropic publie également des listes de prix par million de jetons et signale des différences significatives entre les modèles plus avancés et les versions moins chères. Cela signifie qu’une demande plus longue, un contexte plus large ou une chaîne d’opérations autonomes peuvent multiplier la dépense d’une manière qui n’est pas très visible pour l’employé individuel mais très évidente pour le directeur financier.

Coûts Perricos, responsable mondial de l’IA générative chez Deloitte, affirme que les coûts informatiques entrent désormais dans les considérations des directeurs financiers et des conseils d’administration, après une phase au cours de laquelle les consommateurs et les entreprises étaient habitués à percevoir l’IA comme bon marché ou presque gratuite.

Sam Altman, PDG d’OpenAI, a également défini le coût comme un « gros problème » pour les clients en 2026, signe que la question ne concerne plus uniquement les fournisseurs d’infrastructures mais entre désormais dans la gestion ordinaire des entreprises.

Uber et Walmart : les limites atteignent les départements

Le cas le plus clair est celui d’Uber. La société a introduit un plafond d’utilisation qui limite les employés à 1 500 $ par mois en dépenses symboliques pour des outils d’IA individuels, après avoir épuisé l’intégralité de son budget d’IA pour 2026 d’ici avril. Andrew Macdonald, président et chef de l’exploitation du groupe, a expliqué qu’il est devenu plus difficile de justifier des dépenses lorsqu’elles ne peuvent pas être clairement liées à une augmentation mesurable des fonctionnalités utiles aux utilisateurs.

Walmart a pris une décision similaire. Le groupe a limité l’utilisation de son agent interne en fixant un nombre maximum de tokens à disposition des salariés. Suresh Kumar, directeur mondial de la technologie, a déclaré que l’utilisation de la plate-forme interne Queues de chiot s’est développé très rapidement et c’est pourquoi une pause était nécessaire pour comprendre quels outils étaient vraiment adaptés aux tâches individuelles. Le signal est clair : la phase d’adoption aveugle laisse place à une gestion plus sélective.

Amazon, Meta et la fin de l’IA « pour créer des classements »

Amazon a également corrigé le message interne. L’entreprise a exhorté ses employés à cesser d’utiliser « l’IA juste pour le plaisir d’utiliser l’IA », après que certains ingénieurs ont commencé à déployer des agents pour grimper également dans les classements d’adoption interne. Le groupe a ensuite modifié la façon dont il mesure le succès de l’adoption afin de réduire les coûts associés à une mauvaise utilisation des outils. Meta aurait pris des mesures similaires dès avril.

Pour des entreprises de cette taille, le problème ne réside pas uniquement dans le prix payé à des tiers. Amazon et Meta ont développé des modèles en interne, mais ils continuent également de dépendre de fournisseurs externes pour les outils, services et cas d’utilisation spécialisés. Lorsque l’écosystème IA de l’entreprise est constitué de modèles propriétaires, de modèles tiers, d’outils de codage et d’agents intégrés aux processus, la gouvernance des coûts devient plus complexe. Chaque équipe a tendance à maximiser l’utilité de son flux de travail. La direction financière demande cependant la preuve du retour économique.

Cisco : plus d’agents, plus d’infrastructure

Jeetu Patel, président et chef de produit chez Cisco, a bien décrit le saut d’échelle. Un agent, explique-t-il, nécessite bien plus d’infrastructure qu’un chatbot. Pour chaque personne, il peut y avoir 10, 100 ou même 1 000 agents logiciels qui continuent de travailler sans interruption et consomment de la capacité de calcul. La différence est décisive : le chatbot est une conversation, l’agent est une usine de requêtes, de contrôles et d’actions. Lorsque cette logique pénètre dans des départements tels que le développement, le support, la conformité ou les opérations, la consommation de tokens et de cloud augmente de manière presque structurelle.

Les prévisions de Goldman Sachs correspondent ici. Le rapport de mai 2026 affirme que l’explosion de la consommation liée aux agents pourrait aggraver la tension sur l’approvisionnement en puces dans les 12-18 prochains mois, même dans un contexte où le coût unitaire par token tend à baisser. En d’autres termes, le token unique peut devenir moins cher, mais le nombre de tokens utilisés augmente tellement que cela continue de faire pression sur les budgets et les infrastructures. (Source : goldmansachs.com)

Workato : « nous avons créé un monstre »

Le cas de Workato montre pourquoi le problème ne concerne pas que les géants de la Silicon Valley. L’éditeur de logiciels, qui compte environ 1 300 employés, a vu le recours aux agents exploser après le début d’un déploiement interne à l’été 2025. Le directeur de l’information, Carter Busse, rapporte que les dépenses ont été multipliées par sept en un seul jour lorsqu’Anthropic a fait passer l’entreprise à un modèle de tarification basé sur des jetons en mai 2026. La phrase rapportée par le Financial Times en est venue à symboliser cette phase : « nous avons créé un monstre ».

La réponse de Workato n’a pas été de bloquer l’accès, mais de renforcer la discipline. Les sessions internes dédiées à l’IA, qui servaient auparavant à stimuler l’innovation, ont été réorientées vers la « responsabilité financière » dans l’utilisation de l’IA. Traduit : utilisez des modèles plus anciens et moins chers lorsque cela est suffisant, évitez le gaspillage, choisissez le niveau de puissance adapté à la tâche. C’est une logique que l’on retrouve également dans les plateformes de fournisseurs.

Les fournisseurs poussent le routage pour réduire les dépenses

Alors que les entreprises tentent de ralentir la croissance de leurs factures, les fournisseurs créent des outils pour acheminer chaque demande vers le modèle le mieux adapté en termes de coût, de qualité et de latence. Microsoft décrit son modèle de routeur dans Foundry comme un système qui analyse l’invite en temps réel et l’envoie au modèle le plus approprié parmi ceux disponibles. Amazon Bedrock offre des fonctionnalités de routage d’invites intelligentes avec le même objectif : empêcher chaque tâche de s’exécuter sur le modèle le plus puissant et le plus coûteux.

Google propose en parallèle une ligne Finops pour l’ère de l’IA. En avril 2026, Google Cloud a présenté des outils de visibilité et des « plafonds de dépenses » conçus pour donner aux clients des limites de dépenses et un contrôle plus fin sur les coûts générés par les charges d’IA. Le message du marché est cohérent : il ne suffit pas de vendre davantage de modèles, il faut proposer aux entreprises des moyens pratiques pour éviter de perdre le contrôle du compte de profits et pertes.

La pression des modèles chinois

Un autre facteur qui pèse sur les choix des entreprises est la concurrence des modèles chinois moins chers. Le Temps Financier a écrit en avril que, selon les données d’OpenRouter, début 2026, les modèles chinois avaient dépassé les modèles américains en termes de consommation de jetons sur la plate-forme. Le même article attribue cet avantage à des coûts énergétiques inférieurs et à des modèles plus efficaces, avec des prix dans certains cas bien inférieurs à ceux des principaux groupes américains.

Pour les entreprises clientes, le problème n’est pas seulement géopolitique. C’est une question d’approvisionnement. Si la différence de prix entre les modèles est importante, la tentation d’utiliser des versions moins chères pour une grande partie des charges augmente. Dans le même temps, on constate un intérêt croissant pour les modèles open source ou open pondération à exécuter localement, sur les serveurs de l’entreprise ou même sur les appareils, afin de réduire la dépendance vis-à-vis des laboratoires d’IA et des grands fournisseurs de cloud.

De la course à l’adoption à l’épreuve du retour économique

Depuis plus d’un an, le marché récompense avant tout la rapidité d’adoption. Les entreprises devaient montrer aux investisseurs qu’elles expérimentaient, déployaient des copilotes, automatisaient les processus et formaient les employés. Désormais, le critère change. La question n’est plus de savoir combien de personnes utilisent l’IA, mais quelles activités produisent un bénéfice mesurable par rapport au coût des jetons, du cloud, de la sécurité et de la surveillance humaine. Kyle Daigle lui-même, directeur des opérations de GitHub, a expliqué que la vraie question pour l’utilisateur est de savoir quel modèle est le mieux adapté à la tâche, et non de savoir si le modèle frontière doit toujours être utilisé.

Cette étape peut également avoir un impact sur les revenus futurs des grands laboratoires d’IA. Si les entreprises clientes commencent à déplacer une partie de leurs charges vers des modèles moins coûteux, des routeurs intelligents ou des solutions sur site, la croissance de la demande reste élevée, mais la répartition des revenus change. Le marché des entreprises continue de dépenser, mais avec une plus grande sélectivité. Il ne s’agit pas en soi d’un ralentissement de l’IA. C’est la fin d’une phase où presque toutes les utilisations semblaient justifiées par le seul enthousiasme pour la technologie.

La facture finale est politique, industrielle et financière

La pression sur la consommation ne signifie pas que l’IA perd sa centralité dans les entreprises. Elle signale le contraire : elle concerne les centres de coûts réels, les budgets annuels, les politiques internes et les critères avec lesquels les investissements sont approuvés. Lorsqu’une technologie devient une dépense structurelle, elle cesse d’être une expérimentation.

C’est pourquoi Amazon, Walmart, Uber, Cisco et d’autres sociétés changent de langage : moins de célébration de l’adoption, plus d’attention à la productivité réelle et au prix de chaque flux de travail. La prochaine phase de l’IA d’entreprise se jouera ici, dans la capacité d’utiliser davantage d’automatisation sans transformer les jetons en une voix emballante.