Optimisation des coûts des entreprises d’IA : trois leviers pratiques

Le budget IA d’Uber pour 2026 a été entièrement épuisé au cours des trois premiers mois : les ingénieurs utilisant Claude Code ont dépensé l’intégralité du budget annuel de l’entreprise en quelques mois seulement. Chez Meta, les employés ont consommé 60 200 milliards de jetons en trente jours, un chiffre qui, au prix catalogue des API d’Anthropic, vaut environ 900 millions de dollars, même en excluant les frais d’entreprise. Un seul ingénieur OpenAI a traité 210 milliards de jetons en une semaine, soit l’équivalent d’environ 33 fois la taille de Wikipédia.

Ce sont des données qui ont émergé fin avril de l’enquête New York Times sur le phénomène de jetonmaxxingla consommation volontairement extensive d’outils d’IA comme forme de statut interne. Ces excès sont des histoires de Silicon Valley, mais la même dynamique, à plus petite échelle, commence aussi à affecter les comptes des PME.

Le problème : des dépenses qui augmentent, une gouvernance à la traîne

Le prix unitaire des jetons, c’est-à-dire les unités minimales de texte traitées par les modèles linguistiques, est en baisse depuis deux ans. Chaque nouvelle génération coûte moins cher que la précédente pour la même capacité. La facture globale des entreprises continue cependant d’augmenter : même si la réduction du prix par jeton a rendu l’invite unique moins chère, la consommation globale est devenue plus imprévisible et les cas d’utilisation sont devenus plus complexes et nécessitent des modèles plus grands et plus performants. Les agents autonomes, les fenêtres contextuelles comportant des millions de jetons, les appels récursifs et les workflows d’appel d’outils multiplient les demandes.

Selon les observatoires Startup Thinking and Digital Transformation Academy de l’Université Polytechnique de Milan, le budget TIC des entreprises italiennes augmentera de 1,8% en 2026. Dans les PME, l’intelligence artificielle arrive en douzième place parmi les priorités d’investissement, avec 19% des entreprises la considérant comme un domaine prioritaire.

Une hypothétique entreprise manufacturière qui active Microsoft 365 Copilot pour l’intégration à la suite Office, souscrit à ChatGPT Plus pour le marketing, épaulé par Claude Pro pour la gestion technique, sur quarante salariés dépense plusieurs dizaines de milliers d’euros par an rien qu’en licences, avant même de calculer la consommation éventuelle d’API des automatisations fonctionnant en arrière-plan.

Le vrai risque est de dépenser de l’argent car vous payez pour différents outils qui font la même chose et utilisez des modèles premium pour des tâches qui, en réalité, nécessiteraient des modèles bas de gamme. De plus, dans de nombreux cas, lors de la phase de choix, il manque des évaluations qui nous permettent de comprendre quand il est préférable d’utiliser l’API et quand, au contraire, les abonnements seraient plus pratiques.

Premier levier : audit des outils et suppression des redondances

Le salarié moyen utilise aujourd’hui 13 outils SaaS (Software as a Service), contre 7 en 2022, avec une croissance de 85 % en deux ans (rapport Torii). Les organisations gaspillent en moyenne 24 % de leur budget SaaS en applications inutilisées ou redondantes. En chiffres, cela signifie qu’une entreprise qui dépense 100 000 euros par an en licences de logiciels gaspille 24 000 euros en outils qui ne produisent pas de valeur.

Dans le domaine spécifique de l’IA, le problème de chevauchement est particulièrement aigu, car chaque éditeur élargit son offre vers les mêmes fonctionnalités. Microsoft 365 Copilot, ChatGPT Plus, Claude Pro, Google AI Pro et Gemini Advanced proposent tous un résumé de documents, la génération d’e-mails, des résumés de réunions et une assistance à la rédaction à des degrés divers. Si l’on ajoute à la liste des outils spécialisés, on peut facilement imaginer des scénarios dans lesquels une entreprise, pour certains salariés, peut se retrouver avec six ou sept abonnements IA actifs, peut-être acquis auprès de différents départements.

Un premier outil pour éviter la prolifération de coûts superflus est un inventaire complet et toujours à jour des outils d’IA utilisés, obtenu en croisant les journaux de Single Sign-On, les notes de frais sur les cartes d’entreprise et les entretiens avec les chefs de service.

Une deuxième étape importante est la classification par fonction. Une matrice simple place les cas d’usage sur les lignes (rédaction de texte, analyse de données, synthèse de documents, transcription de réunion, génération de code, recherche web, images) et les outils actifs sur les colonnes. Les cases comportant deux croix ou plus sont candidates à la consolidation. Le principe de Vertice et des principaux frameworks de gestion SaaS est qu’un cas d’utilisation à haute fréquence doit être couvert par un outil principal, tandis que les outils spécialisés ne survivent que lorsqu’ils apportent une valeur distinctive mesurable.

La logique de porte d’entrée unique exige que chaque nouvelle demande de logiciel d’IA passe par un point d’approbation unique, généralement un comité réunissant l’informatique, les finances et le propriétaire du processus. Sans cette gouvernance, la réduction d’aujourd’hui devient la superposition de demain.

Pour une PME de 40 à 50 salariés, un audit sérieux conduit généralement à la suppression de trois ou quatre abonnements sur dix, avec une économie annuelle comprise entre 8 000 et 15 000 euros. Ce qui est plus important que la réduction elle-même est le fait qu’après l’audit, l’entreprise sait exactement ce qu’elle paie et pourquoi.

Deuxième levier : le bon modèle pour la bonne tâche

La liste de prix de l’API d’Anthropic en avril 2026 fixe Claude Haiku 4,5 à un dollar par million de jetons pour l’entrée et à cinq dollars pour la sortie. Claude Sonnet 4.6 coûte trois dollars en entrée et quinze en sortie. Claude Opus 4.7, le modèle haut de gamme, coûte cinq dollars en entrée et vingt-cinq en sortie. Le modèle premium coûte donc cinq fois le modèle bas de gamme pour la production de jetons. Sur OpenAI, l’image est similaire.

Dans une perspective d’optimisation, il est nécessaire d’identifier exactement quel modèle est utilisé pour les différentes tâches. En l’absence de gouvernance, on a tendance à toujours recourir au plus puissant : c’est le choix par défaut qui conduit au plus grand gaspillage. Le principe de base de routage du modèle c’est la reconnaissance du fait que les tâches ont des complexités différentes.

Une classification, une extraction de données structurées ou un résumé standard d’un document, sont des tâches que des modèles petits et économiques, comme Haiku 4.5 ou Gemini 3 Flash, traitent avec une précision plus que suffisante. La génération de contenu complexe, le raisonnement en plusieurs étapes et le codage non trivial nécessitent des modèles plus avancés.

Enfin, les modèles frontières n’ont de sens que pour les activités où la qualité marginale compte vraiment, comme les avis technico-juridiques, les analyses de documents très longs ou la révision des codes d’architecture.

Recherche publiée dans arXiv en octobre 2025, a montré que des stratégies de routage bien adaptées peuvent surpasser le modèle le plus puissant, tout en réduisant considérablement les coûts.

Comment les PME peuvent économiser sur l’IA

Pour une PME, traduire cette logique en pratique signifie segmenter les flux de travail. La mise en œuvre technique passe par des frameworks tels que LiteLLM, Portoloin ou Martienqui agissent comme une passerelle entre l’application et les différents fournisseurs d’IA, acheminant chaque appel vers le modèle le plus approprié en fonction de règles établies ou d’un classificateur de complexité. Pour les entreprises qui ne sont pas assez grandes pour justifier la création d’une infrastructure dédiée, les mêmes avantages peuvent provenir de la conception explicite d’invites.

Au lieu d’un seul assistant généraliste, sont configurés des agents spécialisés qui, sous le capot, utilisent différents modèles.

À cela s’ajoutent des mécanismes techniques qui réduisent encore davantage les coûts sans nécessiter de routage.

Le mise en cache rapidedisponible pour les principaux fournisseurs, permet de mémoriser la partie répétitive de l’invite (une invite du système d’entreprise, un manuel d’utilisation, un ensemble d’exemples) et de ne payer que 10 % du coût standard pour les accès ultérieurs, avec une économie allant jusqu’à 90 % sur les saisies récurrentes.

Les API batch, pour les charges de travail non temps réel, permettent d’obtenir une remise de 50 % sur le tarif, en échange d’un temps de réponse allégé, dans un certain nombre d’heures. En ajoutant la mise en cache et le traitement par lots, le coût réel d’un appel peut chuter jusqu’à 5 % du prix catalogue.

Troisième levier : le bon choix entre API et abonnement

La liste des prix à la consommation de ChatGPT Plus, Claude Pro et Google AI Pro pour le moment, il converge vers 20 euros par mois, TVA comprise pour l’utilisateur italien. Les mêmes sociétés proposent des forfaits API avec paiement à l’utilisation : vous payez pour chaque jeton effectivement traité, sans frais fixes. Les deux méthodes semblent alternatives et, dans de nombreuses PME, elles sont traitées comme opposées. La réalité opérationnelle impose de les choisir en fonction du profil de consommation.

Le calcul du seuil de rentabilité est moins complexe qu’il n’y paraît. Un salarié moyen qui utilise l’IA de manière standard passe entre trente et cinquante appels par jour, générant ainsi, en un mois de travail, entre 600 et 1 000 appels, pour un coût API compris entre 20 et 30 dollars. Pour cet utilisateur, l’abonnement Pro à 20 $ est presque toujours plus abordable, car il comprend également l’interface conversationnelle, la gestion des fichiers et l’intégration avec des outils comme Sora ou Codex.

Les utilisateurs conversationnels, tels que la direction, le marketing, les ventes ou les RH, tirent le meilleur parti des abonnements grand public ou des forfaits d’équipe d’entreprise.

Les gros utilisateurs techniques, tels que les développeurs et les analystes de données, ont besoin de plans avec des limites plus élevées. Toutes les charges de travail répétitives pouvant être automatisées doivent toujours être gérées via l’API. Ici, le prix par jeton, les options de mise en cache, les remises par lots et le routage entre les modèles deviennent les variables décisives. Dans la plupart des cas, une gestion hybride entre abonnements et workflows automatisés utilisant des API est requise.

Gestion basée sur l’IA

Ces outils de contrôle des coûts doivent être appliqués en parallèle. L’audit des outils redondants donne les résultats les plus rapides et les plus visibles : les économies sont immédiates et mesurables en euros non dépensés lors du renouvellement des abonnements. Le routage des modèles prend plus de temps à mettre en œuvre et nécessite une expertise technique ; son application concrète dépend du degré de maturité de l’intégration de l’IA dans les processus. Dans une entreprise qui utilise l’IA uniquement via des interfaces conversationnelles, le routage se limite à laisser les utilisateurs choisir le bon modèle au sein de l’application. Dans une entreprise avec des automatisations en production, une conception architecturale de passerelle ou de flux est nécessaire.

Le bon choix entre API et abonnement est une question plus stratégique, à évaluer à moyen terme : elle nécessite de se demander, pour chaque cas d’usage, si la valeur réside dans l’interface ou dans l’automatisation.

Les KPI à suivre sont relativement peu nombreux et facilement identifiables. Le coût mensuel total de l’IA par employé donne la référence des dépenses. Le nombre d’outils d’IA sanctionnés indique le niveau de étalementtandis que le pourcentage d’appels API acheminés sur des modèles bas de gamme mesure la maturité du routage. Il est également possible d’évaluer le ratio entre les abonnements actifs et les abonnements réellement utilisés (connexions au cours des trente derniers jours) pour comprendre combien est gaspillé en licences non utilisées. Une entreprise qui parvient à garder sous contrôle ces quatre indicateurs a déjà fait plus de 90% des entreprises italiennes de même taille.

Toutefois, les dépenses consacrées à l’IA ne doivent pas du tout être minimisées. De l’étude polytechnique déjà mentionnée dans l’article, il ressort que 41 % des travailleurs italiens qui utilisent l’IA réalisent des activités qu’ils ne pourraient pas accomplir autrement. La productivité marginale d’une licence bien dépensée est élevée. Optimiser les coûts, c’est arrêter de payer pour ce qui ne génère pas de valeur, pour investir dans les bons outils qui font croître l’entreprise.