Gouvernance des coûts de l’IA : Claude Entreprise contrôle

Une équipe double la consommation de Claude en un mois. Jusqu’à hier, c’était une donnée qu’un responsable informatique découvrait en fin de cycle, sur la facture, alors que la course était terminée et que seule la surprise restait. Avec les nouveaux chèques pour Claude Entreprise annoncés le 2 juillet, on constate ce même doublement, ainsi que son coût, ventilé par groupe et par individu.

Anthropic met le contexte en observant qu’à mesure que Claude assume un travail d’agence de plus en plus complexe au sein de l’entreprise, les modèles d’utilisation et de coûts commencent à ressembler peu à ceux d’un outil de chat classique. Un assistant conversationnel a un coût presque linéaire et prévisible, lié au nombre de personnes qui l’utilisent.

Un agent qui ouvre des fichiers, exécute des compétences, orchestre des connecteurs et produit des artefacts consomme de manière discontinue, par rafales, liée à ce qu’il fait et non au nombre de personnes qui l’ont ouvert.

Du chatbot au travail d’agent, la facture change de forme

C’est lors du passage du pilote à la production que cette différence se fait sentir. Durant les mois d’expérimentation les coûts restent faibles et la question ne se pose quasiment pas. Ensuite, l’adoption augmente, les agents entrent dans des processus réels et les dépenses commencent à évoluer selon une logique que l’ancien tableau de bord utilisateur ne peut plus lire. Après cette étape, le poste de coût de l’IA cesse d’être une ligne marginale et devient quelque chose qu’une direction financière examine attentivement, mois après mois.

Pour un CTO ou un responsable de l’innovation, le risque, à ce stade, est de se retrouver face à deux fausses pistes. Lâchez prise et découvrez la facture finale, ou coupez aveuglément et ralentissez ceux qui produisent le plus avec l’IA. Une troisième voie est nécessaire, et elle implique la capacité de lire l’usage au fur et à mesure.

Analytics, voyez avant de couper

Le premier réflexe, face à des dépenses qui s’accélèrent, est de mettre un toit dessus et de resserrer les mesures. Mais abaisser la limite sans savoir où se concentre la valeur risque d’arrêter ceux qui produisent le plus. Carter Busse, CIO de Workato, dit qu’il ne veut pas ralentir ceux qui réalisent le meilleur trimestre, et ajoute que même son directeur financier ne lui pose pas la question : la question qu’on lui pose porte sur le retour, pas sur le confinement.

Son entreprise a connecté Claude à ses serveurs MCP et a lié cette utilisation à une augmentation de 4 % des revenus. C’est en voyant le coût ainsi que l’impact par équipe que lui permet de faire valoir cet argument auprès de la direction.

C’est ici que réside le renversement de perspective. Une visibilité granulaire ne sert pas à effrayer ceux qui consomment trop, elle sert à comprendre où l’investissement porte ses fruits et où il est gaspillé. Le tableau de bord d’analyse pour les administrateurs affiche désormais l’utilisation et le coût par groupe et par utilisateur, ainsi que les artefacts créés, les fichiers modifiés, les compétences activées et les connecteurs. Les mêmes métriques filtrent pour les groupes SCIM que le service informatique gère déjà, de sorte que la lecture suit l’organigramme existant au lieu d’en imposer un nouveau. La même visibilité s’étend à l’utilisateur individuel, qui voit sa consommation et sa progression vers la limite, sans arriver au dépourvu au blocage.

Droit du modèle : la valeur par défaut ne part pas de l’option la plus chère

Sur le plan opérationnel, le premier outil de contrôle agit avant même que la conversation ne démarre. Avec les valeurs par défaut et les droits par modèle, un administrateur décide quel modèle Claude ouvre de nouvelles conversations dans le chat, dans Cowork et dans Claude Code, afin que le travail de routine ne finisse pas toujours par se tourner vers l’option la plus coûteuse. Le même levier détermine quels modèles restent disponibles pour un rôle spécifique ou pour l’ensemble de l’organisation.

A l’intérieur de la console, Claude Code ajoute deux onglets, un sur l’utilisation et un sur la valeur. Le premier rapporte les développeurs actifs, le nombre de sessions et les commandes les plus fréquentes dans l’organisation, mis à jour quotidiennement. La seconde tente de traduire cette activité en termes reconnus par un dirigeant : gain de productivité estimé, coût par engagement, valeur annuelle. Chaque formule reste visible dans le formulaire et ses paramètres peuvent être modifiés, ce qui évite le numéro d’oracle tombé d’en haut et ouvre plutôt une discussion sur la façon dont ce numéro a été construit.

Seuils de dépenses à 75 et 90 pour cent avant le confinement

Le deuxième bloc technique concerne les dépenses réelles. Les alertes de seuil avertissent les administrateurs à 75 et 90 % de la limite à l’échelle de l’organisation, avec la possibilité d’augmenter le plafond avant que quelqu’un ne soit bloqué à mi-chemin d’une tâche. Les utilisateurs reçoivent un avertissement dans l’application à 75 et 95 % et peuvent demander une augmentation de limite directement à leur administrateur, sans quitter Claude.

Ceux qui gèrent les limites sur de nombreux groupes déplacent ces flux dans des scripts via l’API Admin, pour faire évoluer les contrôles avec l’organisation, en automatisant les demandes d’augmentation et en signalant celles qui approchent du seuil.

L’élément qui ferme la boucle est l’API Analytics. Les données d’utilisation et de coûts deviennent interrogeables par programme, filtrables par plage de dates, équipe, produit ou modèle, et les finances et l’informatique les intègrent aux outils qu’ils utilisent déjà quotidiennement, de Datadog Cloud Cost Management à CloudZero, aux côtés du reste de leurs dépenses cloud. Les compétences signalent leur consommation et les nouveaux points de terminaison suivent l’adoption des plugins et la création d’artefacts.

Kyra Abbu, chef de produit, rappelle que la visibilité des coûts n’est pas un exercice mensuel, et que les alertes et les données granulaires donnent aux équipes un coup de pouce régulier pour réévaluer la façon dont elles utilisent Claude, plutôt qu’une surprise en fin de facturation.

Le signal de valeur, ce sont les compétences réexécutées, pas les jetons

La question la plus difficile reste celle de savoir quoi mesurer réellement. Ciro Yamada, directeur produit chez Nubank, nous invite à nous méfier des données les plus immédiates : la consommation de tokens à elle seule ne dit pas grand-chose. Le signal à observer est de savoir quelles compétences sont continuellement réexécutées dans toute l’organisation, car c’est là que surgit la vraie valeur, dans l’utilisation qui est répétée parce qu’elle fonctionne et non parce que quelqu’un l’impose.

C’est un changement de regard qui déplace le centre de gravité du confinement vers la décision. Les outils à voir et à contenir sont désormais là, documentés en détail pour vous aider à démarrer. La partie non couverte en est une autre, et c’est la plus inconfortable : une fois que le coût de chaque équipe et les compétences qu’elle met en œuvre sont enfin sous nos yeux, il nous reste à décider lesquelles de ces activités méritent de se développer et lesquelles nous entretenions uniquement parce que personne, jusqu’à hier, n’a vu la facture.