LLM efficiente

Modèles d’IA, du coût par token au coût par tâche : la nouvelle concurrence

La concurrence sur l’intelligence artificielle générative entre dans une phase moins spectaculaire et plus décisive : celle des coûts unitaires. Après deux années dominées par la course aux modèles les plus puissants, les entreprises et les startups commencent à considérer l’IA comme un objet industriel à optimiser, choisissant de temps en temps le modèle le moins cher capable d’accomplir une tâche avec une qualité suffisante.

La pression affecte directement les fournisseurs frontaliers. Selon le Le journal Wall StreetOpenAI envisagerait des baisses significatives des prix de ses services, tandis qu’Anthropic devrait également revoir ses tarifs. Le signal arrive alors que les entreprises et les développeurs adoptent des outils de routage de modèles, des systèmes qui répartissent les demandes entre les modèles haut de gamme, les modèles à faible coût et les solutions internes construites sur des modèles à poids ouvert.

Pourquoi la tarification des modèles d’IA devient un problème pour l’industrie

Le coût de l’IA ne se mesure plus uniquement en termes de frais par million de jetons. Pour une entreprise qui utilise des agents logiciels, des assistants de codage, des systèmes de service client ou d’automatisation de documents, la facture dépend du nombre d’appels effectués, de la durée des contextes, des tentatives infructueuses, des contrôles ultérieurs et du modèle utilisé à chaque étape.

L’écart reste important. Les listes de prix officielles indiquent un prix standard de 5 dollars par million de jetons d’entrée et de 30 dollars par million de jetons de sortie pour OpenAI GPT-5.5. Anthropic indique pour Claude Fable 5, disponible à partir du 9 juin 2026, 10 dollars par million de tokens en entrée et 50 dollars en sortie. DeepSeek, dans sa documentation API, indique pour DeepSeek V4 Pro 0,435 dollars par million de jetons en entrée hors cache et 0,87 dollars en sortie ; pour DeepSeek V4 Flash, il tombe à 0,14 dollar en entrée et 0,28 dollar en sortie.

Cet écart explique pourquoi de nombreuses entreprises ne remplacent pas entièrement les modèles frontières, mais segmentent les charges de travail.

Modèle Prix ​​d’entrée pour 1 million de jetons Prix ​​de sortie pour 1 million de jetons Lecture industrielle
Anthropique Claude Fable 5 10 dollars 50 dollars Modèle premium pour raisonnements et agents complexes
OpenAI GPT-5.5 5 dollars 30 dollars Modèle frontière pour les tâches très complexes
Anthropique Claude Sonnet 4.6 3 dollars 15 dollars Gamme intermédiaire pour la vitesse et la qualité
DeepSeek V4 Pro 0,435 $ 0,87 $ Alternative peu coûteuse pour les charges de travail à volume élevé
Flash DeepSeek V4 0,14 $ 0,28 $ Option économique pour les tâches répétitives et le routage

Du prix par jeton au coût par tâche

La mesure la plus pertinente pour les entreprises devient le coût par tâche terminée. Un modèle plus coûteux peut être rentable s’il réalise une tâche complexe avec moins d’étapes, moins d’erreurs et moins d’intervention humaine. Un modèle économique devient préférable lorsque la tâche est reproductible, mesurable et tolère des contrôles automatiques ou un recours à un modèle supérieur.

Les données de production publiées par Vercel dansIndice de production d’AI Gateway de juin 2026 montrent bien cette dynamique. En mai, le total des jetons gérés par la passerelle a augmenté de 20 % d’un mois à l’autre et les dépenses de 43 %. Au cours de la même période, la part de DeepSeek est passée de moins de 1 % à 17 % des jetons, tandis que sa part des dépenses est restée autour de 1 %. Anthropic, au contraire, a maintenu une forte concentration des dépenses : de 61 % à 65 % sur le mois, avec 70 à 80 % de coûts dans les cas d’usage les plus sensibles, notamment les agents de codage, les agents de back-office et la génération d’applications d’IA.

La conséquence est claire : les modèles économiques absorbent du volume, les modèles premium captent toujours une part importante de la valeur. Le point d’équilibre dépend de la capacité des entreprises à mesurer la qualité, la latence, la fiabilité et le coût global du processus.

Le rôle des modèles de poids ouverts

La pression concurrentielle provient principalement des modèles ouverts et des fournisseurs qui les mettent à disposition via des API à faible coût. DeepSeek en est le cas le plus évident, mais le phénomène implique également des modèles chinois, des modèles occidentaux à poids ouvert et de nouvelles familles conçues pour être spécialisées ou intégrées dans des agents.

The State of AI: An Empirical 100 Trillion Token Study with OpenRouter preprint, publié sur arXiv en décembre 2025 par Malika Aubakirova, Alex Atallah, Chris Clark, Justin Summerville et Anjney Midha, analyse plus de 100 000 milliards de jetons sur OpenRouter via des métadonnées anonymisées. L’étude observe une croissance significative des modèles open-weight et décrit un marché désormais pluriel, dans lequel les utilisateurs choisissent selon plusieurs axes : capacité, prix, latence, disponibilité et confiance.

La même recherche indique que les modèles propriétaires restent solides dans les charges de travail à forte valeur ajoutée, tandis que les modèles ouverts couvrent le domaine des faibles coûts et des volumes élevés. C’est une distinction importante pour les entreprises : la réduction des coûts ne vient pas seulement du changement de fournisseurs, mais de la conception d’architectures capables d’attribuer le bon modèle à chaque sous-activité.

La réponse des grands fournisseurs

OpenAI et Anthropic ne restent pas immobiles. Les deux proposent déjà des modèles avec différents niveaux de prix, une mise en cache, un traitement par lots et des options conçues pour réduire le coût effectif. Le problème est que la concurrence s’accélère même en dehors du périmètre des laboratoires frontières.

Microsoft AI a annoncé le 2 juin 2026 une famille de sept modèles développés en interne, à commencer par MAI-Thinking-1. Nvidia pousse Nemotron, une famille de modèles ouverts avec des poids, des données et des recettes d’entraînement disponibles, présentés comme une infrastructure efficace pour les agents spécialisés. Dans le communiqué de presse sur Nemotron 3, Nvidia indique pour Nemotron 3 Nano une architecture conçue pour réduire les coûts d’inférence, avec un débit jusqu’à quatre fois supérieur à celui du Nemotron 2 Nano et une réduction jusqu’à 60% des jetons de raisonnement générés.

Ces évolutions montrent que la concurrence ne se limite pas aux tarifs. Il joue sur l’efficacité architecturale, la disponibilité de modèles spécialisés, l’intégration avec le cloud et le matériel, les outils d’évaluation et la capacité à contrôler les données de l’entreprise.

Quels changements pour les entreprises et les fournisseurs

Pour les responsables de l’information et les responsables de l’IA, la nouvelle phase nécessite une discipline plus proche du FinOps que de la pure expérimentation. Chaque application doit faire la distinction entre les tâches de base, les tâches sensibles, les tâches à haut risque et les tâches nécessitant des capacités de pointe. Sans cette classification, le risque est d’utiliser des modèles coûteux là où ils ne sont pas nécessaires ou au contraire des modèles économiques où l’erreur coûte plus cher que les économies réalisées.

Citadel Securities, dans le commentaire Tokenomics du 10 juin 2026 de Frank Flight, interprète la récente baisse des Indice des dépenses LLM sur Silicon Data comme un effet possible de la transition vers des modèles moins chers. Ce signal n’indique pas nécessairement un ralentissement de l’adoption de l’IA : il peut indiquer une phase au cours de laquelle les entreprises apprennent à acheter des capacités de manière plus sélective.

Pour OpenAI, Anthropic et les autres laboratoires pionniers, le défi consiste à défendre le prix premium avec des résultats mesurables. Les benchmarks globaux importent moins lorsque les clients évaluent un modèle basé sur des tâches réelles : tickets résolus, code accepté, e-mails correctement classés, documents traités sans examen, agents terminés dans les limites du budget.

La guerre des prix contre les modèles d’IA ne réduit pas l’importance des systèmes plus avancés. Cependant, cela réduit l’espace nécessaire pour les vendre comme choix par défaut. Sur le marché émergent, la valeur se déplace vers ceux qui savent orchestrer différents modèles, mesurer le coût par résultat et garder le contrôle sur la qualité, la sécurité et la gouvernance.

Sources :

le Wall Street Journal sur la guerre des prix de l’IA (wsj.com) ;

Tarification de l’API OpenAI (openai.com) ;

Modèles et tarification d’Anthropic Claude (docs.anthropic.com) ;

Tarification de l’API DeepSeek (api-docs.deepseek.com) ;

Indice de production Vercel AI Gateway juin 2026 (vercel.com) ;

État d’OpenRouter de l’IA / arXiv (arxiv.org) ;

Citadel Securities, Tokenomics (citadelsecurities.com) ;

Microsoft AI, sept nouveaux modèles MAI (microsoft.ai) ;

Nvidia Nemotron (nvidianews.nvidia.com)