OpenAI et Broadcom lancent Jalapeño, une puce d'IA pour l'inférence

On l’appelle « Jalapeño » le premier «Processeur de renseignement« , a annoncé OpenAI le 24 juin 2026, un accélérateur conçu en collaboration avec Broadcom pour l’inférence de grands modèles de langage, c’est-à-dire la phase dans laquelle des modèles tels que ChatGPT ou Codex génèrent des réponses aux demandes des utilisateurs. Pour l’entreprise dirigée par Sam Altman, il s’agit d’une étape industrielle pertinente : non seulement des modèles et des produits, mais aussi une partie de l’infrastructure matérielle sur laquelle fonctionnent ces produits.

Cette décision a une signification économique spécifique. L’inférence est la partie de l’IA qui affecte directement les utilisateurs, les entreprises et les développeurs, et qui occupe une part croissante de la puissance de calcul. Chaque amélioration en termes de vitesse, de fiabilité et de consommation d’énergie peut se traduire par des réponses plus rapides, une réduction des coûts d’exploitation et de meilleures marges sur les services d’IA proposés par abonnement ou API.

OpenAI affirme que les premiers tests montrent des performances par watt « considérablement meilleures » pour le Jalapeño (une variété de piment fort originaire du Mexique) que l’état actuel de la technique, bien que des références complètes n’aient pas encore été publiées.

Une puce construite autour des besoins réels des modèles

Jalapeño est décrit comme un projet « ardoise vierge »né de zéro pour l’inférence LLM et non comme une adaptation d’un accélérateur généraliste conçu pour d’autres charges de travail. La société affirme l’avoir modelé sur les modèles qu’elle observe quotidiennement dans ses systèmes : noyau, mouvement de la mémoire, mise en réseau, service et latence requise par ChatGPT, Codex, API et futurs produits d’agent. C’est un point central, car il signale la volonté d’adapter le silicium aux besoins du logiciel, au lieu d’adapter le logiciel aux limites du matériel disponible.

OpenAI ajoute que des échantillons techniques de la puce exécutent déjà des charges d’apprentissage automatique en laboratoire à la fréquence et à la consommation d’énergie attendues en production, y compris les charges de travail liées à GPT-5.3-Codex-Spark.

Broadcom, pour sa part, apporte à l’alliance des technologies de mise en œuvre et de mise en réseau du silicium, y compris la famille Tomahawk, tandis que Celestica contribue à l’intégration des cartes, des racks et des systèmes. En d’autres termes, Jalapeño n’est pas qu’une simple puce : c’est la première pièce d’une plateforme complète conçue pour être industrialisée rapidement.

Parce que l’inférence est le véritable fondement des revenus

Depuis des années, le débat sur l’IA s’est concentré avant tout sur la formation des modèles, c’est-à-dire sur les supercalculateurs nécessaires pour les amener à la frontière. Mais sur le plan économique, l’inférence compte de plus en plus, car c’est là que s’accumulent les demandes des utilisateurs et les coûts récurrents liés à la fourniture du service. OpenAI l’écrit explicitement : « L’inférence est le moyen par lequel l’IA atteint les gens ». Traduit en termes commerciaux, il s’agit de la partie de la chaîne où une amélioration de l’efficacité peut se refléter dans les prix, la disponibilité, les temps de réponse et la capacité à desservir davantage de trafic avec la même énergie.

Greg Brockman a lié Jalapeño à une stratégie à long terme basée sur le contrôle de l’ensemble de la pile. L’idée est simple : si la même entreprise régit les modèles, les produits, les ordonnanceurs, les systèmes de mémoire, les réseaux et les puces, elle peut optimiser chaque couche vers un même objectif industriel. Dans le cas d’OpenAI, cet objectif est de réduire le coût du calcul et de rendre l’intelligence artificielle « plus rapide, plus fiable et plus accessible ».

C’est une vision déjà adoptée par d’autres grands groupes du cloud, mais elle prend ici plus de poids car OpenAI est un producteur modèle qui tente également de devenir un opérateur d’infrastructures.

Neuf mois pour arriver à l’enregistrement

L’une des données les plus discutées de l’annonce concerne les temps de développement. Selon OpenAI, Jalapeño est passé de la conception initiale à la fabrication en neuf mois, un rythme que l’entreprise qualifie de plus rapide jamais atteint pour un programme ASIC haute performance dans les semi-conducteurs avancés. L’entreprise attribue cette rapidité à une étroite co-conception avec Broadcom et à l’utilisation de ses propres modèles pour accélérer certaines parties du processus de conception et d’optimisation.

Ici, le message va au-delà du seul produit. OpenAI tente de montrer que l’IA ne sert pas uniquement à générer du texte ou du code, mais qu’elle peut réduire le temps de développement de l’infrastructure qui alimentera les prochaines générations de modèles. Si cette promesse tient le coup des tests industriels, l’effet potentiel est important : une conception plus rapide, des cycles d’itération plus courts, des coûts de développement répartis sur plusieurs générations de puces et une plus grande capacité à adapter le matériel aux charges du monde réel. Pour une industrie qui dépense des capitaux dans les centres de données, l’énergie et les emballages avancés, ce n’est pas un détail.

Le précédent : l’accord de 10 gigawatts avec Broadcom

L’annonce de ces journées ne vient pas de nulle part. Le 13 octobre 2025, OpenAI et Broadcom avaient déjà rendu publique une collaboration pluriannuelle pour développer et distribuer 10 gigawatts d’accélérateurs d’IA personnalisés conçus par OpenAI, dont le déploiement est prévu à partir du second semestre 2026 et s’achèvera d’ici fin 2029. À cette occasion, les deux sociétés avaient déjà précisé qu’OpenAI concevrait des accélérateurs et des systèmes, tandis que Broadcom s’occuperait du développement, de la mise en réseau et du déploiement à grande échelle.

Jalapeño est donc la concrétisation du plan annoncé il y a huit mois. Hock Tan, PDG de Broadcom, a défini la puce comme le début d’une feuille de route multigénérationnelle et a parlé de centres de données « à l’échelle du gigawatt » avec Microsoft et d’autres partenaires à partir de 2026. Ce détail est important car il déplace le sujet de l’innovation en laboratoire vers la capacité de mettre en production d’énormes clusters, où l’avantage concurrentiel ne dépend pas uniquement du processeur unique mais de la qualité du système dans son ensemble : réseau, alimentation, refroidissement, orchestration et continuité de la chaîne d’approvisionnement.

Moins de dépendance à Nvidia, mais pas de divorce immédiat

La lecture la plus immédiate du lancement est qu’OpenAI veut réduire la dépendance à l’égard de Nvidia, toujours dominant dans les centres de données pour l’IA. C’est une clé plausible et plusieurs observateurs l’ont soulignée, mais elle doit être mesurée à l’aune des faits disponibles. OpenAI n’a pas annoncé qu’il abandonnerait les GPU Nvidia ; en effet, dans ses communications les plus récentes, il continue de décrire une infrastructure hétérogène.

Il a expliqué en mai 2026 que le protocole réseau MRC est déjà utilisé dans ses principaux supercalculateurs Nvidia GB200, y compris les sites avec Oracle Cloud Infrastructure à Abilene, au Texas, et les supercalculateurs Fairwater de Microsoft.

Il en va de même pour le site Stargate d’Abilene qui, selon OpenAI, fonctionne sur Oracle Cloud Infrastructure avec des systèmes Nvidia GB200 et organisé une formation GPT-5.5. Il ne s’agit donc pas d’un remplacement net mais d’une diversification progressive. OpenAI cherche à déplacer certaines inférences vers du matériel conçu à la maison, tout en maintenant une dépendance significative à l’égard des plates-formes généralistes et des infrastructures cloud partenaires. En termes économiques, cela signifie avoir plus de pouvoir de négociation auprès des fournisseurs et plus de marge pour optimiser les coûts là où le trafic est plus prévisible.

La course aux puces personnalisées implique tout le secteur

Le Jalapeño arrive dans une compétition de plus en plus serrée.

En janvier 2026, Microsoft a présenté Maia 200, un accélérateur d’inférence construit sur un processus TSMC de 3 nanomètres, avec 216 Go de HBM3e et 30 % de performances par dollar en plus que la dernière génération de matériel déjà présente dans sa flotte, selon les données publiées par l’entreprise elle-même. Microsoft a également écrit que Maia 200 sert, entre autres, les modèles GPT-5.2 d’OpenAI au sein de son infrastructure cloud.

Cette intersection en dit long sur le marché : les partenaires et les clients peuvent également être concurrents sur le matériel. Microsoft reste un allié clé d’OpenAI, mais développe ses propres puces d’inférence. Amazon, selon des informations publiées le 18 juin 2026 par TechCrunch sur la base des déclarations du responsable de l’IA d’AWS, Peter DeSantis, à Bloombergenvisage également la vente de puces Trainium à des parties externes, s’éloignant ainsi du modèle unique « puce en tant que service » via le cloud.

La chaîne d’approvisionnement en semi-conducteurs pour l’IA passe donc d’un équilibre dominé par les GPU standards à une mosaïque d’accélérateurs spécialisés, conçus pour des charges de travail de plus en plus spécifiques.

Le nœud énergétique : la vraie contrainte des datacenters IA

Derrière la course aux puces se cache un problème bien réel : l’énergie. OpenAI et Broadcom parlent d’infrastructures à l’échelle du gigawatt, une mesure qui donne une idée de la taille des centres de données nécessaires pour prendre en charge les modèles de plus en plus utilisés. OpenAI a lié cette expansion aux projets Stargate et, dans le document publié en mai sur « l’infrastructure informatique pour l’ère de l’intelligence », a insisté sur le travail, la planification énergétique, le refroidissement et l’impact local des nouvelles installations.

Dans le cas du Jalapeño, la promesse d’un meilleur rendement par watt que le marché doit être lue précisément à la lumière de cette contrainte. À mesure que les clusters se développent, le coût de l’énergie, le coût du refroidissement et la disponibilité de la capacité électrique deviennent aussi critiques que le prix de la puce. C’est pourquoi Broadcom insiste sur la combinaison d’accélérateurs personnalisés et d’un réseau Ethernet standardisé : l’objectif n’est pas seulement de créer plus de jetons par seconde, mais de les produire avec un coût total de possession inférieur et avec une complexité opérationnelle plus gérable.

Quels changements pour le marché de l’IA

Pour OpenAI, Jalapeño peut produire au moins trois effets. Le premier est industriel : un meilleur contrôle sur une partie cruciale de la chaîne de valeur.

Le second est financier : si les résultats promis se confirment, l’entreprise pourrait réduire le coût marginal de l’inférence à grande échelle.

Le troisième est stratégique : construire ses propres puces renforce l’idée d’une plateforme « full stack », du modèle au rack, et rend plus difficile aux concurrents et partenaires de répliquer son architecture avec la même intégration verticale.

Pour le marché, le signal est tout aussi clair. Le jeu ne se joue plus uniquement sur les meilleurs modèles, mais sur la capacité à servir ces modèles de manière durable alors que les utilisateurs se comptent par centaines de millions. OpenAI a déclaré en mai que plus de 900 millions de personnes utilisaient ChatGPT chaque semaine ; dans la note d’octobre 2025 sur l’accord avec Broadcom, il était question de plus de 800 millions d’utilisateurs actifs hebdomadaires. Avec des chiffres de cette ampleur, la différence entre un bon modèle et une bonne entreprise dépend de plus en plus du matériel qui le prend en charge.

Le point ouvert : nous avons besoin de chiffres, pas seulement de promesses

L’annonce, pour l’instant, laisse de côté un élément décisif : les repères finaux. OpenAI parle de performances proches des limites théoriques du matériel et d’un net avantage en termes de performances par watt, mais reporte un rapport technique aux prochains mois. En attendant que ces données soient publiques, l’opération reste avant tout une déclaration de stratégie industrielle, crédible car s’appuyant sur des partenaires comme Broadcom, Celestica, Microsoft et Oracle, mais encore à mesurer sur des chiffres.

Mais ce passage est déjà pertinent. OpenAI ne se présente plus simplement comme une entreprise qui crée des modèles et des produits d’IA générative. Avec Jalapeño, il tente de devenir l’un des sujets qui définit également le coût physique de l’intelligence artificielle : combien d’énergie elle consomme, combien de réseau elle nécessite, combien coûte chaque réponse, à quelle vitesse elle peut être mise à l’échelle. Dans une économie de l’IA de plus en plus dépendante du calcul, c’est là que les bénéfices, les prix et le pouvoir de marché seront mesurés dans les années à venir.