La bataille de l’IA se joue dans le modèle capable de mieux programmer et à moindre coût. Et il y a un acteur inattendu

Cursor a introduit Composer 2.5, un modèle d’IA générative spécifiquement destiné à une seule chose : bien programmer. À quel point ? Eh bien, selon cette startup, elle le fait aussi bien que les meilleurs modèles du moment, Claude Opus 4.7 et GPT 5.5, mais elle le fait aussi à moindre coût. Le défi est frappant non seulement par ce qu’il signifie pour Cursor, mais aussi par la façon dont ils ont créé ce modèle : il s’avère qu’il est basé sur un modèle d’IA chinois.

Des modèles d’IA spécialisés dans une seule chose. Alors qu’OpenAI et Anthropic tentent de développer des modèles à usage général (ils font très bien beaucoup de choses), Cursor a décidé de se concentrer sur une tâche spécifique. La startup d’IA a créé un modèle d’IA spécialisé dans la programmation, et l’a fait en arguant qu’un milliard de paramètres n’est pas nécessaire pour rivaliser avec les meilleurs. Se consacrer à une seule chose permet non seulement de gagner en efficacité, mais aussi en coûts. Ce n’est pas un décathlète, mais un spécialiste du 200 m, pour ainsi dire.

Compositeur 2

Aussi bon que GPT-5.5 ou Claude Opus 4.7 ? C’est ce qu’ils disent dans Cursor, car selon leurs tests avec plusieurs benchmarks de programmation spécifiques, les performances sont à la hauteur de ces deux modèles qui sont aujourd’hui les grandes références tant en programmation que dans d’autres domaines.

Et bien moins cher. Ces résultats sont également particulièrement intéressants lorsque l’on ajoute le facteur coût. Le coût moyen par tâche du benchmark CursorBench 3.1 a montré que Composer 2.5 a réussi à résoudre près de 65 % de tous les tests pour un coût de seulement 0,3 $. Opus 4.7 max et GPT-5.5 xhigh ont réussi à atteindre ces 65 %, mais à des coûts beaucoup plus élevés : un peu plus de 4 dollars dans le cas de GPT, et 11 dollars dans le cas d’Opus. La différence est épouvantable. Le prix d’accès à l’API démontre les différences : 0,5 $ par million de jetons d’entrée 2,5 $ par million de jetons de sortie, quand celui de Claude Opus 4.7 est de 5/25 et celui de GPT-5.5 est de 5/30 respectivement.

Commentaires textuels. Contrairement aux modèles qui apprennent uniquement du résultat final, Composer 2.5 a été entraîné avec une technique d’apprentissage par renforcement (Reinforcement Learning) qui nous permet d’offrir des indices sur ce qui se passe si des erreurs sont commises. Cela permet au modèle de se recalibrer et d’agir comme un enseignant transparent. Celui qui corrige également mot par mot au fur et à mesure qu’il résout l’exercice, pas seulement en voyant le résultat final. 85 % du budget de formation a été dédié exclusivement à l’apprentissage par renforcement, calibrant le modèle non pas pour le chat, mais pour exécuter des refactorisations de code ou corriger des bugs en temps réel.

Une entreprise a décidé de confier les clés de ses systèmes à un agent IA. L'agent IA a supprimé toute sa base de données

Un modèle « né » en Chine. Les responsables de Cursor ont expliqué que Composer 2.5 – comme son prédécesseur, Composer 2, lancé fin mars – est un modèle dérivé de Kimi K2.5, le modèle d’IA de la startup chinoise Moonshot. Bien que ce soit la base, déjà dans Composer 2, les tâches de formation et post-formation parviennent à améliorer le comportement de manière très notable dans les benchmarks de programmation et aussi dans d’autres comme Terminal Bench qui évaluent le comportement agent de ces modèles.

Le curseur vieillit. Cette startup est devenue célèbre pour avoir créé un agent d’IA de programmation qui a été un pionnier dans cette fièvre que nous avons éprouvée pour le vibecoding. L’expérience utilisateur n’est plus celle de la programmation, comme dans les IDE (Integrated Development Environments) traditionnels, mais plutôt celle de demander à la machine de la programmer pour vous. Composer 2.5 ne se contente pas de programmer : il comprend la structure et les relations entre les fichiers, et fait de Cursor une entreprise d’IA beaucoup plus compétitive, car elle ne dépend plus de pouvoir travailler avec des modèles Anthropic ou OpenAI, par exemple. Le fait que l’agent IA et le modèle traitent tout en fait une solution beaucoup plus compétitive.

Elon Musk a Cursor en ligne de mire. Les bonnes performances de Cursor ont suscité un intérêt croissant pour le rachat de cette société avant même qu’elle ne devienne trop grande. Elon Musk le sait bien et Grok, le modèle de xAI, n’est pas si populaire dans le domaine de la programmation. En avril, nous avons appris que SpaceX avait conclu un accord lui donnant la possibilité d’acheter Cursor pour 60 milliards de dollars. Ce serait un accord prometteur pour les deux, car Composer 2.5 a déjà utilisé l’infrastructure de Colossus pour s’entraîner, et xAI pourrait ainsi tenter de gagner des parts de marché dans le secteur juteux des entreprises.

À Simseo | Elon Musk sait que TSMC est débordé : Terafab est son idée pour changer complètement l’industrie mondiale des puces