Nous venons de découvrir le résultat aujourd'hui avec Muse Spark

Il y a neuf mois, Meta a signé Alexandr Wang, le fondateur de Scale AI, après avoir dépensé 14,3 milliards de dollars pour cette opération. Zuckerberg l’a chargé de reconstruire la stratégie d’IA de l’entreprise à partir de zéro, et aujourd’hui ces efforts ont un premier résultat : Muse Spark, le premier modèle de la division Meta SuperIntelligence Labs. Nous sommes confrontés au premier lancement d’un modèle fondateur Meta depuis le lancement de Llama 4 en avril 2025.

L’objectif de Muse Spark est de remettre Meta dans la course à l’IA. La question est bien sûr de savoir si ce modèle sera capable de rivaliser avec des concurrents de plus en plus exceptionnels. Important : vous pouvez désormais l’essayer dans meta.ai.

Bienvenue dans la course, Muse Spark. Chez Meta, ils affirment avoir réécrit et reconstruit toute l’architecture de leur projet d’IA à partir de zéro et ce qu’ils ont réalisé est quelque chose de prometteur : une amélioration de l’efficacité qui, si elle se confirmait, serait extraordinaire. Le modèle, disent ses responsables, est de loin supérieur à Llama 4 Maverick, et il y parvient en utilisant 10 fois moins de capacité de calcul que ce dernier modèle fondateur.

Muse

Le tableau des résultats de référence révèle que Muse Sparkl est en concurrence directe avec Opus 4.6, Gemini 3.1 Pro et GPT 5.4. Source : Méta.

Où ils sont en compétition et où ils ne le sont pas. Les benchmarks publiés par Meta placent Muse Spark dans une position compétitive mais non dominante. Il se démarque particulièrement en raisonnement multimodal, où il surpasse Claude Opus 4.6 et OpenAI GPT-5.4, et est également fort en santé. Là où il ne fonctionne pas aussi bien, c’est dans deux sections importantes. Premièrement, la pensée abstraite : il est plus faible au test ARC-AGI 2 par rapport à ses concurrents. L’autre, plus frappante, est la programmation agentique, qui est le domaine qui déplace le plus d’argent à l’heure actuelle, et dans lequel ses performances sont correctes mais semblent inférieures à celles de ses concurrents. Artificial Analysis, qui publie un classement général des modèles d’IA prenant en compte tous ces benchmarks, le place à la quatrième place derrière Gemini 3.1 Pro, GPT-5.4 et Claude Opus 4.6.

Mais rappelons-nous quelque chose d’important : les benchmarks sont une chose et la manière dont ces modèles se comportent dans chaque scénario et pour chaque utilisateur en est une autre. La perception personnelle est bien plus importante que ces données synthétiques.

Le mode contemplatif est conçu pour la « réflexion profonde », et il rivalise ici avec les modes analogues de ses concurrents. Source : Méta.

Le « mode contemplatif ». Tant dans l’annonce officielle que dans le fil de discussion d’Alexandr Wang, ils ont souligné une nouveauté de ce modèle qu’ils ont appelé « mode contemplatif », qui selon Wang « orchestre plusieurs agents qui raisonnent en parallèle et est conçu pour des demandes complexes dans le domaine scientifique et du raisonnement. Lors de nos tests, nous avons découvert qu’il rivalise avec d’autres modèles de raisonnement extrêmes tels que Gemini Deep Think ou GPT Pro ».

Mais le mode contemplatif ne consiste pas à penser davantage, mais à penser en parallèle. La conception du mode contemplatif est élégante et mérite d’être comprise. L’approche standard pour améliorer le raisonnement d’un modèle en inférence est de lui donner plus de temps pour réfléchir : le modèle génère plus de jetons internes avant de répondre, ce qui améliore la qualité mais augmente la latence pour l’utilisateur (c’est-à-dire le temps qu’il faut pour nous donner une réponse). Muse Spark propose une alternative : au lieu qu’un seul agent réfléchisse davantage, plusieurs agents réfléchissent simultanément et collaborent.

Le graphique de latence publié par Meta l’illustre bien : avec 16 agents en parallèle, on atteint près de 59 % de précision dans Humanity’s Last Exam avec une latence comparable à celle d’un seul agent en mode étendu. C’est comme la différence entre un seul expert faisant des heures supplémentaires et un comité d’experts délibérant en même temps. Le résultat est non seulement meilleur, mais il arrive plus tôt. Cela est particulièrement important dans les cas d’utilisation où l’utilisateur ne peut pas attendre quelques minutes pour obtenir une réponse.

Attention aux pièges. Le lancement du Llama 4 il y a un an a été un échec total lorsqu’il a été découvert que les extraordinaires résultats de référence de ce modèle avaient été trompés. La version qui a obtenu ces excellents scores a été conçue et entraînée spécifiquement pour obtenir de bons résultats aux tests de performance. Il faut espérer que Meta ait retenu la leçon, mais les premiers soupçons apparaissent déjà. François Chollet, créateur du benchmark ARC-AGI, a commenté que Muse Spark « ressemble déjà à une déception : sur-optimisé pour les chiffres de référence publics au détriment de tout le reste. Savoir comment évaluer les modèles d’une manière qui correspond à leur utilité réelle est une compétence de base pour les laboratoires d’IA, et il est peu probable qu’un nouveau laboratoire réussisse sans l’avoir d’abord compris.

Dans Meta, il y a un concours pour voir qui est la « légende symbolique » de l'entreprise. C'est payant de travailler

A plus tard Open Source, bonjour modèle propriétaire. Meta l’avait déjà prévenu, il n’est donc pas surprenant de découvrir qu’au moins pour l’instant Muse Spark est un modèle fermé et propriétaire. La famille Llama de modèles à poids ouvert a fait de Meta l’entreprise qui a « démocratisé l’IA », tandis qu’OpenAI et Anthropic ont gardé leurs modèles fermés. Cela a généré une énorme communauté de développeurs, de chercheurs et d’entreprises qui ont créé des modèles basés sur Meta, mais Muse Spark rompt avec cette philosophie. La société affirme qu’elle pourrait publier des versions ouvertes de Muse Spark à l’avenir, mais ne s’engage pas. Ethan Mollick, vulgarisateur bien connu de l’IA, a noté que « sans pondérations ouvertes, il est beaucoup plus difficile de prédire la valeur de Spark ».

« Superintelligence personnelle. » Meta a créé Muse Spark avec un autre élément différenciateur : l’hyperpersonnalisation. Imaginez que vous ayez un assistant personnel qui connaît votre nom et votre historique d’achats parce que vous vous êtes inscrit au service. Imaginez maintenant un autre assistant qui a lu dix ans de vos conversations avec des amis, sait quel humour vous trouvez drôle, connaît les sujets qui vous angoissent, comprend votre réseau social, a vu les photos que vous avez partagées et connaît les articles que vous avez aimés ou quel contenu vous consommez.

La différence ici est évidente : Meta a utilisé toutes les informations dont elle dispose sur vous grâce à tout ce que vous avez publié sur ses plateformes (WhatsApp, Instagram, Facebook), et Muse Spark est le premier modèle conçu pour exploiter cet avantage de manière native. L’entreprise ne semble pas avoir de problème à admettre qu’elle utilise précisément les données qu’elle a collectées : nous verrons comment cela se déroulera, car même si le concept est puissant, il peut aussi être remis en question en raison de cette invasion théorique de la vie privée. À l’heure actuelle, il existe déjà un premier exemple de cette utilisation : Zuckerberg utilise cette IA personnelle dans sa vie quotidienne.

Il ne s’agit pas de mieux programmer, mais d’infiltrer votre WhatsApp. Le pari stratégique de Meta avec Muse Spark n’est pas d’être le meilleur modèle pour programmer ou trouver des vaccins contre le cancer. L’objectif est de devenir cette IA hyper-personnalisée susmentionnée des 3 000 millions d’utilisateurs qui utilisent déjà ses plateformes. Les cas d’utilisation sur lesquels Muse Spark s’est concentré sont frappants et s’éloignent de cette autre course à l’IA de la Silicon Valley, et tenteront d’aider les utilisateurs dans les situations quotidiennes en permettant :

Prenez une photo de vos aliments et obtenez une analyse nutritionnelle
Vous faites de l’exercice et il vous indique quels muscles vous avez activés
Téléchargez une image de jeu et créez un petit jeu interactif avec elle
Résoudre les problèmes domestiques à partir de notes visuelles et vocales
Bénéficiez d’informations de meilleure qualité sur votre santé grâce au travail de Meta avec 1 000 médecins qui ont contribué à améliorer le raisonnement dans cette rubrique

La sécurité comme drapeau. Le débat sur la puissance de ces modèles et leur impact sur la sécurité s’intensifie, comme l’a montré Claude Mythos. Chez Meta, ils ont embauché un cabinet de conseil indépendant et, selon leurs conclusions, Muse Spark a le taux de « conscience de l’évaluation » le plus élevé de tous les modèles qu’ils ont analysés. Le modèle factuel identifie fréquemment qu’il est en cours d’évaluation et conclut qu’il doit se comporter honnêtement et « sans tricher ».

Aucune preuve n’a été trouvée que cette prise de conscience affectait le comportement dans des environnements dangereux, et des tests internes ont indiqué que, par exemple, il refuse d’aider au développement d’armes biochimiques dans 98% des cas, devant les 95,4% de l’Opus 4.6 ou les inquiétants 74,7% du GPT 5.4 ou 61,5% du Gemini 3.1 Pro.

Meta est de retour dans la course, mais Muse Spark suffira-t-il ? Nous avons attendu neuf mois pour savoir sur quoi travaillait la nouvelle division de superintelligence de Meta et nous avons enfin le résultat de ce travail. L’accueil sur les marchés a été très positif et les actions de Meta ont augmenté de 6,5% après l’annonce, mais attention : Muse Spark ne surpasse pas ses concurrents en performances, et devra démontrer que cette différenciation (efficacité, hyperspécialisation) finit par être la clé pour ramener définitivement Meta dans une course extraordinairement compétitive. Si Muse Spark ne convertit pas cette efficacité en fidélisation sur WhatsApp ou Instagram, Meta aura payé 14,3 milliards pour une quatrième place.

À Simseo | OpenAI et Anthropic ont proposé l’impossible : perdre 85 milliards de dollars en un an et survivre