Grok 4 détruit les tests et vise à être le modèle d'IA le plus avancé. Le problème est qu'Elon Musk continue de saboter ses réponses

XAI a lancé Grok 4, son nouveau modèle d'intelligence artificielle qui balaie les tests de performance les plus exigeants du secteur. Le modèle dépasse les propositions OpenAI, Google et anthropiques dans plusieurs repères. Et en l'absence de connaître la stratégie d'Openai avec GPT-5, pour le moment, il a tous les bulletins de vote d'être le modèle d'IA le plus principal. Cependant, Grok continue de traîner les problèmes habituels: les réponses controversées, le contenu offensant et un musc Elon en utilisant le modèle pour soustraire la crédibilité.

Les chiffres parlent seuls. Dans le dernier test d'examen de l'humanité, considéré comme l'une des capacités d'IA les plus difficiles à mesurer, XAI déclare que Grok 4 a atteint 25,4% sans outils supplémentaires, dépassant l'O3 d'OpenAI (21%) et Gemini 2.5 Pro de Google (21,6%). Mais c'est avec Grok 4 Heavy, sa version Multianente, où les résultats sont déclenchés: selon la société, il atteint 44,4% avec des « outils '', doubler la concurrence.

Grok 2

Image: xai

De plus, dans le Benchmark Arc-AGI-2, qui mesure la capacité de résoudre des modèles visuels complexes, Grok 4 a obtenu 16,2%, pratiquement le double du prochain modèle commercial. Selon Musk, « Grok 4 dépasse le niveau de doctorat dans tous les sujets, sans exception », une affirmation qui, bien qu'elle semble au marketing, est soutenue par les résultats obtenus.

L'approche révolutionnaire. Grok 4 Heavy fonctionne avec un système de « plusieurs agents » qui fonctionnent en parallèle sur le même problème, puis en comparant leurs résultats comme s'il s'agissait d'un groupe d'étude. Cette architecture vous permet de gravir l'intelligence en fonction de la puissance de calcul disponible, un concept qui pourrait redéfinir la façon dont nous comprenons les performances de l'IA.

Image: xai

Les problèmes habituels. Le lancement de Grok 4 se produit juste après la version précédente du chatbot publié des commentaires antidémitiques dans X, même en s'identifiant comme « mechahitler » dans certaines réponses. Xai a dû retirer temporairement le service et éliminer les publications offensives, tandis que des pays comme la Pologne ont annoncé des plaintes devant la Commission européenne et Türkiye a bloqué l'accès à Chatbot. La cause a été une modification des instructions du système qui permettaient au modèle « de ne pas éviter les déclarations politiquement incorrectes ». Bien que Xai ait retiré cette directive, les dégâts ont déjà été causés.

Un sabotage constant. Malgré ces avancées techniques, Musk continue de conditionner les réponses de Grok d'une manière qui compromet leur utilité. Le modèle effectue des recherches automatiques pour les opinions du magnat dans X pour répondre aux problèmes controversés, transformant la recherche présumée de la « vérité » en un écho des idées de son créateur.

Nvidia a atteint 4 milliards de dollars de capitalisation pour une raison: sa position privilégiée dans le boom de l'IA

Cette pratique, confirmée par des experts en IA comme Carlos Santana, démontre une fois de plus comment les décisions controversées de Musk influencent directement le développement du modèle. En outre, plusieurs chercheurs ont déjà facilement évité les barrières de sécurité du modèle, ce qui la génère de contenu sur des armes chimiques, des logiciels malveillants, des médicaments et d'autres problèmes sensibles grâce à des techniques de jailbreak relativement simples.

Ethan Mollick, professeur chez Warton et Expert de l'IA, souligne le manque de transparence de l'entreprise: «Il n'y a pas de documentation technique détaillée, d'analyse des risques ou d'explications sur la façon d'éviter les incidents futurs». Cette opacité rend difficile pour les entreprises de faire confiance à Grok pour des applications critiques.

Grok 4 prix. XAI propose Grok 4 de base à un prix d'environ 30 $ par mois. Cependant, la société a également lancé Supergrok Heavy, un abonnement de 300 $ par mois au cours duquel son modèle le plus avancé est offert et cela devient directement le service de marché le plus cher du marché.

Qu'est-ce qui va. XAI prévoit de lancer un modèle de programmation en août, d'agents multimodaux en septembre et de génération de vidéos en octobre. Grok 4 s'intègre également dans les véhicules Tesla la semaine prochaine, élargissant la portée de l'IA tout au long de l'écosystème musc. La question est de savoir si l'entreprise séparera l'excellence technique des controverses des médias qui l'entourent, ou si elle restera en otage des décisions impulsives de son fondateur.

Image de couverture | Xai

Dans Simseo | Nous savions que l'IA générerait de nouveaux emplois qui n'existaient pas auparavant. Ce à quoi nous ne nous attendions pas, c'est qu'il réparait ses pifias