L'objectif a une excellente raison de lancer une gigantesque variante de flamme 4: Capacité de spécialisation

Meta a annoncé samedi dernier le lancement de Flame 4, sa nouvelle famille de modèles open source. L’entreprise prend la poitrine avec trois variantes multimodales et une particulièrement frappante pour être absolument énorme. Mais c’est pour une bonne raison.

Bonjour, appelez 4. Cela fait presque un an que Meta a annoncé les appels 3, et sa nouvelle famille de modèles arrive avec trois variantes différentes:

Appelez le 4 Scout: le plus « petit », qui rivalise avec Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1.
Appelez le 4 Maverick: Concernant GPT-4O, Gemini 2.0 Flash et Deepseek V3
Appelez le 4 Behemoth: un monstre absolu qui en tant que méta dépasse GPT-4.5, Gemini 2.0 et Claude 3.7 dans divers repères. Ce dernier n’est pas disponible publiquement.

Fenêtre de contexte incroyable. Ces modèles offrent une fenêtre de contexte de 10 millions de jetons, quelque chose de tout simplement spectaculaire. Cela signifie que nous pouvons saisir une gigantesque quantité de données telles que l’entrée (invite), par exemple d’énormes référentiels de code sur lesquels travailler directement.

Mélange. Ces modèles utilisent l’architecture du mélange des experts dont Deepseek a déjà profité. Comme nous l’expliquons alors, cela permet de diviser le modèle en « experts » qui s’active en fonction du type de demande. Cela améliore l’efficacité et s’est avéré être une technique fantastique pour que les modèles se comportent de manière optimale avec beaucoup moins de consommation de ressources. Scout compte 16 experts et Maverick en a 128. Ce type d’architecture favorise également la phase d’inférence, ou ce qui est le même: les modèles répondront non seulement efficacement, mais rapides et fluides.

Appelez le 4 Behemoth, le « professeur modèle ». Il n’est pas encore disponible, mais cette variante est absolument énorme et a deux milliards de paramètres (2t en anglais), lorsque l’appel 3, qui était énorme (405b) était un modèle cinq fois plus petit. Deepseek R1 a 671 000 millions de paramètres, trois fois moins qui appelle 4 géants. La clé de ce modèle est qu’elle sert de «professeur» pour des variantes plus petites et, surtout, spécialisées.

Le tableau comparatif de la flamme 4 par rapport à certains de ses rivaux.

Spécialisation. Cette variante est également un candidat parfait pour être « distillé » et à partir de lui pour obtenir des modèles beaucoup plus petits mais tout aussi capables qui « apprennent » de ce « professeur de professeur » qui est l’appel 4, mais s’adapter à des zones et des scénarios plus concrets et dans lesquels ils peuvent mettre en évidence.

Et moins de censure. Le générateur d’images OpenAI a déjà pris un virage à 180 ° et applique beaucoup moins de censure inspiré par Grok 3. Meta fait de même avec Flame 4, qui, selon la société, est devenue « répond avec une forte inclination politique à un rythme comparable à Grok dans un ensemble controversé de questions politiques ou sociales ». Ainsi, nous avons un modèle un peu moins « politiquement correct ».

Pour l’instant les résultats discutables. Bien que le modèle semble très bien marquer dans les références, des experts comme Simon Willinson l’ont essayé et s’assurent que leurs premières impressions ne sont pas particulièrement remarquables. Gemini 2.5 Pro semble se comporter beaucoup mieux dans l’un des tests qu’il a effectués lors de la résumé et de l’analyse d’un texte. Cependant, avec Flame 3, quelque chose de similaire s’est produit, et les deux appels 3.1 et les appels 3.2 ont considérablement amélioré leur comportement.

Ils peuvent déjà être testés. L’appel 4 est désormais disponible sur WhatsApp, Instagram, Facebook ou le site Web d’objectif AI. Et encore une fois, il offre aux experts la possibilité de le télécharger, bien que vous aurez essentiellement besoin d’un cluster avec beaucoup de mémoire, beaucoup de mémoire pour pouvoir les exécuter à la maison. Ils sont également disponibles dans HuggingFace.

Et bientôt « va raisonner ». Mark Zuckerberg a indiqué sur son compte Instagram qu’en plus de ces modèles, le mois prochain, nous verrons un modèle appelé 4 raisonnement qui sera le premier modèle de raisonnement de l’entreprise. C’est une variante particulièrement intéressante, surtout en concurrence avec DePseek R1 (et son successeur, qui apparaîtra bientôt).

Images | But

Dans Simseo | La grande technologie a déterminé quelque chose cette année: que nous finissons par parler à une IA