NVIDIA est déjà la reine du matériel IA. Il s'oriente maintenant vers GPT-4 et Llama et lance son propre LLM "Open Source"

Dans le segment IA Il existe deux grandes carrières, le matériel et les logiciels.. En matériel, règne NVIDIA qui, avec ses GPU pour datacenters – comme le fameux H100 ou le nouveau B200 – est devenu le maître de ce marché.

Dans le domaine des logiciels, les choses sont plus controversées. Les grands modèles linguistiques (LLM) sont ici des protagonistes absolus, et plusieurs entreprises se démarquent. OpenAI le fait actuellement avec GPT-4o, mais nous avons aussi Anthropic avec Claude 3.5, Google avec Gemini ou Meta avec Llama, entre autres protagonistes.

Un nouveau concurrent est apparu pour tous : NVIDIA. L'entreprise ne semble pas se contenter de dominer le segment du matériel et souhaite désormais concurrencer son propre LLM, qu'elle a baptisé NVLM1.0. Les responsables ont publié une étude détaillant comment ils l'ont développé.

En fait, NVLM 1.0 est une famille de LLM multimodaux qui, selon l'entreprise, offrent des résultats particulièrement remarquables dans les domaines de la vision et du langage, rivalisant avec d'autres modèles tels que GPT-4o.

NVLM 1.0 dispose d'un modèle avec 72 milliards de paramètres (NVLM-D-72B) qui est actuellement le plus performant et ambitieux de la famille et qui selon NVIDIA est capable de mieux fonctionner que le Llama 3 405B (un modèle beaucoup plus grand) en divers tests de performances.

Nous sommes également face à un modèle « Open Source » de pondérations ouverteset les responsables de son développement promettent de publier le code utilisé pour entraîner le modèle, ce qui sera particulièrement utile pour les développeurs qui souhaitent l'utiliser pour leurs propres projets et « forks ».

NVLM-D-72B (cela ne ferait pas de mal de lui donner un nom plus simple) est prometteur lorsqu'il s'agit d'analyser des entrées visuelles et textuelles : est capable d'interpréter les mèmes ou analyser des images, mais aussi résoudre des problèmes mathématiques étape par étape.

Pour ce faire, comme l'explique NVIDIA, il applique ces capacités multimodales polyvalentes en « utilisant l'OCR, le raisonnement, la localisation, le bon sens, la connaissance du monde et la capacité de programmer ».

Nous sommes donc face à un nouveau rival intéressant, d'autant plus intéressant par son origine. L'évolution et le développement futur du mode restent à voir, mais bien sûr, cette décision de le proposer ouvertement le rend rivaliser directement avec Llama et se présente comme une alternative particulièrement intéressante pour les développeurs.

À Simseo | Meta veut mettre Llama sur nos téléphones portables, mais c'est difficile : la même chose s'est produite avec les navigateurs Web