Vous disposez désormais d’un modèle tout-puissant qui lit, voit et écoute. Tout à la fois
Il y a huit ans, alors que Nvidia était encore une entreprise qui fabriquait des graphiques pour les jeux vidéo, la société a souligné quelque chose qui commence à entrer dans la conversation : la robotique physique. Ce sont des robots dotés d’une intelligence artificielle intégrée pour se comporter de manière autonome. Comme un ChatGPT avec des bras, des oreilles et des yeux. Il y a eu beaucoup de pluie depuis et c’est maintenant que nous commençons à aborder cet avenir. Cependant, Nvidia a continué à expérimenter cette façon de faire converger les mondes physique et numérique, et son dernier produit est le Nemotron 3 Nano Omni.
Un modèle d’IA qui voit, entend et lit le monde physique.
Modèles omni. Ces modèles sont multimodaux, mais dans un sens beaucoup plus strict. Alors que les modèles que nous utilisons quotidiennement nécessitent des canaux distincts pour traiter et générer l’audio, le texte, l’image et la vidéo, un modèle omni est conçu pour être intrinsèquement multimodal. Cela implique qu’ils utilisent une architecture de réseau neuronal unique, entraînée de bout en bout afin que l’interaction entre les modèles et les stimuli soit plus naturelle, plus rapide et capable de reconnaître plus de nuances.
Un exemple est une IA qui peut « voir » ce qu’une caméra capture, analyser la situation dans son ensemble et donner un retour à l’utilisateur plus rapidement qu’une IA qui peut faire de même, mais dont le modèle textuel doit demander au modèle vidéo ce qu’il a vu, puis générer le contenu. En d’autres termes : il imite mieux la façon dont les humains perçoivent et réagissent aux stimuli du monde.
Intégration. Et c’est ce que Nvidia prétend que le Nemotron 3 Nano Omni peut faire. Dans la même architecture, il s’agit d’un modèle qui intègre des capacités de vision, d’audio et de langage pour éliminer le flux de travail fragmenté des agents IA actuels. Selon l’entreprise, il repose sur une architecture hybride d’experts en mixage (des IA formées à divers sujets) avec 30 milliards de paramètres, dont 3 milliards pour l’inférence.
Il a été conçu comme un modèle neuf fois plus rapide que les modèles séparés et offre des performances trois fois supérieures à celles des autres modèles omni ouverts, consommant 2,75 fois moins de puissance de calcul dans des tâches telles que le raisonnement à partir d’une vidéo.
D’accord, mais pourquoi ? C’est la question clé, au-delà des chiffres et des capacités brutes de cette technologie. Les cas d’usage détaillés par l’entreprise sont les suivants :
- Agents : alimentez les agents qui naviguent dans les interfaces utilisateur graphiques, raisonnent en fonction du contenu à l’écran et comprennent ce qu’ils voient en temps réel et de manière persistante. La résolution d’entrée native est de 1920 x 1080 pour cette compréhension visuelle HD.
- Documents : interprète les graphiques, les tableaux, les documents, les captures d’écran et les entrées multimédias.
- Compréhension audio et vidéo : vous êtes capable de comprendre ce que vous voyez et entendez pour maintenir la cohérence de votre interprétation plutôt que de raisonner sur la base de modèles déconnectés.

Pour les professionnels. Ce qui est clair, c’est que Nemotron 3 Nano Omni n’est pas quelque chose qui a été lancé dans le but d’être destiné au grand public comme les autres modèles d’IA que nous voyons tous les jours. Nvidia le concentre sur quelque chose d’entreprise, un outil accessible via des plateformes comme Hugging Face et déployé sur des systèmes locaux comme DGX Spack ou Jetson. Autrement dit, ce n’est pas quelque chose accessible à tout le monde.
Ce qui est intéressant, c’est qu’il s’agit d’une technologie qui pousse fortement le récit des agents comme des entités omnipotentes, et qui correspond au discours le plus récent de Jensen Huang, PDG de l’entreprise, selon lequel l’IA ne viendra pas nous supprimer nos emplois, mais nous « microgérer ».
Images | Nvidia
À Simseo | Il existe une entreprise qui a progressé de 3 000 % en bourse, dépassant même les performances de Nvidia : Sandisk
