Nvidia NeurIPS

Nvidia ouvre la nouvelle ère de l'IA physique et numérique

Les chercheurs du monde entier s’appuient sur les technologies open source comme base de leur travail. Pour offrir des outils à jour à la communauté, Nvidia élargit encore sa collection de modèles ouverts, d'ensembles de données et d'outils, avec des applications couvrant pratiquement tous les domaines de recherche.

Lors de la conférence NeurIPS – l’un des événements mondiaux les plus importants dédiés à l’IA – l’entreprise a présenté de nouveaux modèles physiques d’IA et outils de recherche, dont Alpamayo-R1, le premier modèle de raisonnement VLA (Vision-Langage-Action) ouvert à l’échelle industrielle pour la conduite autonome.

De nouveaux modèles et ensembles de données pour la sécurité de la parole et de l’IA arrivent dans le domaine de l’IA numérique.

Plus de 70 articles, conférences et ateliers organisés par Nvidia couvrent des sujets tels que le raisonnement de l'IA, la recherche médicale, le développement de véhicules autonomes et bien plus encore.

Nvidia NeurIPS

Un nouvel indice d'ouverture créé par Analyse artificielle reconnaît l'engagement de l'entreprise en faveur de l'open source : la famille de technologies Nvidia Nemotron est parmi les plus ouvertes de l'écosystème, grâce aux licences permissives, à la transparence des données et à la richesse des détails techniques fournis.


Nvidia NeurIPSNvidia NeurIPS

Cosmos : la boîte à outils pour l'IA physique

Les développeurs peuvent apprendre à utiliser et à post-entraîner les modèles Cosmos avec le Cosmos Cookbook, un guide complet qui couvre :

  • conservation des données ;
  • génération de données synthétiques;
  • flux de travail post-formation avancés ;
  • évaluation du modèle.
Nvidia NeurIPSNvidia NeurIPS

Les applications basées sur Cosmos sont pratiquement illimitées. Parmi les exemples les plus récents :

  • LidarGen : premier modèle mondial capable de générer des données lidar pour la simulation AV.
  • Omniverse NuRec Fixer : modèle de simulation audiovisuelle et robotique qui corrige les artefacts dans les reconstructions neuronales.
  • Cosmos Policy : cadre pour transformer des modèles vidéo pré-entraînés en politiques robotiques robustes.
  • ProtoMotions3 : framework open source accéléré par GPU pour former des humains numériques et des robots humanoïdes dans des scénarios réalistes générés par les modèles WFM Cosmos.
Nvidia NeurIPSNvidia NeurIPS

Les politiques peuvent être formées à Laboratoire Isaac Et Isaac Simet les données générées peuvent post-entraîner les modèles GR00T N pour la robotique.

L'écosystème Nvidia évolue ensemble : des entreprises comme Voxel51, 1X, Figure AI, Foretellix, Gatik, Oxa, PlusAI et X-Humanoid ils utilisent les modèles Cosmos pour leurs applications plus avancées. Des chercheurs deETH Zurich ont présenté un article sur la manière dont Cosmos permet la création de scènes 3D réalistes et cohérentes.


Nemotron et NeMo : nouveaux outils pour l'IA numérique et la sécurité

Nvidia a également publié de nouveaux modèles vocaux multi-locuteurs, des modèles de raisonnement et des ensembles de données de sécurité IA, ainsi que des outils ouverts pour générer des ensembles de données synthétiques de haute qualité.

Les nouvelles fonctionnalités incluent :

  • MultiTalker Parakeet : ASR pour le streaming audio capable de reconnaître plusieurs locuteurs même dans des conversations qui se chevauchent.
  • Sortformer : modèle de pointe pour la diarisation en temps réel.
  • Nemotron Content Safety Reasoning : modèle de sécurité avec raisonnement dynamique basé sur des politiques personnalisables.
  • Nemotron Content Safety Audio Dataset : ensemble de données synthétiques pour former des modèles capables de détecter des contenus audio dangereux.
  • NeMo Gym – Bibliothèque open source qui accélère la création d'environnements d'apprentissage par renforcement pour la formation LLM.
  • Bibliothèque NeMo Data Designer : désormais ouverte sous Apache 2.0, fournit des outils de bout en bout pour générer et valider des ensembles de données synthétiques pour l'IA générative.

Des partenaires comme CrowdStrike, Palantir et ServiceNow ils utilisent Nemotron et NeMo pour créer des agents d'IA sûrs et spécialisés.


Recherche Nvidia : nouvelles limites pour les modèles de langage

Parmi les articles les plus pertinents présentés à NeurIPS :

  • Audio Flamingo 3 : modèle audio-linguistique ouvert capable de raisonner sur la parole, les sons et la musique, avec des contextes audio allant jusqu'à 10 minutes.
  • Minitron-SSM : méthode d'élagage pour compresser les modèles hybrides, qui réduit de moitié le Nemotron-H 8B tout en conservant des performances supérieures.
  • Jet-Nemotron : Pipeline de post-formation pour des architectures hybrides efficaces et à haut taux de génération.
  • Nemotron-Flash : Nouvelle architecture SLM optimisée pour une latence réelle, pas seulement le nombre de paramètres.
  • ProRL : technique d'apprentissage par renforcement prolongé qui étend les capacités de raisonnement des modèles de langage.