Google Genie 3: le modèle au réaliste qui forme les robots

Google Deepmind a annoncé le lancement de Genie 3, un nouveau modèle d'intelligence artificielle capable de générer des simulations du monde réel avec un niveau de réalisme sans précédent. Le système représente une progression importante vers l'intelligence artificielle générale (AGI), ou la capacité de l'IA à effectuer des tâches à égalité avec les êtres humains.

Mondes virtuels pour former des robots et des agents intelligents

Contrairement aux modèles précédents axés sur des tâches spécifiques, Genie 3 est conçu pour simuler des environnements entiers. Ces simulations offrent un contexte idéal pour la formation de robots autonomes et de véhicules intelligents, comme dans le cas d'un entrepôt virtuel dans lequel tester les robots industriels.

Environnements dynamiques et cohérents en temps réel

Selon DeepMind, Genie 3 peut générer des mondes dynamiques à 24 images par seconde, avec une résolution de 720p et une cohérence temporelle qui s'étend pendant plusieurs minutes. L'utilisateur peut explorer ces environnements en temps réel, à partir simplement d'une commande de texte. Il est même possible de simuler des expériences réalistes telles que le ski ou la randonnée, avec des éléments naturels dynamiques insérés sur demande.

Évolution des modèles précédents

Genie 3 est l'évolution des modèles Genie 1 et 2, lancée en 2024. La nouvelle version améliore non seulement la qualité visuelle, mais introduit une mémoire visuelle à long terme, le maintien de la cohérence et de la logique physique dans les mondes générés. Un élément essentiel pour rendre l'expérience immersive et utile pour la formation.

Un avenir partagé entre l'IA et Umani

Pour DeepMind, Genie 3 représente une technologie fondamentale à la fois pour l'apprentissage des agents et pour l'éducation des êtres humains. Son potentiel varie de la formation professionnelle à la simulation de sécurité, ouvrant de nouveaux scénarios d'application.

Limites

Bien que Genie 3 amplifie les limites de ce que les modèles mondiaux peuvent réaliser, il est important de reconnaître ses limites actuelles:

Espace d'action limité. Bien que les événements mondiaux promptables permettent un large éventail d'interventions environnementales, elles ne sont pas nécessairement effectuées par l'agent. La gamme d'actions que les agents peuvent effectuer directement est actuellement limitée.
Interaction et simulation d'autres agents. La modélisation précise des interactions complexes entre plusieurs agents indépendants dans des environnements partagés est toujours un défi de recherche en cours.
Représentation précise des lieux du monde réel. Genie 3 n'est actuellement pas en mesure de simuler des lieux du monde réel avec une précision géographique parfaite.
Rendu du texte. Un texte clair et lisible est souvent généré uniquement lorsqu'il est fourni dans la description du monde des entrées.
Durée limitée de l'interaction. Le modèle est actuellement en mesure de soutenir quelques minutes d'interaction continue plutôt que d'heures prolongées.

Vers une diffusion plus large

En regardant vers l'avenir, Google a l'intention d'étendre les utilisations et la disponibilité de Genie 3, ce qui la rend accessible à un public plus large de développeurs, de chercheurs et d'utilisateurs finaux. Une étape qui pourrait accélérer l'intégration de l'intelligence artificielle dans les processus mondiaux de production et de formation.

Genie 3 pourrait créer de nouvelles opportunités pour l'éducation et la formation, aidant les étudiants à apprendre et aux experts à acquérir une expérience. Non seulement il peut fournir un grand espace pour former des agents tels que les robots et les systèmes autonomes, mais il peut également permettre d'évaluer les performances des agents et d'explorer leurs points faibles.