Avec Gemini Robotics, Google apporte l’IA au monde physique
DUE Nouveaux modèles d’intelligence artificiellebasé sur Gémeaux 2.0qui pose les fondements d’une nouvelle génération de robots utiles. Google les a annoncés: le premier est Gémeaux robotiqueun modèle avancé de action de vision-langage (VLA) qui a été construit sur Gemini 2.0 avec l’ajout d’actions physiques, en tant que nouveau mode de sortie afin de contrôler directement les robots.
Le second est Gemini Robotics-erun modèle Gemini avec une compréhension spatiale avancée, qui permet aux robotistes d’effectuer leurs programmes en utilisant les compétences de Raisonnement incorporé (ER) de Gémeaux.
Ces deux modèles permettent à une variété de robots d’effectuer une gamme plus large d’activités réelles qu’auparavant.

«Dans le cadre de nos efforts, nous collaborons avec Attonik pour construire la prochaine génération de robots humanoïdes avec Gemini 2.0. Nous travaillons également avec un nombre sélectionné de tests de confiance pour guider l’avenir de Gemini Robotics-ER. Nous avons hâte d’explorer les compétences de nos modèles et de continuer à les développer sur la voie des applications du monde réel « , lit le blog de l’entreprise.
Gémeaux robotique
Gémeaux robotique Il s’agit du modèle de langage de vision le plus avancé.
Pour être utile et aider les gens, les modèles d’intelligence artificielle pour la robotique doivent avoir Trois qualités principales:
- Ils doivent être généraux ou capables de s’adapter à différentes situations;
- Ils doivent être interactifs, c’est-à-dire capables de comprendre et de répondre rapidement aux instructions ou aux changements dans leur environnement;
- Ils doivent être qualifiés ou capables de faire le type de choses que les gens peuvent généralement faire avec les mains et les doigts, comment manipuler soigneusement des objets.
Gemini Robotics représente une étape substantielle dans les performances des trois axes, approchant un robot vraiment général.
Généralité
Les Gemini Robotics profitent de la compréhension du monde des Gémeaux pour généraliser de nouvelles situations et résoudre une grande variété de tâches en dehors des sentiers battus, y compris les tâches jamais vues auparavant en formation. Gemini Robotics est également qualifié pour gérer de nouveaux objets, des instructions différentes et de nouveaux environnements. Dans le rapport technologique, Google montre que dans la robotique Gémeaux moyenne, plus que doubler les performances sur une référence complète de généralisation par rapport à d’autres modèles de pointe de l’action de la vision de la vision.
Interactivité
Pour opérer dans le monde dynamique et physique, les robots doivent être capables d’interagir sans problèmes avec les gens et l’environnement environnant et s’adapter aux changements à la volée.
Puisqu’il est construit sur une base de Gemini 2.0, Gemini Robotics est intuitivement interactif. Il s’appuie sur les compétences avancées de compréhension de la langue des Gémeaux et peut comprendre et répondre aux commandes formulées dans une langue quotidienne, familière et dans différentes langues.
Il peut comprendre et répondre à un ensemble d’instructions beaucoup plus large en langage naturel que les modèles précédents, en adaptant son comportement à l’entrée. De plus, il surveille constamment l’environnement environnant, détecte les changements dans son environnement ou dans ses instructions et adapte ses actions en conséquence. Ce type de contrôle, ou « Pilotage »peut mieux aider les gens à collaborer avec des assistants de robot dans une série de contextes, de la maison au travail.
Dextérité
Le troisième pilier fondamental pour construire un robot utile est d’agir avec la dextérité. De nombreuses tâches quotidiennes que les êtres humains exécutent sans effort nécessitent une motricité fine et sont encore trop difficiles pour les robots. Au contraire, les Gemini Robotics peuvent être extrêmement complexes et dans plusieurs phases qui nécessitent une manipulation précise, comme l’origami de flexion ou une collation dans un sac.
Réalisations multiples
Enfin, comme les robots ont des formes et des tailles différentes, Gemini Robotics a également été conçu pour s’adapter facilement à différents types de robots. Google a formé le modèle principalement sur les données de la plate-forme robotique Bi-Braccio, Aloha 2,


Mais il a également montré qu’il pouvait contrôler une plate-forme de bi-branche, basée sur les bras Franka utilisé dans de nombreux ateliers académiques.


Les Gemini Robotics peuvent même être spécialisés pour des réalisations plus complexes, comme le Robot humanoïde Apollon Développé par Attonik, dans le but de terminer les activités du monde réel.


Améliorer la compréhension du monde des Gémeaux
Avec Gemini Robotics, Google présente un modèle avancé de langage visuel appelé Gemini Robotics-er (Abréviation de « Raisonnement intégré« ). Ce modèle améliore la compréhension du monde des Gémeaux dans la manière nécessaire de la robotique, en se concentrant en particulier sur le raisonnement spatial, et permet à la robotique de la connecter à leurs contrôleurs de bas niveau existants.


Gemini Robotics-ER améliore considérablement les compétences existantes de Gemini 2.0 telles que la détection et la détection 3D. En combinant les compétences de raisonnement et de codage spatiales des Gémeaux, Gemini Robotics-ER peut créer de nouvelles compétences à la volée. Par exemple, lorsqu’une tasse de café lui est montrée, le modèle peut deviner une prise appropriée à deux doigts pour le retirer de la poignée et une trajectoire sûre pour se rapprocher.
Gemini Robotics-ER peut effectuer toutes les étapes nécessaires pour vérifier immédiatement un robot, y compris Perception, estimation de l’État, compréhension de l’espace, planification et génération de code. Dans un tel contexte de bout en boutle modèle atteint un taux de réussite 2x-3x par rapport à Gemini 2.0. Et lorsque la génération de code ne suffit pas, Gemini Robotics-ER peut même s’appuyer sur la puissance de l’apprentissage dans le contexte, en suivant les modèles d’une poignée de démonstrations humaines pour fournir une solution.


Progrès responsable de l’intelligence artificielle et de la robotique
Tout en explore le potentiel continu de l’intelligence artificielle et de la robotique, Google adopte une approche holistique et stratifiée pour faire face à la sécurité dans la recherche, du contrôle moteur à faible niveau à une compréhension sémantique de haut niveau.
La sécurité physique des robots et des personnes qui les entourent est une préoccupation longue et fondamentale dans la science de la robotique. C’est pourquoi la robotique a des mesures de sécurité classiques telles que éviter les collisions, limiter l’étendue des forces de contact et garantir la stabilité dynamique des robots mobiles.
Gemini Robotics-ER peut être interfacé avec ces contrôleurs critiques pour la sécurité du « bas niveau », spécifique pour chaque forme particulière de réalisation. Sur la base des principales caractéristiques de sécurité des Gémeaux, Google permet aux modèles Gemini Robotics-ER de comprendre si une action potentielle est sûre ou ne pas être effectuée dans un contexte donné et générer des réponses appropriées.
Pour faire la sécurité de la robotique dans les progrès du monde académique et industriel, il publie également un nouvel ensemble de données pour évaluer et améliorer la sécurité sémantique dans l’intelligence artificielle et la robotique.
En plus du partenariat avec Attonikle modèle Gemini Robotics-ER est également disponible pour les testeurs de confiance, notamment Robots agiles, robots d’agilité, dynamique de Boston et Outils enchantés.
Pour en savoir plus