Guide pratique pour écrire les meilleures

Google lance PaLM-E, un modèle d’IA pour que votre robot vous serve des frites (entre autres)

Plongés comme nous le sommes dans le maelström des applications pratiques de l’intelligence artificielle, arrive la nouvelle de Google. La société est peut-être encore inégalée pour ChatGPT, mais elle vient de dévoiler un nouveau modèle de langage visuel (VLM) qu’elle a appelé PALM-E et qu’il est conçu pour donner de nouvelles capacités aux robots du futur.

PALM-E. Ce modèle est particulièrement étonnant car il va plus loin que ce que réalisent des moteurs comme ChatGPT. Il comprend non seulement notre demande, mais l’utilise également pour qu’un robot effectue certaines actions liées à cette demande.

Apportez-moi les frites du tiroir. Dans sa démonstration, Google a montré comment en donnant cet ordre à un robot dans une cuisine, PaLM-E a pu générer un plan d’action pour que un robot développé par Google Robotics était capable d’exécuter ces actions par lui-même.

V pour la vue. Le modèle VLM (Visual-Language Model) se nourrit de 562 000 millions de paramètres et intègre à la fois la vision et le langage pour ce contrôle robotique. Une caméra collecte des données que le système analyse sans qu’il soit nécessaire de prétraiter l’emplacement. Cela permet d’éviter les étapes précédentes et de rendre le contrôle robotique beaucoup plus autonome. Le modèle est une itération de PaLMdont Google nous a déjà parlé il y a environ un an et qui est combiné avec des travaux antérieurs sur le modèle appelé ViT-22B.

Rendre la tâche difficile au robot. Ce système d’IA permet même au robot de s’adapter et de surmonter les obstacles. Dans la vidéo, vous pouvez voir comment l’un des chercheurs a changé la position du sac de pommes de terre une fois que le robot l’avait prêt. Après quelques instants, le robot a reconnu la situation et l’a reprise pour terminer la tâche.

transfert positif. Les chercheurs ont également observé des effets frappants de ce travail, tels que le soi-disant « transfert positif » dans lequel les connaissances acquises lors de l’exécution d’une tâche sont transférées à une autre. Le robot apprend de l’expérience et l’applique aux tâches suivantes, tout comme le font les humains.

Nouvelles options d’automatisation. Ce modèle — Microsoft avance également sur ce segment avec son « ChatGPT for Robotics » — démontre comment les avancées qui ont lieu ces derniers mois peuvent avoir un impact réel (et très pratique) sur les futurs robots autonomes qui apprennent, s’adaptent et réalisent des tâches utilisant le langage naturel.