Les robots apprennent plus vite grâce au boost de l'IA d'Eureka

Les robots apprennent plus vite grâce au boost de l’IA d’Eureka

Les robots intelligents remodèlent notre univers. À l’hôpital universitaire Robert Wood Johnson du New Jersey, les robots assistés par l’IA apportent un nouveau niveau de sécurité aux médecins et aux patients en analysant chaque centimètre carré des locaux à la recherche de bactéries et de virus nocifs et en les désinfectant avec des doses précises de lumière ultraviolette germicide.

Dans l’agriculture, des bras robotiques pilotés par des drones scannent différents types de fruits et légumes et déterminent quand ils sont parfaitement mûrs pour la cueillette.

L’Airspace Intelligence System AI Flyways prend en charge les tâches difficiles et souvent stressantes des régulateurs de vol qui doivent apporter des changements de modèle de vol de dernière minute en raison de conditions météorologiques extrêmes soudaines, d’un manque de carburant, de problèmes mécaniques ou d’autres urgences. Il optimise les solutions, est plus sûr, permet de gagner du temps et est rentable.

Mais oubliez ces réalisations : un robot peut-il effectuer des tours de stylo impeccables ?

Une équipe de NVIDIA Research en a développé un qui le peut. Et bien que la tâche soit impressionnante – certains experts affirment que cela pourrait prendre des mois, voire un an, voire plus, aux humains pour maîtriser l’art du filage avec les doigts, y compris des manipulations difficiles avec des noms tels que Devil’s Sonic, Backaround, Corkscrew et Bust X2 – ce qui reste Ce que l’on sait du projet de NVIDA, c’est que l’exploit de faire tourner un stylo a été enseigné par des instructions générées par l’IA.

Dans un article intitulé « Eureka : Human-Level Reward Design via Coding Large Language Models » qui apparaît sur le serveur de préimpression arXivles chercheurs décrivent une « optimisation évolutive par rapport au code de récompense » dans laquelle les robots apprennent des mouvements complexes de manipulation fine grâce à des instructions générées par l’IA.

Il promet une résolution de problèmes toujours plus efficace grâce aux LLM, une manipulation physique plus avancée et des machines toujours plus intelligentes dans notre avenir.

L’équipe a développé Eureka, un algorithme appliqué à GPT-4 qui établit un système de récompense pour les LLM apprenant des fonctions motrices avancées. Les tâches sont effectuées dans une application de simulation physique appelée Isaac Gym, développée par NVIDIA. Des chercheurs de l’UPenn, de Caltech et de l’Université du Texas à Austin ont également participé au projet.

Les résultats obtenus grâce à la formation d’Eureka étaient supérieurs aux instructions conçues par des humains dans 83 % des essais. La tâche de faire tourner rapidement un stylo était l’une des 29 compétences complexes entraînées sur l’algorithme Eureka.

« La polyvalence et les gains de performances substantiels d’Eureka suggèrent que le principe simple consistant à combiner de grands modèles de langage avec des algorithmes évolutifs constitue une approche générale et évolutive de la conception des récompenses, une idée qui peut être généralement applicable à des problèmes de recherche difficiles et ouverts », a déclaré Anima Anandkumar, directrice principale de la recherche sur l’IA chez NVIDIA et auteur de l’article Eureka.

Le Isaac Gym simule l’activité physique dans un environnement tridimensionnel. Les sessions de formation massivement parallèles génèrent rapidement des solutions possibles pour de nombreuses manipulations, bien plus rapidement que les humains ou les premiers systèmes informatiques ne le peuvent. Selon les chercheurs, la salle de sport peut améliorer la vitesse d’entraînement d’un facteur 1 000.

Les commentaires des opérateurs humains peuvent être intégrés aux algorithmes de formation. Les chercheurs affirment que cela agirait comme un « copilote puissant » dans des tâches particulièrement difficiles.

D’autres tâches accomplies grâce à la formation Eureka comprennent l’ouverture d’armoires et de tiroirs, la manipulation de ciseaux et le lancement et la capture de balles.

Eureka compile des statistiques sur la progression de chaque session et ajuste le code pour améliorer continuellement les résultats.

Selon Shital Shah, ingénieur de recherche principal chez Microsoft Research, « la boucle de rétroaction positive proverbiale de l’auto-amélioration pourrait être à nos portes et nous permettra d’aller au-delà des données et des capacités de formation humaine. »