Plier des vêtements ou démonter des LEGO a toujours été une tâche fastidieuse. La nouvelle IA pour robots de Xiaomi y a mis fin

Plier des vêtements ou démonter des LEGO a toujours été une tâche fastidieuse. La nouvelle IA pour robots de Xiaomi y a mis fin

Cela fait très, très longtemps que Xiaomi a cessé d'être une entreprise de téléphonie mobile. Aujourd'hui, les tentacules de l'entreprise s'étendent à tous types de secteurs, depuis la téléphonie mobile et l'électroménager jusqu'à l'automobile, la conception de puces et, désormais, la robotique. Et l’entreprise chinoise vient de présenter sa première vision, son langage et son modèle d’action pour la robotique. Son nom : Xiaomi-Robotics-0.

De quoi s’agit-il ? Xiaomi-Robotics-0 est un modèle open source dont le code peut être trouvé sur GitHub et HugginFace. Comme l'explique l'entreprise, ce modèle a été optimisé pour offrir « des performances, une rapidité et une fluidité élevées dans les exécutions en temps réel ». Il ne faut pas considérer ce modèle comme une IA capable de faire courir et sauter un robot comme un humain, mais plutôt comme une IA capable de faire comprendre à un « simple » robot son environnement et de savoir prendre la décision optimale sans, par exemple, détruire ce qu'il a entre les mains.

A propos des robots. Quand on parle d’IA appliquée à la robotique, on ne parle pas seulement d’un robot capable de se déplacer. L’appareil doit savoir et comprendre qu’il ne doit pas appliquer la même force lorsqu’il tient une brique que lorsqu’il tient un chat, par exemple. En ce sens, il faut une compréhension du visuel, une compréhension de ce qui est vu et une exécution appropriée des actions : c'est une brique > c'est un objet lourd > je dois appliquer plus de force pour la tenir et la déplacer d'un côté à l'autre.

Xiaomi-Robotics-0 résultats dans les benchmarks | Image : Xiaomi

Xiaomi-Robotics-0 résultats dans les benchmarks | Image : Xiaomi

Les repères. Xiaomi a obtenu, comme détaillé sur le site Web du projet, de très bons résultats en LIBERO (mesure du transfert de connaissances), SimplerEnv (mesure des performances dans des simulations réelles) et CALVIN (mesure des performances dans des tâches conditionnées par le langage). Selon l'entreprise, Xiaomi-Robotics-0 « atteint des taux de réussite élevés et des résultats solides dans deux tâches difficiles à deux mains : le démontage des LEGO et le pliage des serviettes ».

Le plaisir de s'entraîner. Chaque modèle d'IA s'appuie sur un ensemble de données d'entraînement. Dans le cas de Xiaomi-Robotics-0, un modèle de 4,7 milliards de paramètres, l'ensemble de données comprend 200 millions de pas de temps de trajectoires de robots et plus de 80 millions d'échantillons de données générales de langage de vision, dont 338 heures de vidéos de démontage LEGO et 400 heures de vidéos de pliage de serviettes.

Les résultats. L'entreprise affirme dans le journal que son modèle est capable de démonter des LEGO complexes comprenant jusqu'à 20 pièces, d'adapter la prise en temps réel pour éviter les erreurs, d'utiliser une seule main pour placer correctement la serviette et la plier ou, si vous récupérez deux serviettes dans le panier, prenez-en une, laissez-la en place et pliez-en une seule. Cela démontre une capacité d’adaptation et d’apprentissage intéressante qui, même si elle peut paraître triviale sur le papier, a sa valeur si l’on pense aux robots industriels, voire domestiques.

Au-delà. Ce que démontre ce modèle, c'est sa capacité à s'adapter à des géométries complexes et imprévisibles, comme celle d'une serviette jetée dans un panier, et à comprendre, disons, la « physique douce ». Sur une serviette, cela peut sembler une petite chose, mais pensons par exemple à la manipulation de tissus humains lors d'une intervention. Idem avec les LEGO. Il ne s'agit pas seulement de les démonter, il s'agit de comprendre la position des blocs, comment ils s'emboîtent, quelle force appliquer et sous quel angle pour ne pas les casser. Pensons à un robot qui enlève les débris.

Un robot industriel a toujours été programmé avec des coordonnées fixes, c'est-à-dire pour déplacer quelque chose d'un point A à un point B. Un robot doté d'une IA comme celui proposé par Xiaomi serait beaucoup plus polyvalent. Le premier robot apprend les mouvements, le deuxième robot apprend les tâches, et la différence est tout un monde. Si l’on pense à un futur lointain où il y aura des robots domestiques, un robot nettoyant la poussière d’une étagère ne sera pas la même chose que savoir identifier des objets, des décorations, etc., et comprendre qu’il doit les déplacer pour éviter de les jeter et les nettoyer à fond.

Image de couverture | Xiaomi

À Simseo | Une entreprise chinoise revendique une autre limite en matière de robotique : elle veille à ce que son nouveau robot humanoïde fonctionne comme un athlète d'élite