Dans la course pour former des robots IA à agir comme des humains dans le monde réel
Maintenant que l’intelligence artificielle maîtrise presque tout ce que nous faisons en ligne, elle a besoin d’aide pour apprendre comment nous nous déplaçons physiquement dans le monde réel.
Une armée mondiale croissante d’entraîneurs l’aide à s’échapper de nos ordinateurs et à pénétrer dans nos salons, bureaux et usines en lui apprenant comment nous déplaçons.
Dans une ville industrielle du sud de l'Inde, Naveen Kumar, 28 ans, se tient à son bureau et commence son travail de la journée : plier les serviettes des centaines de fois, aussi précisément que possible.
Il ne travaille pas dans un hôtel ; il travaille pour une startup qui crée des données physiques utilisées pour entraîner l'IA.
Il monte une caméra GoPro sur son front et suit une liste réglementée de mouvements de la main pour capturer des images exactes de la façon dont un humain se plie.
Ce jour-là, il a dû ramasser chaque serviette dans un panier sur le côté droit de son bureau, en utilisant uniquement sa main droite, la secouer avec les deux mains, puis la plier soigneusement trois fois. Ensuite, il devait placer chaque serviette pliée dans le coin gauche du bureau.
Si cela prend plus d'une minute ou s'il manque une étape, il doit recommencer.
Son entreprise, une société d'étiquetage de données appelée Objectways, a envoyé 200 vidéos de pliage de serviettes à son client aux États-Unis. L'entreprise compte plus de 2 000 salariés ; environ la moitié d’entre eux étiquettent les données des capteurs des voitures autonomes et de la robotique, et le reste travaille sur l’IA générative.
La plupart d’entre eux sont des ingénieurs, et rares sont ceux qui savent plier les serviettes, c’est pourquoi ils effectuent le travail physique à tour de rôle.
« Parfois, nous devons supprimer près de 150 ou 200 vidéos à cause d'erreurs stupides dans la façon dont nous plions ou plaçons des éléments », a déclaré Kumar, un diplômé en ingénierie qui travaille chez Objectways depuis six ans.
Les mouvements soigneusement chorégraphiés doivent capturer toutes les nuances de ce que font les humains – tendre les bras, saisir les doigts, glisser le tissu – pour plier les vêtements.
Les vidéos capturées sont ensuite annotées par Kumar et son équipe. Ils dessinent des encadrés autour des différentes parties de la vidéo, étiquettent les serviettes, indiquent si le bras s'est déplacé à gauche ou à droite, et classent chaque geste.
Kumar et ses collègues de la ville de Karur, située à environ 300 miles au sud de Bengaluru, constituent un groupe improbable de tuteurs pour la prochaine génération de robots alimentés par l'IA.
« Les entreprises construisent des modèles de base adaptés au monde physique », a déclaré Ulrik Stig Hansen, co-fondateur d'Encord, une plateforme de gestion de données à San Francisco qui passe un contrat avec Objectways pour collecter des données de démonstration humaine. « Il y a une énorme résurgence de la robotique. »
Encord travaille avec des sociétés de robotique telles que Physical Intelligence et Dyna Robotics, soutenues par Jeff Bezos.
Aux États-Unis, Tesla, Boston Dynamics et Nvidia comptent parmi les leaders dans la course au développement de la prochaine génération de robots. Tesla utilise déjà ses robots Optimus, qui semblent souvent contrôlés à distance, pour différents événements d'entreprise. Google possède ses propres modèles d'IA pour la robotique. OpenAI renforce ses ambitions en matière de robotique.
Nvidia prévoit que le marché des robots humanoïdes pourrait atteindre 38 milliards de dollars au cours de la prochaine décennie.
Il existe également de nombreuses entreprises moins connues qui tentent de fournir le matériel, les logiciels et les données nécessaires pour faire d’un robot humanoïde multitâche produit en série une réalité.
Les grands modèles de langage qui alimentent les chatbots tels que ChatGPT maîtrisent l'utilisation du langage, des images, de la musique, du codage et d'autres compétences en aspirant tout en ligne. Ils utilisent Internet dans son intégralité pour comprendre comment les choses sont connectées et imiter notre façon de faire, par exemple en répondant à des questions et en créant des vidéos photo-réalistes.
Les données sur le fonctionnement du monde physique (la force nécessaire pour plier une serviette, par exemple) sont plus difficiles à obtenir et à traduire en quelque chose que l’IA peut utiliser.
À mesure que la robotique s’améliore et s’associe à l’IA qui sait se déplacer dans le monde physique, elle pourrait amener davantage de robots sur le lieu de travail et à la maison. Alors que beaucoup craignent que cela n’entraîne des pertes d’emplois et du chômage, les optimistes pensent que des robots avancés libéreraient les humains d’un travail fastidieux, réduiraient les coûts de main-d’œuvre et donneraient finalement aux gens plus de temps pour se détendre ou se concentrer sur un travail plus intéressant et plus important.
De nombreuses entreprises sont entrées dans la mêlée en tant que vendeurs de pelles dans la ruée vers l’or de l’IA, y voyant une opportunité de collecter des données pour ce que l’on appelle l’IA physique.
Un groupe d’entreprises enseigne à l’IA comment agir dans le monde réel en demandant aux humains de guider les robots à distance.
Ali Ansari, fondateur de Micro1, basée à San Francisco, a déclaré que la collecte de données sur la robotique émergente se concentre de plus en plus sur les téléopérations. Les humains équipés de contrôleurs obligent le robot à faire quelque chose comme prendre une tasse ou préparer du thé. L’IA reçoit des vidéos de tentatives réussies et échouées pour faire quelque chose et apprend à le faire.
La formation au contrôle à distance peut avoir lieu dans la même pièce que les robots ou avec le contrôleur dans un autre pays. Hansen d'Encord a déclaré qu'il existe des entrepôts prévus en Europe de l'Est où de grandes équipes d'opérateurs seront assis avec des joysticks, guidant les robots à travers le monde.
Il y en a davantage, ce que certains ont surnommé « fermes d'armes », qui apparaissent à mesure que la demande augmente, a déclaré Mohammad Musa, fondateur de Deepen AI, une société d'annotation de données dont le siège est en Californie.
« Aujourd'hui, un mélange de données réelles et synthétiques est utilisé, recueillies à partir de démonstrations humaines, de sessions de téléopération et d'environnements mis en scène », a-t-il déclaré. « Une grande partie de ce travail se déroule encore en dehors de l'Occident, mais l'automatisation et la simulation réduisent cette dépendance au fil du temps. »
Certains ont critiqué les humanoïdes téléopérés pour être plus grésillants que substantiels. Ils peuvent être impressionnants lorsque d’autres les contrôlent, mais ils sont encore loin d’être totalement autonomes.
Le Micro1 d'Ansari effectue également ce qu'on appelle la capture de données humaines. Il est avantageux pour les gens de porter des lunettes intelligentes qui capturent les actions quotidiennes. C’est ce qu’il fait au Brésil, en Argentine, en Inde et aux États-Unis.
Figure AI, basé à San José, s'est associé au géant de l'immobilier Brookfield pour capturer des images de l'intérieur de 100 000 maisons. Il collectera des données sur les mouvements humains pour apprendre aux robots humanoïdes comment se déplacer dans les espaces humains. L’entreprise a déclaré qu’elle consacrerait une grande partie du milliard de dollars collecté à la collecte de données humaines à la première personne.
Scale AI, soutenu par Meta, a collecté 100 000 heures de séquences de formation similaires pour la robotique via son laboratoire prototype installé à San Francisco.
Pourtant, former des robots n’est pas toujours facile.
Dev Mandal, 20 ans, a créé une entreprise à Bangalore, dans l'espoir de tirer profit du besoin de données physiques pour former l'IA. Il a offert la main d'œuvre bon marché de l'Inde pour capturer les mouvements. Après avoir annoncé ses services, il a reçu des demandes pour aider à former un bras robotique pour cuisiner des aliments ainsi qu'un robot pour brancher et débrancher les câbles dans les centres de données.
Mais il a dû abandonner son activité, car les clients potentiels avaient besoin de données sur les mouvements physiques collectées d'une manière très spécifique, ce qui rendait plus difficile pour lui de gagner de l'argent, même avec la main-d'œuvre bon marché de l'Inde. Les clients souhaitaient par exemple utiliser un bras de robot précis, utilisant un certain type de table avec des lumières violettes.
« Tout, jusqu'à la couleur de la table, devait être précisé par eux », a-t-il déclaré. « Et ils ont dit que cela devait être la couleur exacte. »
Pourtant, il y a beaucoup de travail pour les plieurs de serviettes de Karur.
Leur patron, le fondateur d'Objectways, Ravi Shankar, affirme qu'au cours des derniers mois, son entreprise a capturé et annoté des images de bras robotiques pliant des boîtes en carton et des T-shirts et sélectionnant certains objets colorés sur une table.
Il a récemment commencé à annoter des vidéos de robots humanoïdes plus avancés, les aidant à trier et à plier un mélange de serviettes et de vêtements, en les pliant et en les plaçant dans différents coins de la table. Son équipe a dû annoter 15 000 vidéos des robots effectuant le travail.
« Parfois, les bras du robot projettent les vêtements et ne les plient pas correctement. Parfois, ils dispersent la pile », mais les robots apprennent rapidement, a déclaré Kavin, 27 ans, un employé d'Objectways qui porte un seul nom. « Dans cinq ou dix ans, ils seront capables de faire tous les travaux et il n'en restera plus pour nous. »
