La plateforme permet à l'IA d'apprendre à partir de commentaires humains constants et nuancés plutôt que de grands ensembles de données

La plateforme permet à l'IA d'apprendre à partir de commentaires humains constants et nuancés plutôt que de grands ensembles de données

Lors de votre premier cours de conduite, l'instructeur s'est probablement assis à côté de vous, vous offrant des conseils immédiats sur chaque virage, arrêt et réglage mineur. S'il s'agissait d'un parent, il aurait même pu saisir le volant à plusieurs reprises et crier « Frein ! » Au fil du temps, ces corrections et ces idées ont développé l’expérience et l’intuition, faisant de vous un conducteur indépendant et compétent.

Bien que les progrès de l’intelligence artificielle (IA) aient fait des voitures autonomes une réalité, les méthodes d’enseignement utilisées pour les former restent loin d’être accessibles, même au conducteur le plus nerveux assis sur un siège latéral. Plutôt que des nuances et des instructions en temps réel, l’IA apprend principalement grâce à des ensembles de données massifs et à des simulations approfondies, quelle que soit l’application.

Aujourd’hui, des chercheurs de l’Université Duke et du Army Research Laboratory ont développé une plate-forme pour aider l’IA à apprendre à effectuer des tâches complexes, davantage comme les humains. Surnommé GUIDE en abrégé, le cadre d'IA sera présenté lors de la prochaine conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2024), qui aura lieu du 9 au 5 décembre à Vancouver, au Canada. L'ouvrage est également disponible sur arXiv serveur de préimpression.

« Cela reste un défi pour l'IA de gérer des tâches qui nécessitent une prise de décision rapide basée sur des informations d'apprentissage limitées », a expliqué Boyuan Chen, professeur de génie mécanique et de science des matériaux, de génie électrique et informatique et d'informatique à Duke, où il dirige également le Laboratoire de robotique Duke General.

« Les méthodes de formation existantes sont souvent limitées par leur dépendance à de vastes ensembles de données préexistantes, tout en étant confrontées à l'adaptabilité limitée des approches de rétroaction traditionnelles », a déclaré Chen. « Nous visions à combler cette lacune en intégrant une rétroaction humaine continue en temps réel. »

GUIDE fonctionne en permettant aux humains d'observer les actions de l'IA en temps réel et de fournir des commentaires continus et nuancés. C'est comme si un coach de conduite qualifié ne se contenterait pas de crier « à gauche » ou « à droite », mais offrirait plutôt des conseils détaillés qui favorisent des améliorations progressives et une compréhension plus profonde.

Dans sa première étude, GUIDE aide l’IA à apprendre comment jouer au mieux à cache-cache. Le jeu implique deux joueurs en forme de scarabée, un rouge et un vert. Bien que les deux soient contrôlés par des ordinateurs, seul le joueur rouge travaille à faire progresser son contrôleur IA.

Le jeu se déroule sur un terrain de jeu carré avec une barrière en forme de C au centre. La majeure partie du terrain de jeu reste noire et inconnue jusqu'à ce que le chercheur rouge entre dans de nouvelles zones pour révéler ce qu'elles contiennent.

Pendant que le joueur IA rouge poursuit l'autre, un entraîneur humain fournit des informations sur sa stratégie de recherche. Alors que les tentatives précédentes de ce type de stratégie de formation n'autorisaient que trois entrées humaines (bonnes, mauvaises ou neutres), GUIDE demande aux humains de passer le curseur de la souris sur une échelle de gradient pour fournir un retour d'information en temps réel.

L'expérience a impliqué 50 participants adultes sans formation préalable ni connaissances spécialisées, ce qui constitue de loin l'étude à plus grande échelle de ce type. Les chercheurs ont découvert que seulement 10 minutes de feedback humain entraînaient une amélioration significative des performances de l’IA. GUIDE a obtenu jusqu'à 30 % d'augmentation des taux de réussite par rapport aux méthodes actuelles d'apprentissage par renforcement guidée par l'homme.

« Ces preuves quantitatives et qualitatives solides mettent en évidence l'efficacité de notre approche », a déclaré Lingyu Zhang, auteur principal et doctorant en première année. étudiant dans le laboratoire de Chen. « Cela montre comment GUIDE peut améliorer l'adaptabilité, en aidant l'IA à naviguer et à réagir de manière indépendante dans des environnements complexes et dynamiques. »

Les chercheurs ont également démontré que les formateurs humains ne sont réellement nécessaires que pendant une courte période. À mesure que les participants fournissaient leurs commentaires, l’équipe a créé une IA de formateur humain simulée, basée sur leurs idées dans des scénarios particuliers à des moments particuliers. Cela permet à l’IA chercheuse de s’entraîner continuellement longtemps après qu’un humain se soit lassé de l’aider à apprendre. Former un « coach » d’IA qui n’est pas aussi bon que l’IA qu’il coache peut sembler contre-intuitif, mais comme l’explique Chen, c’est en fait une chose très humaine à faire.

« Bien qu'il soit très difficile pour quelqu'un de maîtriser une certaine tâche, il n'est pas si difficile pour quelqu'un de juger s'il s'améliore ou non », a déclaré Chen. « Beaucoup d'entraîneurs peuvent guider des joueurs vers des championnats sans avoir été eux-mêmes champions. »

Une autre direction fascinante de GUIDE consiste à explorer les différences individuelles entre les formateurs humains. Les tests cognitifs effectués auprès des 50 participants ont révélé que certaines capacités, telles que le raisonnement spatial et la prise de décision rapide, influençaient de manière significative l'efficacité avec laquelle une personne pouvait guider une IA. Ces résultats mettent en évidence des possibilités intéressantes telles que l’amélioration de ces capacités grâce à une formation ciblée et la découverte d’autres facteurs susceptibles de contribuer au succès du guidage par l’IA.

Ces questions laissent entrevoir un potentiel passionnant pour développer des cadres de formation plus adaptatifs qui se concentrent non seulement sur l’enseignement de l’IA, mais également sur l’augmentation des capacités humaines pour former de futures équipes homme-IA. En abordant ces questions, les chercheurs espèrent créer un avenir dans lequel l’IA apprend non seulement plus efficacement mais aussi de manière plus intuitive, comblant ainsi le fossé entre l’intuition humaine et l’apprentissage automatique et permettant à l’IA de fonctionner de manière plus autonome dans des environnements où les informations sont limitées.

« À mesure que les technologies d'IA deviennent plus répandues, il est crucial de concevoir des systèmes intuitifs et accessibles aux utilisateurs quotidiens », a déclaré Chen. « GUIDE ouvre la voie à une IA plus intelligente et plus réactive, capable de fonctionner de manière autonome dans des environnements dynamiques et imprévisibles. »

L’équipe envisage de futures recherches intégrant divers signaux de communication utilisant le langage, les expressions faciales, les gestes de la main et bien plus encore pour créer un cadre plus complet et intuitif permettant à l’IA d’apprendre des interactions humaines. Leur travail fait partie de la mission du laboratoire visant à construire des systèmes intelligents de niveau supérieur qui s'associent aux humains pour s'attaquer à des tâches que ni l'IA ni les humains ne pourraient résoudre seuls.