DeepMind développe une IA qui démontre des capacités d’apprentissage social
Une équipe de chercheurs en IA du projet DeepMind de Google a développé un type de système d’IA capable de démontrer des capacités d’apprentissage social. Dans leur article publié dans la revue Communications naturellesle groupe décrit comment ils ont développé une application d’IA qui a montré qu’elle était capable d’acquérir de nouvelles compétences dans un monde virtuel en copiant les actions d’un « expert » implanté.
La plupart des systèmes d’IA, tels que ChatGPT, acquièrent leurs connaissances en étant exposés à d’énormes quantités de données, provenant par exemple de référentiels sur Internet. Mais une telle approche, ont noté les acteurs de l’industrie, n’est pas très efficace. C’est pourquoi de nombreux acteurs du domaine continuent de chercher d’autres moyens d’apprendre aux systèmes d’IA à apprendre.
L’une des approches les plus populaires utilisées par les chercheurs consiste à tenter d’imiter le processus par lequel les humains apprennent. À l’instar des applications d’IA traditionnelles, les humains apprennent en s’exposant à des éléments connus d’un environnement et en suivant l’exemple d’autres personnes qui savent ce qu’ils font. Mais contrairement aux applications d’IA, les humains comprennent les choses sans avoir besoin d’un grand nombre d’exemples. Un enfant peut apprendre à jouer au jeu de Jacks, par exemple, après avoir regardé les autres jouer pendant quelques minutes seulement – un exemple de transmission culturelle. Dans ce nouvel effort, l’équipe de recherche a tenté de reproduire ce processus en utilisant l’IA limitée à un monde virtuel.
Le travail de l’équipe consistait d’abord à construire un monde virtuel (appelé GoalCycle3D) composé d’un terrain accidenté sur lequel se trouvaient divers obstacles et sphères multicolores. Ils ont ensuite ajouté des agents IA, censés voyager à travers le monde virtuel en évitant les obstacles et en traversant les sphères. Les agents ont reçu des modules d’apprentissage mais aucune autre information sur le monde dans lequel ils habiteraient. Ils ont acquis des connaissances sur la manière de procéder grâce à l’apprentissage par renforcement.
Pour amener les agents à apprendre, ils ont reçu des récompenses et ont été autorisés à se frayer un chemin à travers plusieurs mondes virtuels similaires, encore et encore. Ce faisant, les agents ont pu se frayer un chemin à travers le monde virtuel jusqu’à la destination souhaitée. Les chercheurs ont ensuite ajouté une autre fonctionnalité au monde virtuel : des agents experts qui connaissaient déjà le meilleur moyen de se rendre d’un endroit à un autre sans se heurter à des obstacles. Dans le nouveau scénario, les agents non experts ont vite compris que le moyen le plus rapide d’arriver à une destination souhaitée était d’apprendre auprès d’un expert.
En observant les agents apprendre, les chercheurs ont constaté qu’ils faisaient beaucoup plus rapidement avec l’expert et qu’ils étaient capables de mieux naviguer dans d’autres nouveaux mondes virtuels similaires en imitant ce qu’ils avaient appris de l’expert lors d’essais antérieurs. Ils étaient également capables d’appliquer ces compétences (grâce aux modules de mémoire) même en l’absence de l’expert – un exemple, selon les chercheurs, d’apprentissage social.