Qu’est-ce que l’apprentissage du renforcement? Un chercheur d’IA explique une méthode clé d’enseignement des machines
Comprendre l’intelligence et créer des machines intelligentes sont de grands défis scientifiques de notre époque. La capacité d’apprendre de l’expérience est une pierre angulaire de l’intelligence pour les machines et les êtres vivants.
Dans un rapport remarquablement prémonitoire de 1948, Alan Turing – le père de l’informatique moderne – a proposé la construction de machines qui affichent un comportement intelligent. Il a également discuté de «l’éducation» de ces machines »au moyen de récompenses et de punitions ».
Les idées de Turing ont finalement conduit au développement de l’apprentissage du renforcement, une branche de l’intelligence artificielle. Le renforcement de l’apprentissage conçoit des agents intelligents en les formant pour maximiser les récompenses lorsqu’ils interagissent avec leur environnement.
En tant que chercheur à l’apprentissage automatique, je trouve approprié que les pionniers d’apprentissage du renforcement Andrew Barto et Richard Sutton ont reçu le prix ACM Turing 2024.
Qu’est-ce que l’apprentissage du renforcement?
Les entraîneurs animaux savent que le comportement animal peut être influencé par les comportements récompensés souhaitables. Un entraîneur de chien donne un régal au chien lorsqu’il fait correctement un truc. Cela renforce le comportement, et le chien est plus susceptible de faire l’affaire correctement la prochaine fois. L’apprentissage par renforcement a emprunté cette perspicacité à la psychologie animale.
Mais l’apprentissage du renforcement consiste à former des agents informatiques, pas des animaux. L’agent peut être un agent logiciel comme un programme d’échecs. Mais l’agent peut également être une entité incarnée comme un robot apprenant à faire les tâches ménagères. De même, l’environnement d’un agent peut être virtuel, comme l’échiquier ou le monde conçu dans un jeu vidéo. Mais il peut également s’agir d’une maison où un robot fonctionne.
Tout comme les animaux, un agent peut percevoir des aspects de son environnement et prendre des mesures. Un agent de jeu d’échecs peut accéder à la configuration des échecs et faire des mouvements. Un robot peut détecter son environnement avec des caméras et des microphones. Il peut utiliser ses moteurs pour se déplacer dans le monde physique.
Les agents ont également des objectifs que leurs concepteurs humains y programment. Le but d’un agent d’échecs est de gagner le match. L’objectif d’un robot pourrait être d’aider son propriétaire humain dans les tâches ménagères.
Le problème d’apprentissage du renforcement dans l’IA est de savoir comment concevoir des agents qui atteignent leurs objectifs en percevant et en agissant dans leur environnement. L’apprentissage par renforcement fait une affirmation audacieuse: tous les objectifs peuvent être atteints en concevant un signal numérique, appelé la récompense, et en faisant maximiser l’agent la somme totale des récompenses qu’il reçoit.
Les chercheurs ne savent pas si cette affirmation est réellement vraie, en raison de la grande variété d’objectifs possibles. Par conséquent, il est souvent appelé l’hypothèse de récompense.
Parfois, il est facile de choisir un signal de récompense correspondant à un objectif. Pour un agent de jeu d’échecs, la récompense peut être +1 pour une victoire, 0 pour un match nul et -1 pour une perte. Il est moins clair comment concevoir un signal de récompense pour un assistant robotique ménage utile. Néanmoins, la liste des applications où les chercheurs d’apprentissage par renforcement ont pu concevoir de bons signaux de récompense se développent.
Un grand succès de l’apprentissage du renforcement a été dans le jeu de société. Les chercheurs pensaient que GO était beaucoup plus difficile que les échecs pour les machines à maîtriser. La société Deepmind, désormais Google Deepmind, a utilisé l’apprentissage du renforcement pour créer un alphago. Alphago a battu le joueur de Top Go Lee Sedol lors d’un match de cinq matchs en 2016.
Un exemple plus récent est l’utilisation de l’apprentissage du renforcement pour rendre les chatbots tels que Chatgpt plus utiles. L’apprentissage par renforcement est également utilisé pour améliorer les capacités de raisonnement des chatbots.
Origines de l’apprentissage du renforcement
Cependant, aucun de ces succès n’aurait pu être prévu dans les années 1980. C’est à ce moment que Barto et son pH.D alors. L’étudiant Sutton a proposé l’apprentissage du renforcement en tant que cadre général de résolution de problèmes. Ils se sont inspirés non seulement de la psychologie animale mais aussi du domaine de la théorie du contrôle, de l’utilisation de la rétroaction pour influencer le comportement d’un système et l’optimisation, une branche des mathématiques qui étudie comment sélectionner le meilleur choix parmi une gamme d’options disponibles. Ils ont fourni à la communauté des recherches des fondations mathématiques qui ont résisté à l’épreuve du temps. Ils ont également créé des algorithmes qui sont maintenant devenus des outils standard sur le terrain.
C’est un avantage rare pour un domaine lorsque les pionniers prennent le temps d’écrire un manuel. Des exemples brillants comme « La nature de la liaison chimique » par Linus Pauling et « L’art de la programmation informatique » de Donald E. Knuth est mémorable car ils sont rares. Le « Renforcement Learning: An Introduction » de Sutton et Barto a été publié pour la première fois en 1998. Une deuxième édition est publiée en 2018. Leur livre a influencé une génération de chercheurs et a été cité plus de 75 000 fois.
L’apprentissage par renforcement a également eu un impact inattendu sur les neurosciences. La dopamine des neurotransmetteurs joue un rôle clé dans les comportements axés sur les récompenses chez l’homme et les animaux. Les chercheurs ont utilisé des algorithmes spécifiques développés dans l’apprentissage du renforcement pour expliquer les résultats expérimentaux dans le système de dopamine des personnes et des animaux.
Le travail fondamental, la vision et le plaidoyer de Barto et Sutton ont contribué à la croissance de l’apprentissage du renforcement. Leur travail a inspiré un grand nombre de recherches, a eu un impact sur les applications du monde réel et a attiré d’énormes investissements par les entreprises technologiques. Les chercheurs d’apprentissage par renforcement, j’en suis sûr, continueront de voir plus loin en se tenant sur leurs épaules.