Une équipe de recherche propose une solution au problème d'apprentissage continu de l'IA
Une équipe de chercheurs de l’Alberta Machine Intelligence Institute (Amii) a révélé davantage d’informations sur un problème mystérieux de l’apprentissage automatique, une découverte qui pourrait constituer une étape majeure vers la création d’une IA avancée capable de fonctionner efficacement dans le monde réel.
L'article, intitulé « Perte de plasticité dans l'apprentissage continu profond », est publié dans NatureIl a été rédigé par Shibhansh Dohare, J. Fernando Hernandez-Garcia, Qingfeng Lan, Parash Rahman, ainsi que par les boursiers Amii et les présidents de l'IA Canada-CIFAR A. Rupam Mahmood et Richard S. Sutton.
Dans leur article, l’équipe explore un problème vexant qui a longtemps été suspecté dans les modèles d’apprentissage profond mais qui n’a pas reçu beaucoup d’attention : pour une raison quelconque, de nombreux agents d’apprentissage profond engagés dans un apprentissage continu perdent la capacité d’apprendre et voient leurs performances se dégrader considérablement.
« Nous avons établi qu’il existe un problème avec l’apprentissage profond actuel », a déclaré Mahmood. « Lorsque l’on doit s’adapter en permanence, nous avons montré que l’apprentissage profond finit par cesser de fonctionner. Il est donc impossible de continuer à apprendre. »
Il souligne que non seulement l'agent IA perd la capacité d'apprendre de nouvelles choses, mais qu'il ne parvient pas non plus à réapprendre ce qu'il a appris dans le passé après l'avoir oublié. Les chercheurs ont baptisé ce phénomène « perte de plasticité », empruntant un terme aux neurosciences où la plasticité fait référence à la capacité du cerveau à adapter sa structure et à former de nouvelles connexions neuronales.
L'état actuel de l'apprentissage profond
Les chercheurs affirment que la perte de plasticité est un défi majeur pour le développement d’une IA capable de gérer efficacement la complexité du monde et qu’elle devrait être résolue pour développer une intelligence artificielle de niveau humain.
De nombreux modèles existants ne sont pas conçus pour un apprentissage continu. Sutton cite ChatGPT comme exemple : il n'apprend pas en continu. Au lieu de cela, ses créateurs entraînent le modèle pendant un certain temps. Une fois l'entraînement terminé, le modèle est alors déployé sans autre apprentissage.
Même avec cette approche, la fusion de données nouvelles et anciennes dans la mémoire d'un modèle peut s'avérer difficile. La plupart du temps, il est plus efficace de repartir de zéro, d'effacer la mémoire et de réentraîner le modèle sur tous les éléments. Pour les modèles volumineux comme ChatGPT, ce processus peut prendre beaucoup de temps et coûter des millions de dollars à chaque fois.
Cela limite également le type de choses qu'un modèle peut faire. Pour les environnements en constante évolution, comme les marchés financiers par exemple, Sutton affirme que l'apprentissage continu est une nécessité.
Caché à la vue de tous
Selon l’équipe, la première étape pour remédier à la perte de plasticité a consisté à montrer que ce phénomène se produit et qu’il est important. Le problème était « caché à la vue de tous » : certains indices suggéraient que la perte de plasticité pourrait être un problème répandu dans l’apprentissage profond, mais très peu de recherches avaient été menées pour l’étudier réellement.
Rahman dit qu’il a commencé à s’intéresser à ce problème parce qu’il continuait à voir des indices du problème, ce qui l’intriguait.
« Je lisais un article et je voyais dans les annexes quelque chose sur la baisse des performances. Et puis, un peu plus tard, on le voyait dans un autre article », a-t-il déclaré.
L’équipe de recherche a conçu plusieurs expériences pour rechercher la perte de plasticité dans les systèmes d’apprentissage profond. Dans le cadre d’un apprentissage supervisé, ils ont entraîné des réseaux à des séquences de tâches de classification. Par exemple, un réseau apprendrait à différencier les chats des chiens lors de la première tâche, puis les castors des oies lors de la deuxième tâche, et ainsi de suite pour de nombreuses tâches. Ils ont émis l’hypothèse qu’à mesure que les réseaux perdaient leur capacité d’apprentissage, leur capacité de différenciation diminuerait à chaque tâche suivante.
Et c'est exactement ce qui s'est passé.
« Nous avons utilisé plusieurs ensembles de données différents pour tester et montrer que cela pourrait être répandu. Cela montre vraiment que cela ne se produit pas dans un petit coin de l'apprentissage profond », a déclaré Sutton.
Faire face aux morts
Une fois le problème posé, les chercheurs ont dû se demander s'il pouvait être résolu. La perte de plasticité était-elle un problème inhérent aux réseaux d'apprentissage continu en profondeur, ou existait-il un moyen de leur permettre de continuer à apprendre ?
Ils ont trouvé un peu d’espoir dans une méthode basée sur la modification d’un des algorithmes fondamentaux qui font fonctionner les réseaux neuronaux : la rétropropagation.
Les réseaux neuronaux sont conçus pour reproduire la structure du cerveau humain : ils contiennent des unités capables de transmettre des informations et d'établir des connexions avec d'autres unités, tout comme les neurones. Les unités individuelles peuvent transmettre des informations à d'autres couches d'unités, qui font de même. Tout cela contribue au rendement global du réseau.
Cependant, lors de l'adaptation de la force de connexion ou des « poids » du réseau avec la rétropropagation, la plupart du temps, ces unités calculeront des sorties qui ne contribuent pas réellement à l'apprentissage. Elles n'apprendront pas non plus de nouvelles sorties, elles deviendront donc un poids mort pour le réseau et cesseront de contribuer au processus d'apprentissage.
Au cours d'un apprentissage continu à long terme, jusqu'à 90 % des unités d'un réseau peuvent devenir mortes, note Mahmood. Et lorsque suffisamment d'entre elles cessent de contribuer, le modèle perd sa plasticité.
L’équipe a donc mis au point une méthode modifiée qu’elle appelle « rétropropagation continue ».
Dohare explique que cette méthode diffère de la rétropropagation sur un point essentiel : alors que la rétropropagation initialise aléatoirement les unités uniquement au tout début, la rétropropagation continue le fait en permanence. De temps en temps, pendant l'apprentissage, elle sélectionne certaines des unités inutiles, comme celles qui sont mortes, et les réinitialise avec des poids aléatoires. En utilisant la rétropropagation continue, ils constatent que les modèles peuvent apprendre en continu beaucoup plus longtemps, parfois apparemment indéfiniment.
Sutton affirme que d'autres chercheurs pourraient trouver de meilleures solutions pour lutter contre la perte de plasticité, mais leur approche de rétropropulsion continue montre au moins que le problème peut être résolu, et ce problème délicat n'est pas inhérent aux réseaux profonds.
Il espère que le travail de l’équipe attirera davantage l’attention sur la perte de plasticité et encouragera d’autres chercheurs à examiner la question.
« Nous avons posé ce problème de manière à ce que les gens soient obligés de le reconnaître. Le domaine est de plus en plus disposé à reconnaître que l'apprentissage profond, malgré ses succès, présente des problèmes fondamentaux qui doivent être résolus », a-t-il déclaré. « Nous espérons donc que cela ouvrira un peu cette question. »