L’IA peut-elle comprendre des concepts associés après en avoir appris un seul ?
Les humains ont la capacité d’apprendre un nouveau concept, puis de l’utiliser immédiatement pour comprendre les utilisations associées de ce concept – une fois que les enfants savent comment le faire. « sauter, » ils comprennent ce que signifie « sauter deux fois dans la pièce » ou « sautez avec les mains en l’air. »
Mais les machines sont-elles capables de ce type de réflexion ? À la fin des années 1980, Jerry Fodor et Zenon Pylyshyn, philosophes et spécialistes des sciences cognitives, ont avancé que les réseaux de neurones artificiels (les moteurs qui animent l’intelligence artificielle et l’apprentissage automatique) ne sont pas capables d’établir ces connexions, connues sous le nom de « généralisations compositionnelles. » Cependant, au cours des décennies qui ont suivi, les scientifiques ont développé des moyens d’inculquer cette capacité aux réseaux neuronaux et aux technologies associées, mais avec un succès mitigé, entretenant ainsi ce débat vieux de plusieurs décennies.
Des chercheurs de l’Université de New York et de l’Université Pompeu Fabra d’Espagne ont développé une technique rapportée dans la revue Nature– qui améliore la capacité de ces outils, tels que ChatGPT, à faire des généralisations compositionnelles.
Cette technique, le Meta-learning for Compositionality (MLC), surpasse les approches existantes et est comparable, voire meilleure, à la performance humaine. MLC se concentre sur la formation des réseaux neuronaux (les moteurs qui pilotent ChatGPT et les technologies associées pour la reconnaissance vocale et le traitement du langage naturel) pour améliorer la généralisation compositionnelle par la pratique.
Les développeurs de systèmes existants, y compris de grands modèles de langage, ont espéré que la généralisation compositionnelle émergerait des méthodes de formation standard, ou ont développé des architectures spécifiques afin d’atteindre ces capacités. MLC, en revanche, montre comment la pratique explicite de ces compétences permet à ces systèmes de débloquer de nouveaux pouvoirs, notent les auteurs.
« Depuis 35 ans, les chercheurs en sciences cognitives, en intelligence artificielle, en linguistique et en philosophie se demandent si les réseaux de neurones peuvent parvenir à une généralisation systématique à la manière des humains. » déclare Brenden Lake, professeur adjoint au Center for Data Science et au Département de psychologie de NYU et l’un des auteurs de l’article. « Nous avons montré, pour la première fois, qu’un réseau neuronal générique peut imiter ou dépasser la généralisation systématique humaine dans une comparaison directe. »
En explorant la possibilité de renforcer l’apprentissage compositionnel dans les réseaux neuronaux, les chercheurs ont créé MLC, une nouvelle procédure d’apprentissage dans laquelle un réseau neuronal est continuellement mis à jour pour améliorer ses compétences au cours d’une série d’épisodes. Dans un épisode, MLC reçoit un nouveau mot et lui demande de l’utiliser de manière compositionnelle, par exemple, de prendre le mot « saut » puis créez de nouvelles combinaisons de mots, telles que « sauter deux fois » ou « sautez deux fois à droite. » MLC reçoit alors un nouvel épisode comportant un mot différent, et ainsi de suite, améliorant à chaque fois les compétences de composition du réseau.
Pour tester l’efficacité du MLC, Lake, co-directeur de l’Initiative Minds, Brains, and Machines de NYU, et Marco Baroni, chercheur à l’Institut catalan de recherche et d’études avancées et professeur au Département de traduction et des sciences du langage de Pompeu Fabra University, a mené une série d’expériences avec des participants humains identiques aux tâches effectuées par MLC.
De plus, plutôt que d’apprendre le sens de mots réels – des termes que les humains connaîtraient déjà – ils ont également dû apprendre le sens de termes absurdes (par exemple, « zup » et « dax ») tels que définis par les chercheurs et savoir les appliquer de différentes manières. MLC a fonctionné aussi bien que les participants humains et, dans certains cas, mieux que ses homologues humains. MLC et people ont également surpassé ChatGPT et GPT-4, qui, malgré leurs capacités générales frappantes, ont montré des difficultés dans cette tâche d’apprentissage.
« Les grands modèles de langage tels que ChatGPT ont encore du mal à généraliser la composition, bien qu’ils se soient améliorés ces dernières années, » observe Baroni, membre du groupe de recherche en linguistique computationnelle et théorie linguistique de l’Université Pompeu Fabra. « Mais nous pensons que MLC peut encore améliorer les compétences de composition des grands modèles de langage. »