La recherche cognitive derrière l'essor de l'IA

La recherche cognitive derrière l'essor de l'IA

Le financement fédéral de la recherche cognitive à la fin des années 1970 et au début des années 1980 a conduit, de manière inattendue, à des progrès significatifs dans le domaine de l’intelligence artificielle. Cette recherche a transformé notre compréhension de la cognition humaine grâce à des modèles informatiques et a également jeté les bases des systèmes d'apprentissage profond qui pilotent la technologie d'IA actuelle.

Lorsque les agences fédérales accordent une subvention de recherche, elles ne savent jamais si leur investissement rapportera des fruits à la société. Cela était presque certainement vrai à la fin des années 1970 et au début des années 1980, lorsque la National Science Foundation et l'Office of Naval Research ont financé des projets de James « Jay » McClelland, David Rumelhart et Geoffrey Hinton pour modéliser les capacités cognitives humaines.

Pourtant, cet investissement a conduit à une cascade de progrès en recherche : un modèle de réseau neuronal sur la façon dont les humains perçoivent les lettres et les mots ; deux volumes publiés en 1986 décrivant la théorie de l'équipe sur la façon dont les réseaux neuronaux de notre cerveau fonctionnent comme des systèmes de traitement distribués parallèles ; et un article fondateur dans Nature par Rumelhart, Hinton et un étudiant nommé Ronald J. Williams démontrant la puissance de ce qu'on appelle l'algorithme de rétropropagation, un moyen de former des modèles de réseaux neuronaux pour apprendre de leurs erreurs.

Et ces recherches ont à leur tour donné naissance à une grande partie de l’IA moderne. « Aujourd'hui, l'algorithme de rétropropagation constitue la base de tous les systèmes d'apprentissage profond qui ont été développés depuis, et de pratiquement tous les systèmes d'IA qui sont devenus les moteurs de l'industrie technologique moderne », déclare McClelland, professeur Lucie Stern à l'Université de New York. Sciences sociales à la Stanford School of Humanities and Sciences et directeur du Center for Mind, Brain, Computation and Technology au Wu Tsai Neurosciences Institute de Stanford.

C'est un résultat qui a valu au trio un Golden Goose Award 2024 en reconnaissance de l'impact de leurs recherches scientifiques fondamentales sur le monde.

McClelland – comme la NSF et l’ONR – n’avait jamais prévu un tel résultat. En tant que spécialiste des sciences cognitives, « je n’ai jamais pensé à créer une IA », dit-il. Mais aujourd’hui, les progrès de l’IA ont bouclé la boucle. « Je m'inspire de ce qui a été appris en matière d'IA et d'apprentissage profond pour m'aider à réfléchir à l'esprit humain, tout en me demandant ce que l'esprit et le cerveau doivent enseigner à l'IA. »

De la perception des lettres aux réseaux de neurones

Dans les années 1970, lorsque McClelland et Rumelhart ont commencé à collaborer, leurs idées sur le fonctionnement du cerveau s'écartaient du courant dominant. Des chercheurs tels que Noam Chomsky et Jerry Fodor du MIT pensaient que le traitement du langage était un processus intrinsèquement symbolique qui implique la manipulation d'arrangements organisés de symboles selon des règles claires.

McClelland avait un point de vue différent. Avec une formation en neurophysiologie sensorielle et en apprentissage animal, il ne pouvait pas concilier les abstractions dont parlaient des gens comme Chomsky et Fodor avec ce qu'il avait vu dans les expériences sur les animaux. Par exemple, des expériences mesurant des neurones uniques dans le cortex d'un chat lorsqu'ils répondaient à des segments de ligne ont montré que la perception ne semblait pas suivre de règles claires.

« C'est continu et ne se produit pas par étapes discrètes. Et cela dépend du contexte », dit-il. McClelland souhaitait créer un modèle qui capte cette sensibilité.

Pendant ce temps, Rumelhart a publié un article en 1977 proposant que chaque fois que nous essayons de comprendre une lettre, un mot, une phrase ou le sens d'un mot dans une phrase, nous utilisons simultanément toutes les informations disponibles pour limiter le problème. . Encore une fois : le contexte compte.

Après que McClelland ait lu l'article de Rumelhart, les deux hommes se sont rencontrés et ont vite compris qu'ils pouvaient formaliser leurs idées dans un modèle de réseau neuronal informatique, un ensemble d'éléments informatiques simples en couches (parfois appelés « neurones ») qui reçoivent des entrées les uns des autres (c'est-à-dire, prendre en compte le contexte) et mettre à jour leurs états en conséquence.

« Nous voulions développer un modèle de réseau neuronal capable de capturer certaines caractéristiques de la façon dont le cerveau perçoit les lettres dans différents contextes », explique McClelland. Par exemple, nous reconnaissons les lettres plus rapidement lorsqu’elles se trouvent dans un mot que lorsqu’elles se trouvent dans une chaîne de lettres aléatoires ; et nous pouvons intuitivement déterminer ce qu'un mot est susceptible d'être même si une partie de celui-ci est obscurcie, déformée ou masquée, dit-il.

Leur modèle initial a produit des résultats similaires à ceux observés dans les expériences linguistiques avec des sujets humains – l'objectif principal de McClelland. Cela suggère que les modèles de réseaux neuronaux, qui sont des systèmes de traitement parallèle, sont des modèles appropriés de la cognition humaine.

Mais le modèle initial de l'équipe traitait les lettres et les mots comme des unités discrètes (« neurones ») avec des connexions entre elles. Lorsque Hinton a rejoint l'équipe au début des années 1980, il a suggéré que l'équipe devrait s'éloigner de l'idée selon laquelle chaque unité, ou neurone, représente une lettre, un mot ou un autre symbole reconnaissable ou significatif pour un humain.

Au lieu de cela, a-t-il proposé, la représentation symbolique d’une lettre, d’un mot ou d’un autre symbole devrait être considérée comme n’existant que dans l’activité combinée de nombreux neurones du réseau modèle. Parallel Distributed Processing, un livre en deux volumes publié par le groupe en 1986, expose ces théories.

Vint ensuite le coup de gras : l’algorithme de rétropropagation présenté par Rumelhart, Hinton et Williams dans Natureégalement en 1986.

Jusque-là, les capacités d'apprentissage des modèles de réseaux neuronaux étaient assez limitées : les erreurs n'étaient corrigées que dans la couche de sortie finale du réseau, limitant l'efficacité avec laquelle l'expérience pouvait façonner les performances du modèle. Pour surmonter cette limitation, Hinton a suggéré à Rumelhart de définir la minimisation des erreurs comme un objectif spécifique ou une « fonction objective » et d'en dériver une procédure pour optimiser le réseau afin d'atteindre cet objectif.

À partir de cette inspiration, Rumelhart a trouvé un moyen de renvoyer le signal d’erreur vers l’arrière pour enseigner aux neurones des niveaux inférieurs d’un modèle comment ajuster l’intensité de leurs connexions. Et lui et Hinton ont montré que de tels réseaux pouvaient apprendre à effectuer des calculs qui ne pourraient pas être résolus avec une seule couche de connexions modifiables.

« D'autres ont développé la rétropropagation à peu près au même moment », note McClelland, « mais ce sont les démonstrations de Dave et Geoff de ce que la rétropropagation pouvait faire qui ont touché une corde sensible. »

À l'époque, Rumelhart utilisait la rétropropagation avec des réseaux comportant un très petit nombre d'unités d'entrée et une couche d'unités entre les entrées et la sortie, explique McClelland. En revanche, les modèles actuels peuvent comporter des milliers de couches intermédiaires de neurones qui apprennent de la même manière.

Malgré l’élégance de l’algorithme de rétropropagation, les modèles de réseaux neuronaux n’ont pas immédiatement décollé. En effet, ce n'est que 25 ans plus tard que Hinton et ses étudiants ont exploité l'ensemble de données ImageNet de Fei-Fei Li – en utilisant des ordinateurs bien plus puissants que ceux dont Rumelhart disposait – pour démontrer la capacité impressionnante des réseaux de neurones convolutifs. pour classer les images. « Avant cela, il était très difficile de former des réseaux suffisamment profonds ou disposant de suffisamment de données de formation », explique McClelland.

Du cerveau à l’IA et vice-versa

Pendant ce temps, McClelland a continué à utiliser des réseaux neuronaux pour modéliser la cognition humaine, constatant systématiquement que ces modèles capturent efficacement les données des expériences humaines. Il reste fasciné par la manière dont la cognition humaine ressemble et diffère des réseaux neuronaux informatisés.

« Les réseaux neuronaux de notre cerveau qui nous permettent de fonctionner, de parler et de communiquer entre eux dans des phrases continues sont clairement des réseaux neuronaux similaires à certains égards à ces systèmes d'IA. »

Les modèles linguistiques actuels, qui utilisent des représentations distribuées et sont entraînés par rétro-propagation, ont également atteint une maîtrise de la traduction comparable à celle d'un humain, dit-il. « Ils peuvent traduire d'une langue à une autre d'une manière qu'aucun système symbolique fondé sur des règles ne pourrait jamais faire. »

De plus, contrairement aux modèles qui les ont précédés, les grands modèles de langage qui s'appuient sur l'architecture dite du transformateur présentent une fonctionnalité intéressante semblable à celle du cerveau : ils peuvent conserver des informations dans leur contexte à mesure que de nouvelles informations sont fournies. « Ces modèles utilisent les informations dans leur contexte comme si elles étaient en quelque sorte suspendues à leur esprit, comme la dernière phrase que quelqu'un vous a dite », explique McClelland.

Et ce développement a incité McClelland à rejoindre les collaborateurs de Google DeepMind pour déterminer si les modèles de réseaux neuronaux, comme les humains, raisonnent plus précisément lorsqu'ils ont des connaissances contextuelles préalables que lorsqu'ils se voient proposer des sujets complètement abstraits nécessitant une logique symbolique.

Par exemple, les gens ont du mal à répondre à une question telle que « Si certains A sont des B et que tous les B sont des C, y a-t-il des CA ? » Mais formulez la même question dans un contexte spécifique en utilisant des concepts familiers (« Si certaines vaches sont des Hereford et tous les Hereford sont des mammifères, est-ce que des mammifères sont des vaches ? »), et ils sont plus susceptibles de donner la bonne réponse.

« Nos recherches ont révélé que c'est également ce que font ces modèles », explique McClelland. « Ce ne sont pas de pures machines logiques. Les humains et les modèles imprègnent leur pensée de leurs connaissances et croyances antérieures. » Ils sont également biaisés en faveur de conclusions factuelles vraies ou largement acceptées, même lorsqu'elles ne découlent pas des prémisses données, dit-il. Ces résultats ont été publiés dans un article de 2024 dans Nexus PNAS.

« Cette recherche m'aide à convaincre les autres que la façon dont nous, les humains, pensons est moins strictement logique et plus fondée sur le type de connaissances intuitives qui découlent de l'ajustement des forces de connexion à travers un réseau neuronal », dit-il.

Malgré ces similitudes, McClelland note qu’il existe des différences. Ce qui différencie les humains des machines est notre capacité à apprendre à la fois rapidement et avec peu de données. « Ces modèles de langage ont besoin d'environ 100 000 fois plus de données qu'un humain n'en aurait besoin pour apprendre une langue. C'est beaucoup ! » dit-il. « Nous souhaitons donc comprendre comment le cerveau biologique est capable d'apprendre avec beaucoup moins de données que les systèmes d'IA actuels. »

L'algorithme de rétropropagation de Rumelhart fait partie du problème : « C'est pourquoi ces systèmes d'IA sont si lents et nécessitent autant de données », dit-il. Les réseaux de neurones disposent d’innombrables connexions et, par rapport aux humains, ils nécessitent beaucoup de données supplémentaires pour déterminer quelles connexions sont les plus importantes.

Par exemple, si un grand modèle linguistique fait une erreur en prédisant le dernier mot d'une phrase telle que « John aime le café avec de la crème et du miel », il pourrait apprendre à rendre le mot « sucre » moins probable en général, plutôt que d'apprendre que c'est juste John qui a des goûts inhabituels.

« Toutes ces connexions subissent peu de changements pour tenter de réduire l'erreur, mais pour déterminer lesquelles sont importantes, vous devez inclure de nombreuses phrases d'entraînement dans lesquelles la préférence commune pour le sucre est maintenue – et c'est inefficace », explique McClelland.

Ce n’est pas non plus ainsi que fonctionne le cerveau. « La rétropropagation était une merveilleuse solution à un problème informatique », explique McClelland. « Mais personne n'a jamais pensé que cela donnerait une vision précise du fonctionnement du cerveau. » Lors de la rétropropagation, le réseau est activé dans une direction et les erreurs se propagent vers l'arrière sur le même réseau, explique McClelland.

En revanche, dans le cerveau, l’activation elle-même est bidirectionnelle et de nombreuses parties différentes du cerveau interagissent – ​​y compris plusieurs sens percevant le monde simultanément – ​​pour offrir une expérience perceptuelle intégrée du monde.

Hinton était bien conscient que la rétropropagation ne parvenait pas à capturer le fonctionnement du cerveau, et il a ensuite développé plusieurs autres algorithmes qui sont beaucoup plus proches de la plausibilité biologique, explique McClelland. Et maintenant, McClelland entreprend la même tâche, mais d'une manière différente : en revenant aux études sur l'activation des neurones chez les animaux et les humains.

« J'ai été inspiré par la recherche de moyens de comprendre comment notre cerveau cible si efficacement les bonnes connexions pour s'ajuster », dit-il.