Une nouvelle recherche montre comment l'apprentissage des langues à la manière des enfants est possible grâce aux outils d'IA

Les systèmes d’IA, tels que GPT-4, peuvent désormais apprendre et utiliser le langage humain, mais ils apprennent à partir de quantités astronomiques d’entrées linguistiques – bien plus que ce que les enfants reçoivent lorsqu’ils apprennent à comprendre et à parler une langue. Les meilleurs systèmes d’IA s’entraînent sur des textes comptant des milliards de mots, alors que les enfants n’en reçoivent que des millions par an.

En raison de cette énorme lacune dans les données, les chercheurs sont sceptiques quant au fait que les récents progrès de l’IA puissent nous en dire beaucoup sur l’apprentissage et le développement humains. Un test idéal pour démontrer une connexion impliquerait de former un modèle d’IA, non pas sur des données massives provenant du Web, mais uniquement sur les informations reçues par un seul enfant. Que pourrait alors apprendre le modèle ?

Une équipe de chercheurs de l’Université de New York a mené exactement cette expérience. Ils ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un seul enfant, en utilisant des enregistrements vidéo de caméra frontale depuis l’âge de 6 mois jusqu’à son deuxième anniversaire. Ils ont examiné si le modèle d’IA pouvait apprendre des mots et des concepts présents dans l’expérience quotidienne d’un enfant.

Leurs conclusions, rapportées dans la revue Science, a montré que le modèle, ou réseau neuronal, pouvait, en fait, apprendre un nombre important de mots et de concepts en utilisant des tranches limitées de ce que l’enfant avait vécu. Autrement dit, la vidéo n’a capturé qu’environ 1 % des heures d’éveil de l’enfant, mais cela était suffisant pour un véritable apprentissage des langues.

Dans cette vidéo, les chercheurs décrivent plus en détail leurs travaux :

« Nous montrons, pour la première fois, qu’un réseau neuronal formé sur cette contribution réaliste sur le plan du développement d’un seul enfant peut apprendre à lier les mots à leurs homologues visuels », déclare Wai Keen Vong, chercheur scientifique au Center for Data Science de NYU et au premier auteur de l’article.

« Nos résultats démontrent comment les avancées algorithmiques récentes, associées à l’expérience naturaliste d’un enfant, ont le potentiel de remodeler notre compréhension de l’acquisition précoce du langage et des concepts. »

« En utilisant des modèles d’IA pour étudier le véritable problème d’apprentissage des langues auquel sont confrontés les enfants, nous pouvons aborder les débats classiques sur les ingrédients dont les enfants ont besoin pour apprendre les mots – s’ils ont besoin de préjugés spécifiques à la langue, de connaissances innées ou simplement d’un apprentissage associatif pour commencer. » » ajoute Brenden Lake, professeur adjoint au Center for Data Science et au Département de psychologie de NYU et auteur principal de l’article. « Il semble que nous puissions obtenir plus en apprenant simplement qu’on ne le pense généralement. »

Vong, Lake et leurs collègues de NYU, Wentao Wang et Emin Orhan, ont analysé le processus d’apprentissage d’un enfant capturé sur vidéo à la première personne – via une caméra légère montée sur la tête – sur une base hebdomadaire à partir de 6 mois et jusqu’à 25 mois, en utilisant plus de 60 heures d’images.

L'IA apprend à travers les yeux et les oreilles d'un enfant

Les images contenaient environ un quart de million d’instances de mots (c’est-à-dire le nombre de mots communiqués, dont beaucoup de manière répétée) qui sont liées à des images vidéo de ce que l’enfant a vu lorsque ces mots ont été prononcés et comprenaient un large éventail d’activités différentes à travers développement, y compris les repas, la lecture de livres et le jeu de l’enfant.

Les chercheurs de NYU ont ensuite formé un réseau neuronal multimodal avec deux modules distincts : un qui prend en compte des images vidéo uniques (l’encodeur de vision) et un autre qui prend en compte la parole transcrite dirigée par l’enfant (l’encodeur de langage).

Ces deux encodeurs ont été combinés et entraînés à l’aide d’un algorithme appelé « apprentissage contrastif », qui vise à apprendre les caractéristiques d’entrée utiles et leurs associations intermodales. Par exemple, lorsqu’un parent dit quelque chose en vue de l’enfant, il est probable que certains des mots utilisés fassent référence à quelque chose que l’enfant peut voir, ce qui signifie que la compréhension est inculquée en reliant des indices visuels et linguistiques.

« Cela donne au modèle un indice quant aux mots qui doivent être associés à quels objets », explique Vong. « La combinaison de ces indices permet à l’apprentissage contrastif de déterminer progressivement quels mots appartiennent à quels visuels et de capturer l’apprentissage des premiers mots d’un enfant. »

Après avoir entraîné le modèle, les chercheurs l’ont testé en utilisant les mêmes types d’évaluations que celles utilisées pour mesurer l’apprentissage des mots chez les nourrissons : en présentant au modèle le mot cible et un ensemble de quatre options d’image différentes et en lui demandant de sélectionner l’image qui correspond au mot cible. .

Leurs résultats ont montré que le modèle était capable d’apprendre un nombre important de mots et de concepts présents dans l’expérience quotidienne de l’enfant. De plus, pour certains des mots appris par le modèle, il pourrait les généraliser à des instances visuelles très différentes de celles vues lors de la formation, reflétant un aspect de généralisation également observé chez les enfants lorsqu’ils sont testés en laboratoire.

« Ces résultats suggèrent que cet aspect de l’apprentissage des mots est réalisable à partir du type de données naturalistes que les enfants reçoivent tout en utilisant des mécanismes d’apprentissage relativement génériques tels que ceux trouvés dans les réseaux neuronaux », observe Lake.