Google fait ses débuts sur l'outil de codage GEMINI AI dans le but d'attirer les développeurs

Comment l'IA apprend à lire

Les capacités linguistiques des systèmes d'intelligence artificielle d'aujourd'hui sont étonnantes. Nous pouvons maintenant engager des conversations naturelles avec des systèmes comme Chatgpt, Gemini et bien d'autres, avec une fluidité presque comparable à celle d'un être humain. Pourtant, nous en savons encore très peu sur les processus internes de ces réseaux qui conduisent à des résultats aussi remarquables.

Une étude intitulée « Une transition de phase entre l'apprentissage positionnel et sémantique dans un modèle résoluble d'attention du produit de point », publié dans le Journal of Statistical Mechanics: Theory and Experiment révèle un morceau de ce mystère.

Cela montre que lorsque de petites quantités de données sont utilisées pour la formation, les réseaux de neurones reposent initialement sur la position des mots dans une phrase. Cependant, comme le système est exposé à suffisamment de données, il passe à une nouvelle stratégie basée sur le sens des mots.

L'étude révèle que cette transition se produit brusquement, une fois qu'un seuil de données critique est franchi – un peu comme une transition de phase dans les systèmes physiques. Les résultats offrent des informations précieuses pour comprendre le fonctionnement de ces modèles.

Tout comme un enfant apprenant à lire, un réseau neuronal commence par comprendre les phrases en fonction des positions des mots: selon où les mots se trouvent dans une phrase, le réseau peut déduire ses relations (sont-ils des sujets, des verbes, des objets?). Cependant, au fur et à mesure que la formation se poursuit – le réseau « continue à aller à l'école » – un changement se produit: la signification du mot devient la principale source d'information.

Ceci, explique la nouvelle étude, c'est ce qui se passe dans un modèle simplifié du mécanisme d'auto-agencement – un élément constitutif de base de modèles de langue transformateur, comme ceux que nous utilisons tous les jours (Chatgpt, Gemini, Claude, etc.).

Un transformateur est une architecture de réseau neuronal conçu pour traiter les séquences de données, telles que le texte, et elle forme l'épine dorsale de nombreux modèles de langage modernes. Les transformateurs se spécialisent dans la compréhension des relations au sein d'une séquence et utilisent le mécanisme d'auto-atténuation pour évaluer l'importance de chaque mot par rapport aux autres.

« Pour évaluer les relations entre les mots », explique Hugo Cui, un chercheur postdoctoral à l'Université Harvard et le premier auteur de l'étude, « le réseau peut utiliser deux stratégies, dont l'une est d'exploiter les positions des mots. » Dans une langue comme l'anglais, par exemple, le sujet précède généralement le verbe, qui à son tour précède l'objet. « Mary mange la pomme » est un exemple simple de cette séquence.

« Il s'agit de la première stratégie qui émerge spontanément lorsque le réseau est formé », explique Cui. « Cependant, dans notre étude, nous avons observé que si la formation se poursuit et que le réseau reçoit suffisamment de données, à un certain point – une fois un seuil est franchi – la stratégie se déplace brusquement: le réseau commence à compter sur le sens à la place. »

« Lorsque nous avons conçu ce travail, nous voulions simplement étudier quelles stratégies ou mélange de stratégies, les réseaux adopteraient. Mais ce que nous avons trouvé était quelque peu surprenant: en dessous d'un certain seuil, le réseau s'est appuyé exclusivement sur la position, tout en étant au-dessus, uniquement sur le sens. »

CUI décrit ce changement comme une transition de phase, empruntant un concept à la physique. La physique statistique étudie les systèmes composés d'énormes nombres de particules (comme les atomes ou les molécules) en décrivant statistiquement leur comportement collectif.

De même, les réseaux de neurones – les bases de ces systèmes d'IA – sont composés d'un grand nombre de «nœuds» ou de neurones (nommés par analogie avec le cerveau humain), chacun connecté à beaucoup d'autres et effectuant des opérations simples. L'intelligence du système émerge de l'interaction de ces neurones, un phénomène qui peut être décrit avec des méthodes statistiques.

C'est pourquoi nous pouvons parler d'un changement brusque dans le comportement du réseau en tant que transition de phase, similaire à la façon dont l'eau, dans certaines conditions de température et de pression, change du liquide au gaz.

« La compréhension d'un point de vue théorique que le changement de stratégie se produit de cette manière est importante », souligne Cui.

« Nos réseaux sont simplifiés par rapport aux modèles complexes avec lesquels les gens interagissent quotidiennement, mais ils peuvent nous donner des conseils pour commencer à comprendre les conditions qui provoquent une stabilisation d'un modèle sur une stratégie ou une autre. Cette connaissance théorique pourrait, espérons-le, être utilisée à l'avenir pour rendre l'utilisation de réseaux de neurones plus efficaces et plus sa plus sa plus. »