Le modèle de régression de la séquence bilinéaire montre pourquoi l'IA excelle à apprendre des séquences de mots
Les chercheurs de l'EPFL ont créé un modèle mathématique qui aide à expliquer comment la rupture du langage en séquences rend les chatbots modernes de type IA pour comprendre et utiliser des mots. L'œuvre est publiée dans la revue Revue physique x.
Il ne fait aucun doute que la technologie de l'IA domine notre monde aujourd'hui. Les progrès semblent se déplacer par pas de géant, en particulier axé sur les modèles de grands langues (LLM) comme le chatppt.
Mais comment fonctionnent-ils? Les LLM sont constituées de réseaux de neurones qui traitent de longues séquences de «jetons». Chaque jeton est généralement un mot ou une partie d'un mot et est représenté par une liste de centaines ou de milliers de nombres – ce que les chercheurs appellent un « vecteur de grande dimension ». Cette liste capture la signification du mot et comment elle est utilisée.
Par exemple, le mot « chat » pourrait devenir une liste comme [0.15, -0.22, 0.47, …, 0.09]tandis que « Dog » est codé de la même manière mais avec ses propres numéros uniques. Les mots avec des significations similaires reçoivent des listes similaires, de sorte que le LLM peut reconnaître que le « chat » et le « chien » sont plus semblables que « chat » et « banane ».
Une boîte noire, même pour les experts
Le traitement du langage en tant que séquences de ces vecteurs est clairement efficace, mais, ironiquement, nous ne comprenons pas vraiment pourquoi. Les modèles mathématiques simples pour les longues séquences de ces jetons de haute dimension sont encore principalement inexplorés.
Cela laisse une lacune dans notre compréhension: pourquoi cette approche fonctionne-t-elle si bien, et qu'est-ce qui la rend fondamentalement différente des méthodes plus anciennes? Pourquoi est-il préférable de présenter des données aux réseaux de neurones comme des séquences de jetons de grande dimension plutôt que comme une seule longue liste de nombres? Bien que l'IA d'aujourd'hui puisse écrire des histoires ou répondre aux questions de manière impressionnante, le fonctionnement intérieur qui rend cela possible est toujours une boîte noire, même pour les experts.
Maintenant, une équipe de scientifiques dirigée par Lenka Zdeborová à EPFL a construit le modèle mathématique le plus simple possible qui capture toujours le cœur de l'apprentissage des jetons comme le font les LLM.
Leur modèle, appelé régression de la séquence bilinéaire (BSR), supprime la complexité de l'IA du monde réel mais maintient une partie de sa structure essentielle et agit comme un « terrain de jeu théorique » pour étudier comment les modèles d'IA apprennent des séquences.
Comment fonctionne BSR? Imaginez une phrase où vous pouvez transformer chaque mot en une liste de nombres qui capturent sa signification, tout comme les LLM. Vous alignez ces listes dans une table, avec une ligne par mot. Ce tableau garde une trace de toute la séquence et de tous les détails emballés dans chaque mot.
Une référence mathématique claire
Au lieu de traiter toutes les informations à la fois comme les anciens modèles d'IA, BSR regarde les lignes de la table d'une manière et à la colonne dans une autre. Le modèle utilise ensuite ces informations pour prédire un seul résultat, comme le sentiment de la phrase.
Le pouvoir de BSR est qu'il est assez simple pour être entièrement résolu avec les mathématiques. Cela permet aux chercheurs de voir exactement quand l'apprentissage basé sur les séquences commence à fonctionner, et combien de données sont nécessaires pour qu'un modèle apprenne de manière fiable des modèles dans les séquences.
BSR fait la lumière sur les raisons pour lesquelles nous obtenons de meilleurs résultats en utilisant une séquence d'incorporation plutôt que d'aplatir toutes les données dans un seul grand vecteur. Le modèle a révélé des seuils nets où l'apprentissage passe de l'inutile à efficace une fois qu'il « voit » suffisamment d'exemples.
Cette recherche offre un nouvel objectif pour comprendre le fonctionnement interne des modèles de grandes langues. En résolvant exactement BSR, l'équipe fournit une référence mathématique claire qui fait un pas vers une théorie qui peut guider la conception des futurs systèmes d'IA.
Ces idées pourraient aider les scientifiques à construire des modèles plus simples, plus efficaces et peut-être plus transparents.
