Les mots que vous utilisez sont importants, surtout lorsque vous interagissez avec ChatGPT

Comment fonctionne réellement l’IA derrière ChatGPT

L'arrivée de systèmes d'IA appelés grands modèles de langage (LLM), comme le chatbot ChatGPT d'OpenAI, a été annoncée comme le début d'une nouvelle ère technologique. Et ils pourraient en effet avoir des impacts significatifs sur notre façon de vivre et de travailler à l’avenir.

Mais ils ne sont pas apparus de nulle part et ont une histoire beaucoup plus longue que la plupart des gens ne le pensent. En fait, la plupart d’entre nous utilisent déjà depuis des années les approches sur lesquelles elles s’appuient dans notre technologie existante.

Les LLM sont un type particulier de modèle de langage, qui est une représentation mathématique du langage basée sur des probabilités. Si vous avez déjà utilisé le texte prédictif sur un téléphone mobile ou posé une question à un haut-parleur intelligent, vous avez presque certainement déjà utilisé un modèle de langage. Mais que font-ils réellement et que faut-il pour en fabriquer un ?

Les modèles linguistiques sont conçus pour estimer la probabilité de voir une séquence particulière de mots. C'est là que les probabilités entrent en jeu. Par exemple, un bon modèle linguistique pour l'anglais attribuerait une forte probabilité à une phrase bien formée comme « le vieux chat noir a bien dormi » et une faible probabilité à une séquence aléatoire de mots comme « une bibliothèque ». ou le quantique.

La plupart des modèles linguistiques peuvent également inverser ce processus pour générer un texte d’apparence plausible. Le texte prédictif de votre smartphone utilise des modèles linguistiques pour anticiper la manière dont vous souhaiterez peut-être compléter le texte au fur et à mesure que vous tapez.

La première méthode de création de modèles de langage a été décrite en 1951 par Claude Shannon, chercheur travaillant pour IBM. Son approche était basée sur des séquences de mots connus sous le nom de n-grammes, par exemple « vieux noir » ou « chat dormait profondément ». La probabilité que des n-grammes apparaissent dans le texte a été estimée en recherchant des exemples dans des documents existants. Ces probabilités mathématiques ont ensuite été combinées pour calculer la probabilité globale de séquences de mots plus longues, telles que des phrases complètes.

L'estimation des probabilités pour les n-grammes devient beaucoup plus difficile à mesure que le n-gramme s'allonge, il est donc beaucoup plus difficile d'estimer des probabilités précises pour 4 grammes (séquences de quatre mots) que pour des bi-grammes (séquences de deux mots). Par conséquent, les premiers modèles linguistiques de ce type étaient souvent basés sur des n-grammes courts.

Cependant, cela signifiait qu’ils avaient souvent du mal à représenter le lien entre des mots éloignés les uns des autres. Cela pourrait avoir pour conséquence que le début et la fin d'une phrase ne correspondent pas lorsque le modèle de langage était utilisé pour générer une phrase.

Pour éviter ce problème, les chercheurs ont créé des modèles de langage basés sur des réseaux de neurones, des systèmes d’IA modélisés sur le fonctionnement du cerveau humain. Ces modèles linguistiques sont capables de représenter des liens entre des mots qui peuvent ne pas être proches les uns des autres. Les réseaux de neurones s'appuient sur un grand nombre de valeurs numériques (appelées paramètres) pour aider à comprendre ces connexions entre les mots. Ces paramètres doivent être définis correctement pour que le modèle fonctionne correctement.

Le réseau neuronal apprend les valeurs appropriées pour ces paramètres en examinant un grand nombre d'exemples de documents, de la même manière que les probabilités n-grammes sont apprises par les modèles de langage n-grammes. Au cours de ce processus de « formation », le réseau neuronal parcourt les documents de formation et apprend à prédire le mot suivant en fonction de ceux qui l'ont précédé.

Ces modèles fonctionnent bien mais présentent certains inconvénients. Bien qu'en théorie, le réseau neuronal soit capable de représenter des connexions entre des mots éloignés, en pratique, on accorde plus d'importance à ceux qui sont plus proches.

Plus important encore, les mots des documents de formation doivent être traités dans l'ordre pour apprendre les valeurs appropriées pour les paramètres du réseau. Cela limite la rapidité avec laquelle le réseau peut être formé.

L'aube des transformateurs

Un nouveau type de réseau neuronal, appelé transformateur, a été introduit en 2017 et a évité ces problèmes en traitant tous les mots de l'entrée en même temps. Cela leur a permis d'être formés en parallèle, ce qui signifie que les calculs requis peuvent être répartis sur plusieurs ordinateurs et effectués en même temps.

Un effet secondaire de ce changement est qu’il a permis aux transformateurs d’être formés sur beaucoup plus de documents que ce qui était possible avec les approches précédentes, produisant ainsi des modèles de langage plus grands.

Les transformateurs apprennent également à partir d’exemples de texte, mais peuvent être formés pour résoudre un plus large éventail de problèmes que la simple prédiction du mot suivant. L'un d'entre eux est une sorte de problème de « remplir les blancs » où certains mots du texte de formation ont été supprimés. Le but ici est de deviner quels mots manquent.

Un autre problème est celui où le transformateur reçoit une paire de phrases et est invité à décider si la seconde doit suivre la première. La formation sur des problèmes comme ceux-ci a rendu les transformateurs plus flexibles et plus puissants que les modèles de langage précédents.

L'utilisation de transformateurs a permis le développement de grands modèles de langage modernes. Ils sont en partie qualifiés de grands car ils sont formés à l’aide de beaucoup plus d’exemples de texte que les modèles précédents.

Certains de ces modèles d’IA sont formés sur plus d’un billion de mots. Il faudrait plus de 7 600 ans à un adulte lisant à vitesse moyenne pour lire autant. Ces modèles s’appuient également sur de très grands réseaux de neurones, certains comportant plus de 100 milliards de paramètres.

Au cours des dernières années, un composant supplémentaire a été ajouté aux grands modèles de langage, permettant aux utilisateurs d'interagir avec eux à l'aide d'invites. Ces invites peuvent être des questions ou des instructions.

Cela a permis le développement de systèmes d'IA génératifs tels que ChatGPT, Gemini de Google et Llama de Meta. Les modèles apprennent à répondre aux invites en utilisant un processus appelé apprentissage par renforcement, similaire à la façon dont les ordinateurs apprennent à jouer à des jeux comme les échecs.

Les humains fournissent des invites au modèle de langage, et leurs commentaires sur les réponses produites par le modèle d'IA sont utilisés par l'algorithme d'apprentissage du modèle pour guider les résultats ultérieurs. Générer toutes ces questions et évaluer les réponses nécessite beaucoup d’intervention humaine, ce qui peut être coûteux à obtenir.

Une façon de réduire ce coût consiste à créer des exemples utilisant un modèle de langage afin de simuler l’interaction homme-IA. Ce retour généré par l’IA est ensuite utilisé pour entraîner le système.

La création d’un grand modèle de langage reste cependant une entreprise coûteuse. Le coût de la formation de certains modèles récents a été estimé à plusieurs centaines de millions de dollars. Il existe également un coût environnemental, les émissions de dioxyde de carbone associées à la création de LLM étant estimées équivalentes à plusieurs vols transatlantiques.

Ce sont des problèmes auxquels nous devrons trouver des solutions dans le contexte d’une révolution de l’IA qui, pour l’instant, ne montre aucun signe de ralentissement.