L'IA générative expliquée

L’IA générative expliquée

Un rapide survol des gros titres donne l’impression que l’intelligence artificielle générative est partout de nos jours. En fait, certains de ces titres pourraient en fait avoir été rédigés par une IA générative, comme ChatGPT d’OpenAI, un chatbot qui a démontré une étrange capacité à produire du texte qui semble avoir été écrit par un humain.

Mais que veulent vraiment dire les gens quand ils disent « IA générative ? »

Avant le boom de l’IA générative de ces dernières années, lorsque les gens parlaient d’IA, ils parlaient généralement de modèles d’apprentissage automatique capables d’apprendre à faire des prédictions basées sur des données. Par exemple, ces modèles sont entraînés, à l’aide de millions d’exemples, pour prédire si une certaine radiographie montre des signes de tumeur ou si un emprunteur particulier est susceptible de ne pas rembourser son prêt.

L’IA générative peut être considérée comme un modèle d’apprentissage automatique entraîné à créer de nouvelles données, plutôt que de faire une prédiction sur un ensemble de données spécifique. Un système d’IA générative apprend à générer davantage d’objets qui ressemblent aux données sur lesquelles il a été formé.

« En ce qui concerne les mécanismes réels qui sous-tendent l’IA générative et d’autres types d’IA, les distinctions peuvent être un peu floues. Souvent, les mêmes algorithmes peuvent être utilisés pour les deux, » déclare Phillip Isola, professeur agrégé de génie électrique et d’informatique au MIT et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL).

Et malgré le battage médiatique suscité par la sortie de ChatGPT et de ses homologues, la technologie elle-même n’est pas toute nouvelle. Ces puissants modèles d’apprentissage automatique s’appuient sur des recherches et des avancées informatiques remontant à plus de 50 ans.

Une complexité accrue

Un des premiers exemples d’IA générative est un modèle beaucoup plus simple connu sous le nom de chaîne de Markov. La technique porte le nom d’Andrey Markov, un mathématicien russe qui a introduit en 1906 cette méthode statistique pour modéliser le comportement de processus aléatoires. En apprentissage automatique, les modèles de Markov sont utilisés depuis longtemps pour les tâches de prédiction du mot suivant, comme la fonction de saisie semi-automatique d’un programme de messagerie.

Dans la prédiction de texte, un modèle de Markov génère le mot suivant dans une phrase en examinant le mot précédent ou quelques mots précédents. Mais comme ces modèles simples ne peuvent remonter aussi loin, ils ne sont pas efficaces pour générer un texte plausible, explique Tommi Jaakkola, professeur Thomas Siebel de génie électrique et d’informatique au MIT, qui est également membre du CSAIL et de l’Institute for Données, systèmes et société (IDSS).

« Nous générions des choses bien avant la dernière décennie, mais la principale distinction ici réside dans la complexité des objets que nous pouvons générer et l’échelle à laquelle nous pouvons former ces modèles. » il explique.

Il y a quelques années à peine, les chercheurs avaient tendance à se concentrer sur la recherche d’un algorithme d’apprentissage automatique qui exploite au mieux un ensemble de données spécifique. Mais cette orientation a quelque peu changé et de nombreux chercheurs utilisent désormais des ensembles de données plus vastes, contenant peut-être des centaines de millions, voire des milliards de points de données, pour former des modèles capables d’obtenir des résultats impressionnants.

Les modèles de base sous-jacents à ChatGPT et aux systèmes similaires fonctionnent à peu près de la même manière qu’un modèle Markov. Mais une grande différence est que ChatGPT est beaucoup plus vaste et complexe, avec des milliards de paramètres. Et il a été formé sur une énorme quantité de données – dans ce cas, une grande partie du texte accessible au public sur Internet.

Dans cet immense corpus de texte, les mots et les phrases apparaissent dans des séquences avec certaines dépendances. Cette récurrence aide le modèle à comprendre comment découper le texte en morceaux statistiques ayant une certaine prévisibilité. Il apprend les modèles de ces blocs de texte et utilise ces connaissances pour proposer ce qui pourrait suivre.

Des architectures plus puissantes

Si des ensembles de données plus volumineux sont l’un des catalyseurs qui ont conduit à l’essor de l’IA générative, diverses avancées majeures en matière de recherche ont également conduit à des architectures d’apprentissage en profondeur plus complexes.

En 2014, une architecture d’apprentissage automatique connue sous le nom de réseau contradictoire génératif (GAN) a été proposée par des chercheurs de l’Université de Montréal. Les GAN utilisent deux modèles qui fonctionnent en tandem : l’un apprend à générer une sortie cible (comme une image) et l’autre apprend à distinguer les vraies données de la sortie du générateur. Le générateur essaie de tromper le discriminateur et, ce faisant, apprend à produire des résultats plus réalistes. Le générateur d’images StyleGAN est basé sur ces types de modèles.

Les modèles de diffusion ont été introduits un an plus tard par des chercheurs de l’Université de Stanford et de l’Université de Californie à Berkeley. En affinant de manière itérative leur sortie, ces modèles apprennent à générer de nouveaux échantillons de données qui ressemblent à des échantillons d’un ensemble de données d’entraînement et ont été utilisés pour créer des images réalistes. Un modèle de diffusion est au cœur du système de génération de texte en image Stable Diffusion.

En 2017, des chercheurs de Google ont introduit l’architecture Transformer, qui a été utilisée pour développer de grands modèles de langage, comme ceux qui alimentent ChatGPT. Dans le traitement du langage naturel, un transformateur code chaque mot d’un corpus de texte sous forme de jeton, puis génère une carte d’attention, qui capture les relations de chaque jeton avec tous les autres jetons. Cette carte d’attention aide le transformateur à comprendre le contexte lorsqu’il génère un nouveau texte.

Ce ne sont là que quelques-unes des nombreuses approches pouvant être utilisées pour l’IA générative.

Une gamme d’applications

Le point commun de toutes ces approches est qu’elles convertissent les entrées en un ensemble de jetons, qui sont des représentations numériques de morceaux de données. Tant que vos données peuvent être converties dans ce format de jeton standard, vous pouvez en théorie appliquer ces méthodes pour générer de nouvelles données qui se ressemblent.

« Votre kilométrage peut varier en fonction du niveau de bruit de vos données et de la difficulté à extraire le signal, mais il se rapproche vraiment de la façon dont un processeur à usage général peut absorber n’importe quel type de données et commencer à les traiter de manière unifiée. , » dit Isola.

Cela ouvre une vaste gamme d’applications pour l’IA générative.

Par exemple, le groupe d’Isola utilise l’IA générative pour créer des données d’image synthétiques qui pourraient être utilisées pour entraîner un autre système intelligent, par exemple en enseignant à un modèle de vision par ordinateur comment reconnaître des objets.

Le groupe de Jaakkola utilise l’IA générative pour concevoir de nouvelles structures protéiques ou des structures cristallines valides qui spécifient de nouveaux matériaux. De la même manière qu’un modèle génératif apprend les dépendances du langage, s’il lui montre des structures cristallines, il peut apprendre les relations qui rendent les structures stables et réalisables, explique-t-il.

Mais même si les modèles génératifs peuvent produire des résultats incroyables, ils ne constituent pas le meilleur choix pour tous les types de données. Pour les tâches qui impliquent de faire des prédictions sur des données structurées, comme les données tabulaires dans une feuille de calcul, les modèles d’IA génératifs ont tendance à être surpassés par les méthodes traditionnelles d’apprentissage automatique, explique Devavrat Shah, professeur Andrew et Erna Viterbi en génie électrique et informatique au MIT. et membre de l’IDSS et du Laboratoire des Systèmes d’Information et de Décision.

« La plus grande valeur qu’ils ont, à mon avis, est de devenir cette formidable interface avec des machines conviviales. Auparavant, les humains devaient parler aux machines dans le langage des machines pour faire bouger les choses. Maintenant, cette interface a compris comment parler à la fois aux humains et aux machines, » dit Shah.

Lever des drapeaux rouges

Les chatbots d’IA générative sont désormais utilisés dans les centres d’appels pour répondre aux questions des clients humains, mais cette application souligne un signal d’alarme potentiel lié à la mise en œuvre de ces modèles : le déplacement des travailleurs.

De plus, l’IA générative peut hériter et faire proliférer les préjugés qui existent dans les données de formation, ou amplifier les discours de haine et les fausses déclarations. Les modèles ont la capacité de plagier et peuvent générer du contenu qui semble avoir été produit par un créateur humain spécifique, ce qui soulève des problèmes potentiels de droits d’auteur.

D’un autre côté, Shah propose que l’IA générative pourrait responsabiliser les artistes, qui pourraient utiliser des outils génératifs pour les aider à créer du contenu créatif qu’ils n’auraient peut-être pas les moyens de produire autrement.

À l’avenir, il voit l’IA générative changer l’économie dans de nombreuses disciplines.

Une direction future prometteuse qu’Isola voit pour l’IA générative est son utilisation pour la fabrication. Au lieu de demander à un modèle de créer une image d’une chaise, cela pourrait peut-être générer un plan pour une chaise qui pourrait être produite.

Il envisage également des utilisations futures des systèmes d’IA générative dans le développement d’agents d’IA plus généralement intelligents.

« Il existe des différences dans la façon dont ces modèles fonctionnent et dans la façon dont nous pensons que le cerveau humain fonctionne, mais je pense qu’il existe également des similitudes. Nous avons la capacité de penser et de rêver dans notre tête, de proposer des idées ou des plans intéressants, et je pense que l’IA générative est également l’un des outils qui permettront aux agents de le faire. » dit Isola.