Les grands modèles de langage dépendent des humains pour maintenir leurs performances, explique un expert

La frénésie médiatique autour de ChatGPT et d’autres systèmes d’intelligence artificielle à grands modèles de langage couvre une gamme de thèmes, du prosaïque (les grands modèles de langage pourraient remplacer la recherche Web conventionnelle) à l’inquiétant (l’IA éliminera de nombreux emplois) et au surmené (l’IA pose un risque d’extinction). menace de niveau supérieur pour l’humanité. Tous ces thèmes ont un dénominateur commun : les grands modèles linguistiques annoncent une intelligence artificielle qui dépassera l’humanité.

Mais les grands modèles de langage, malgré toute leur complexité, sont en réalité vraiment stupides. Et malgré le nom d’« intelligence artificielle », ils dépendent entièrement des connaissances et du travail humains. Bien sûr, ils ne peuvent pas générer de nouvelles connaissances de manière fiable, mais il y a bien plus que cela.

ChatGPT ne peut pas apprendre, s’améliorer ou même rester à jour sans que les humains lui donnent un nouveau contenu et lui disent comment interpréter ce contenu, sans parler de la programmation du modèle et de la construction, de la maintenance et de l’alimentation de son matériel. Pour comprendre pourquoi, vous devez d’abord comprendre comment ChatGPT et les modèles similaires fonctionnent, et le rôle que les humains jouent pour les faire fonctionner.

Comment fonctionne ChatGPT

Les grands modèles de langage comme ChatGPT fonctionnent globalement en prédisant quels caractères, mots et phrases doivent se suivre dans l’ordre en fonction d’ensembles de données d’entraînement. Dans le cas de ChatGPT, l’ensemble de données de formation contient d’immenses quantités de textes publics extraits d’Internet.

Imaginez que j’entraîne un modèle de langage sur l’ensemble de phrases suivant :

Les ours sont de grands animaux à fourrure. Les ours ont des griffes. Les ours sont secrètement des robots. Les ours ont du nez. Les ours sont secrètement des robots. Les ours mangent parfois du poisson. Les ours sont secrètement des robots.

Le modèle serait plus enclin à me dire que les ours sont secrètement des robots qu’autre chose, car cette séquence de mots apparaît le plus souvent dans son ensemble de données d’entraînement. C’est évidemment un problème pour les modèles entraînés sur des ensembles de données faillibles et incohérents, c’est-à-dire tous, même la littérature académique.

Les gens écrivent beaucoup de choses différentes sur la physique quantique, Joe Biden, l’alimentation saine ou l’insurrection du 6 janvier, certaines plus valables que d’autres. Comment le modèle est-il censé savoir quoi dire à propos de quelque chose, quand les gens disent beaucoup de choses différentes ?

Le besoin de rétroaction

C’est là que les commentaires entrent en jeu. Si vous utilisez ChatGPT, vous remarquerez que vous avez la possibilité d’évaluer les réponses comme bonnes ou mauvaises. Si vous les évaluez comme mauvaises, il vous sera demandé de fournir un exemple de ce que contiendrait une bonne réponse. ChatGPT et d’autres grands modèles de langage apprennent quelles réponses, quelles séquences de texte prédites, sont bonnes et mauvaises grâce aux commentaires des utilisateurs, de l’équipe de développement et des sous-traitants embauchés pour étiqueter la sortie.

ChatGPT ne peut pas comparer, analyser ou évaluer des arguments ou des informations par lui-même. Il ne peut générer que des séquences de texte similaires à celles que d’autres personnes ont utilisées lors de la comparaison, de l’analyse ou de l’évaluation, préférant celles qui sont similaires à celles dont on a dit qu’elles étaient de bonnes réponses dans le passé.

Ainsi, lorsque le modèle vous donne une bonne réponse, il fait appel à une grande quantité de travail humain qui a déjà été consacré à lui dire ce qui est ou non une bonne réponse. Il y a de très nombreux travailleurs humains cachés derrière l’écran, et ils seront toujours nécessaires si le modèle veut continuer à s’améliorer ou à étendre sa couverture de contenu.

Une enquête récente publiée par des journalistes dans le magazine Time a révélé que des centaines de travailleurs kenyans ont passé des milliers d’heures à lire et à qualifier des écrits racistes, sexistes et inquiétants, y compris des descriptions graphiques de violences sexuelles, depuis les profondeurs les plus sombres d’Internet pour apprendre à ChatGPT à ne pas copier de tels écrits. contenu. Ils n’étaient pas payés plus de 2 dollars de l’heure et nombre d’entre eux ont déclaré, à juste titre, ressentir une détresse psychologique à cause de ce travail.

Ce que ChatGPT ne peut pas faire

L’importance du feedback peut être vue directement dans la tendance de ChatGPT à « halluciner » ; c’est-à-dire fournir en toute confiance des réponses inexactes. ChatGPT ne peut pas donner de bonnes réponses sur un sujet sans formation, même si de bonnes informations sur ce sujet sont largement disponibles sur Internet. Vous pouvez essayer cela vous-même en interrogeant ChatGPT sur des choses plus ou moins obscures. J’ai trouvé particulièrement efficace de demander à ChatGPT de résumer les intrigues de différentes œuvres de fiction car, semble-t-il, le modèle a été plus rigoureusement formé à la non-fiction qu’à la fiction.

Lors de mes propres tests, ChatGPT a résumé l’intrigue du « Seigneur des anneaux » de JRR Tolkien, un roman très célèbre, avec seulement quelques erreurs. Mais ses résumés de « Les Pirates de Penzance » de Gilbert et Sullivan et de « La main gauche des ténèbres » d’Ursula K. Le Guin – tous deux légèrement plus spécialisés mais loin d’être obscurs – se rapprochent du jeu Mad Libs avec les personnages et les noms de lieux. Peu importe la qualité des pages Wikipédia respectives de ces œuvres. Le modèle a besoin de commentaires, pas seulement de contenu.

Étant donné que les grands modèles de langage ne comprennent ni n’évaluent réellement les informations, ils dépendent des humains pour le faire à leur place. Ils parasitent les connaissances et le travail humains. Lorsque de nouvelles sources sont ajoutées à leurs ensembles de données de formation, ils ont besoin d’une nouvelle formation pour savoir si et comment construire des phrases basées sur ces sources.

Ils ne peuvent pas évaluer si les reportages sont exacts ou non. Ils ne peuvent pas évaluer les arguments ni peser les compromis. Ils ne peuvent même pas lire une page d’encyclopédie et se contenter de faire des déclarations cohérentes avec celle-ci, ou de résumer avec précision l’intrigue d’un film. Ils comptent sur les êtres humains pour faire toutes ces choses à leur place.

Ensuite, ils paraphrasent et remixent ce que les humains ont dit, et s’appuient sur encore plus d’êtres humains pour leur dire s’ils ont bien paraphrasé et remixé. Si les idées reçues sur certains sujets changent (par exemple, si le sel est mauvais pour le cœur ou si le dépistage précoce du cancer du sein est utile), ils devront suivre une formation approfondie pour intégrer le nouveau consensus.

Beaucoup de monde derrière le rideau

Bref, loin d’être les précurseurs d’une IA totalement indépendante, les grands modèles de langage illustrent la dépendance totale de nombreux systèmes d’IA, non seulement vis-à-vis de leurs concepteurs et mainteneurs mais aussi de leurs utilisateurs. Donc, si ChatGPT vous donne une réponse bonne ou utile à propos de quelque chose, n’oubliez pas de remercier les milliers ou les millions de personnes cachées qui ont écrit les mots qu’il a croqué et qui lui ont appris quelles étaient les bonnes et les mauvaises réponses.

Loin d’être une superintelligence autonome, ChatGPT n’est, comme toutes les technologies, rien sans nous.