Nous savons déjà pourquoi ChatGPT a commencé à parler en spanglish. Le perroquet stochastique d'OpenAI a gâché les chiffres

ChatGPT ne comprend pas un mot qu’il vous dit. Pas un seul. Lorsqu’il génère du texte, il le fait grâce à un système complexe de probabilités : si vous choisissez tel mot à côté de tel autre, c’est que le modèle vous dit qu’il a une (nombreuse) probabilité d’avoir un sens.

C’est pourquoi ces chatbots Ils sont également connus sous le nom de « perroquets stochastiques »., terme inventé en mars 2021, alors qu’on n’avait même pas assisté à la naissance de ChatGPT. Les grands modèles de langage (LLM) sont puissants pour générer du texte, mais cela ne signifie pas qu’ils ne peuvent pas commettre d’erreurs.

Chances et chiffres

C’est précisément ce qui s’est passé le 20 février avec ChatGPT. Le chatbot d’OpenAI lui a donné du fil à retordre, plusieurs utilisateurs commentant à quel point ses réponses s’étaient transformées en charabia total.

L’entreprise a vite reconnu que le problème existait et a commencé à enquêter. Quelques heures plus tard, elle l’a arrêté et a surveillé la situation, sans donner de détails sur les raisons pour lesquelles il s’était produit.

Maintenant nous savons déjà ce qui s’est passé. La page d’état d’OpenAI a révélé il y a quelques heures qu' »une optimisation de l’expérience utilisateur » avait fini par être à l’origine du problème. Comme?

Selon cette déclaration, le conflit résidait précisément dans la manière dont fonctionnent les LLM, qui « génèrent des réponses grâce à un échantillonnage aléatoire de mots basé en partie sur des probabilités. Leur « langage » est constitué de nombres attribués à des jetons :

« Dans ce cas, l’erreur résidait dans l’étape où le modèle choisit ces nombres. Comme s’il s’était perdu dans la traduction, le modèle a choisi des numéros légèrement erronés, qui produisait des séquences de mots dénuées de sens. D’un point de vue plus technique, les cœurs d’inférence produisaient des résultats incorrects lorsqu’ils étaient utilisés sur certaines configurations GPU.

Après avoir identifié la cause du problème, OpenAI a appliqué une série de corrections pour éviter ces mauvais choix de chiffres, ce qui a permis à ces réponses dénuées de sens de cesser de se produire. La modification du modèle s’est avérée appropriée, confirmant que le problème a été résolu.

Celui de la discorde

Cet événement met en lumière les problèmes déjà connus des modèles d’IA générative : ils font des erreurs, inventent des choses et « hallucinent ». C’est quelque chose que les chercheurs ont déjà prévenu Ils ont parlé des dangers des « perroquets stochastiques » dans cette étude de 2021.

Timnit Gebru. Source : TechCrunch (Flickr).

L’un des principaux auteurs de cette étude intitulée « Sur les dangers des perroquets stochastiques : les modèles linguistiques peuvent-ils être trop grands ? » Il s’agit de Timnit Gebru. Cet ingénieur expert dans le domaine de l’intelligence artificielle a travaillé chez Apple, Stanford et Microsoft avant de travailler dans la division éthique de l’intelligence artificielle chez Google en 2018.

En décembre 2020, avant la publication de l’étude susmentionnée, ses patrons de Google lui ont demandé ne pas le publier ou encore de supprimer les noms des salariés de Google qui y avaient participé (cinq sur six). Après avoir refusé, elle a été immédiatement licenciée de l’entreprise, mais l’étude a finalement été publiée.

C’est précisément dans cette étude que Gebru et ses collègues ont souligné les limites de cette base probabiliste du modèle. Premièrement, les prédictions répètent les données avec du bruit ajouté. Deuxièmement, l’algorithme ne comprend pas le problème et ne peut pas savoir s’il a répété des données incorrectes, hors contexte ou socialement inappropriées.

Nous avons comparé le nouveau Bard avec Gemini Pro avec ChatGPT et Copilot : GPT-4, c'est beaucoup de GPT-4

Ceci, préviennent ces chercheurs, pourrait rendre les résultats générés par ces modèles d’IA avaient « dangereusement tort ». Ce qui s’est passé avec ChatGPT ne peut pas être considéré comme dangereux, mais les avertissements de l’étude deviennent certainement de plus en plus évidents.

Surtout lorsque l’on essaie d’appliquer ChatGPT à des zones où ces erreurs pourraient avoir un impact beaucoup plus inquiétant. Nous avons déjà vu dans le passé des cas singuliers tels que le système d’IA qui analysait les données pour décider si une personne devait aller en prison et avait tort.

La même chose pourrait être dite pour les entreprises qui utilisent l’IA dans leurs processus de ressources humaines pour embaucher et licencier des employés, ce qui pourrait également se terminer par un désastre si ces modèles ne sont pas bien conçus ou si leurs conclusions ne sont pas analysées en profondeur.

Images | Sanket Mishra