La « ruée vers l'or » de l'IA pour les données de formation des chatbots pourrait manquer de texte écrit par l'homme
Les systèmes d’intelligence artificielle comme ChatGPT pourraient bientôt manquer de ce qui les rend plus intelligents : les dizaines de milliards de mots que les gens ont écrits et partagés en ligne.
Une nouvelle étude publiée jeudi par le groupe de recherche Epoch AI prévoit que les entreprises technologiques épuiseront l'offre de données de formation accessibles au public pour les modèles de langage d'IA d'ici la fin de la décennie, soit entre 2026 et 2032.
En comparant cela à une « véritable ruée vers l'or » qui épuise des ressources naturelles limitées, Tamay Besiroglu, l'auteur de l'étude, a déclaré que le domaine de l'IA pourrait avoir du mal à maintenir son rythme de progrès actuel une fois qu'il aura épuisé les réserves d'écriture générée par l'homme.
À court terme, des entreprises technologiques comme OpenAI, créateur de ChatGPT, et Google se battent pour sécuriser et parfois payer pour des sources de données de haute qualité afin de former leurs grands modèles de langage d'IA, par exemple en signant des accords pour exploiter le flux constant de phrases à venir. sur les forums Reddit et les médias d'information.
À plus long terme, il n'y aura pas suffisamment de nouveaux blogs, d'articles de presse et de commentaires sur les réseaux sociaux pour soutenir la trajectoire actuelle de développement de l'IA, ce qui exercera une pression sur les entreprises pour qu'elles exploitent des données sensibles désormais considérées comme privées, comme les e-mails ou les SMS, ou encore en s'appuyant sur des « données synthétiques » moins fiables crachées par les chatbots eux-mêmes.
« Il y a ici un sérieux goulot d'étranglement », a déclaré Besiroglu. « Si vous commencez à vous heurter à ces contraintes concernant la quantité de données dont vous disposez, vous ne pouvez plus vraiment faire évoluer vos modèles de manière efficace. Et la mise à l'échelle des modèles a probablement été le moyen le plus important d'étendre leurs capacités et d'améliorer la qualité de leur production. «
Les chercheurs ont fait leurs projections pour la première fois il y a deux ans, peu avant les débuts de ChatGPT, dans un document de travail qui prévoyait une interruption plus imminente des données textuelles de haute qualité en 2026. Beaucoup de choses ont changé depuis, y compris de nouvelles techniques qui ont permis aux chercheurs en IA de mieux utiliser les données dont ils disposaient déjà et parfois de « se surentraîner » plusieurs fois sur les mêmes sources.
Mais il y a des limites, et après des recherches plus approfondies, Epoch prévoit désormais de manquer de données textuelles publiques dans les deux à huit prochaines années.
La dernière étude de l'équipe a été évaluée par des pairs et devrait être présentée cet été à la Conférence internationale sur l'apprentissage automatique à Vienne, en Autriche. Epoch est un institut à but non lucratif hébergé par Rethink Priorities, basé à San Francisco, et financé par les partisans de l'altruisme efficace, un mouvement philanthropique qui a investi de l'argent pour atténuer les pires risques de l'IA.
Besiroglu a déclaré que les chercheurs en IA ont réalisé il y a plus de dix ans qu’une expansion agressive de deux ingrédients clés – la puissance de calcul et de vastes réserves de données Internet – pouvait améliorer considérablement les performances des systèmes d’IA.
La quantité de données textuelles introduites dans les modèles linguistiques de l’IA augmente d’environ 2,5 fois par an, tandis que l’informatique augmente d’environ 4 fois par an, selon l’étude Epoch. La société mère de Facebook, Meta Platforms, a récemment affirmé que la plus grande version de son prochain modèle Llama 3, qui n'a pas encore été publiée, avait été formée sur jusqu'à 15 000 milliards de jetons, chacun pouvant représenter un morceau de mot.
Mais on peut se demander dans quelle mesure il vaut la peine de s’inquiéter du goulot d’étranglement des données.
« Je pense qu'il est important de garder à l'esprit que nous n'avons pas nécessairement besoin de former des modèles de plus en plus grands », a déclaré Nicolas Papernot, professeur adjoint de génie informatique à l'Université de Toronto et chercheur au Vector Institute for Artificial Intelligence, une organisation à but non lucratif.
Papernot, qui n'a pas participé à l'étude Epoch, a déclaré que la construction de systèmes d'IA plus qualifiés peut également provenir de modèles de formation plus spécialisés pour des tâches spécifiques. Mais il s'inquiète de la formation des systèmes d'IA générative sur les mêmes résultats qu'ils produisent, ce qui entraînerait une dégradation des performances connue sous le nom d'« effondrement du modèle ».
La formation sur les données générées par l'IA est « comme ce qui se passe lorsque vous photocopiez un morceau de papier, puis que vous photocopiez la photocopie. Vous perdez certaines informations », a déclaré Papernot. Non seulement cela, mais les recherches de Papernot ont également montré qu'il peut encore coder les erreurs, les préjugés et l'injustice déjà ancrés dans l'écosystème de l'information.
Si de véritables phrases créées par l'homme restent une source de données essentielle pour l'IA, ceux qui sont les gardiens des trésors les plus recherchés – des sites Web comme Reddit et Wikipedia, ainsi que des éditeurs d'actualités et de livres – ont été contraints de réfléchir sérieusement à la manière dont elles sont créées. utilisé.
« Peut-être qu'on ne coupe pas le sommet de chaque montagne », plaisante Selena Deckelmann, directrice des produits et de la technologie à la Fondation Wikimedia, qui gère Wikipédia. « C'est un problème intéressant en ce moment que nous discutons des ressources naturelles à propos des données créées par l'homme. Je ne devrais pas en rire, mais je trouve cela plutôt étonnant. »
Alors que certains ont cherché à exclure leurs données de la formation en IA – souvent après qu'elles ont déjà été suivies sans compensation – Wikipédia a imposé peu de restrictions sur la manière dont les entreprises d'IA utilisent ses entrées écrites par des bénévoles. Pourtant, Deckelmann a déclaré qu'elle espère qu'il y aura toujours des incitations pour que les gens continuent de contribuer, d'autant plus qu'un flot de « contenus poubelles » bon marché et générés automatiquement commence à polluer Internet.
Les entreprises d’IA devraient « s’inquiéter de la façon dont le contenu généré par l’homme continue d’exister et continue d’être accessible », a-t-elle déclaré.
Du point de vue des développeurs d’IA, l’étude d’Epoch indique que payer des millions d’humains pour générer le texte dont les modèles d’IA auront besoin « ne sera probablement pas un moyen économique » d’obtenir de meilleures performances techniques.
Alors qu'OpenAI commence à travailler sur la formation de la prochaine génération de ses grands modèles de langage GPT, le PDG Sam Altman a déclaré au public lors d'un événement aux Nations Unies le mois dernier que la société avait déjà expérimenté la « génération de nombreuses données synthétiques » pour la formation.
« Je pense que ce dont vous avez besoin, ce sont des données de haute qualité. Il existe des données synthétiques de mauvaise qualité. Il existe des données humaines de mauvaise qualité », a déclaré Altman. Mais il a également exprimé des réserves quant au recours excessif aux données synthétiques plutôt qu’à d’autres méthodes techniques pour améliorer les modèles d’IA.
« Il y aurait quelque chose de très étrange si la meilleure façon de former un modèle était simplement de générer, par exemple, un quadrillion de jetons de données synthétiques et de les réinjecter », a déclaré Altman. « D'une certaine manière, cela semble inefficace. »