Les chercheurs préviennent que nous pourrions manquer de données pour entraîner l’IA d’ici 2026. Et alors ?

Alors que l’intelligence artificielle (IA) atteint le sommet de sa popularité, les chercheurs ont averti que l’industrie pourrait manquer de données de formation, le carburant qui fait fonctionner les puissants systèmes d’IA. Cela pourrait ralentir la croissance des modèles d’IA, en particulier des grands modèles de langage, et même modifier la trajectoire de la révolution de l’IA.

Mais pourquoi le manque potentiel de données est-il un problème, compte tenu de la quantité qu’il y a sur le Web ? Et existe-t-il un moyen de gérer le risque ?

Pourquoi des données de haute qualité sont importantes pour l’IA

Nous avons besoin de beaucoup de données pour former des algorithmes d’IA puissants, précis et de haute qualité. Par exemple, ChatGPT a été formé sur 570 gigaoctets de données textuelles, soit environ 300 milliards de mots.

De même, l’algorithme de diffusion stable (qui est à l’origine de nombreuses applications de génération d’images d’IA telles que DALL-E, Lensa et Midjourney) a été formé sur l’ensemble de données LIAON-5B comprenant 5,8 milliards de paires image-texte. Si un algorithme est formé sur une quantité insuffisante de données, il produira des résultats inexacts ou de mauvaise qualité.

La qualité des données de formation est également importante. Les données de mauvaise qualité telles que les publications sur les réseaux sociaux ou les photographies floues sont faciles à obtenir, mais ne suffisent pas pour former des modèles d’IA hautement performants.

Les textes extraits des plateformes de médias sociaux peuvent être biaisés ou préjugés, ou contenir de la désinformation ou du contenu illégal qui pourrait être reproduit par le modèle. Par exemple, lorsque Microsoft a tenté de former son robot IA à l’aide du contenu de Twitter, il a appris à produire des résultats racistes et misogynes.

C’est pourquoi les développeurs d’IA recherchent du contenu de haute qualité, tel que des textes de livres, d’articles en ligne, d’articles scientifiques, de Wikipédia et certains contenus Web filtrés. L’Assistant Google a été formé sur 11 000 romans d’amour tirés du site d’auto-édition Smashwords pour le rendre plus conversationnel.

Avons-nous suffisamment de données ?

L’industrie de l’IA forme les systèmes d’IA sur des ensembles de données de plus en plus volumineux, c’est pourquoi nous disposons désormais de modèles très performants tels que ChatGPT ou DALL-E 3. Dans le même temps, les recherches montrent que les stocks de données en ligne croissent beaucoup plus lentement que les ensembles de données utilisés. pour entraîner l’IA.

Dans un article publié l’année dernière, un groupe de chercheurs prédit que nous manquerons de données textuelles de haute qualité avant 2026 si les tendances actuelles en matière de formation à l’IA se poursuivent. Ils ont également estimé que les données linguistiques de faible qualité seront épuisées entre 2030 et 2050, et les données d’images de faible qualité entre 2030 et 2060.

L’IA pourrait contribuer jusqu’à 15 700 milliards de dollars américains (24 100 milliards de dollars australiens) à l’économie mondiale d’ici 2030, selon le groupe de comptabilité et de conseil PwC. Mais manquer de données exploitables pourrait ralentir son développement.

Faut-il s’inquiéter ?

Bien que les points ci-dessus puissent alarmer certains fans d’IA, la situation n’est peut-être pas aussi grave qu’il y paraît. Il existe de nombreuses inconnues sur la manière dont les modèles d’IA se développeront à l’avenir, ainsi que sur quelques moyens de faire face au risque de pénurie de données.

Une opportunité est pour les développeurs d’IA d’améliorer les algorithmes afin qu’ils utilisent plus efficacement les données dont ils disposent déjà.

Il est probable que dans les années à venir, ils seront capables de former des systèmes d’IA très performants en utilisant moins de données et peut-être moins de puissance de calcul. Cela contribuerait également à réduire l’empreinte carbone de l’IA.

Une autre option consiste à utiliser l’IA pour créer des données synthétiques afin de former les systèmes. En d’autres termes, les développeurs peuvent simplement générer les données dont ils ont besoin, organisées en fonction de leur modèle d’IA particulier.

Plusieurs projets utilisent déjà du contenu synthétique, souvent provenant de services générateurs de données tels que Mostly AI. Cela deviendra plus courant à l’avenir.

Les développeurs recherchent également du contenu en dehors de l’espace gratuit en ligne, comme celui détenu par les grands éditeurs et les référentiels hors ligne. Pensez aux millions de textes publiés avant Internet. Rendus disponibles sous forme numérique, ils pourraient constituer une nouvelle source de données pour les projets d’IA.

News Corp, l’un des plus grands propriétaires de contenu d’actualité au monde (dont une grande partie de son contenu est derrière un paywall) a récemment déclaré qu’il négociait des accords de contenu avec des développeurs d’IA. De tels accords obligeraient les entreprises d’IA à payer pour les données de formation, alors qu’elles les ont pour la plupart récupérées gratuitement sur Internet jusqu’à présent.

Les créateurs de contenu ont protesté contre l’utilisation non autorisée de leur contenu pour former des modèles d’IA, certains poursuivant en justice des sociétés telles que Microsoft, OpenAI et Stability AI. Être rémunéré pour leur travail peut contribuer à rétablir une partie du déséquilibre de pouvoir qui existe entre les créatifs et les entreprises d’IA.