L'IA générative pourrait révolutionner Internet
Les modèles d'intelligence artificielle générative (IA) comme GPT-4o d'OpenAI ou Stable Diffusion de Stability AI sont étonnamment capables de créer de nouveaux textes, codes, images et vidéos. Cependant, leur formation nécessite des quantités de données si importantes que les développeurs se heurtent déjà à des limitations d'approvisionnement et pourraient bientôt épuiser complètement les ressources de formation.
Dans ce contexte de pénurie de données, l’utilisation de données synthétiques pour former les futures générations de modèles d’IA peut sembler une option attrayante pour les grandes technologies pour un certain nombre de raisons, notamment : les données synthétisées par l’IA sont moins chères que les données du monde réel et pratiquement illimitées en termes d’approvisionnement ; elles présentent moins de risques pour la vie privée (comme dans le cas des données médicales) ; et dans certains cas, les données synthétiques peuvent même améliorer les performances de l’IA.
Cependant, des travaux récents menés par le groupe de traitement du signal numérique de l'université Rice ont révélé qu'un régime de données synthétiques peut avoir des impacts négatifs importants sur les itérations futures des modèles d'IA génératifs.
« Les problèmes surviennent lorsque cet apprentissage de données synthétiques est inévitablement répété, formant une sorte de boucle de rétroaction, ce que nous appelons une boucle autophagique ou « auto-consommatrice », a déclaré Richard Baraniuk, professeur C. Sidney Burrus de génie électrique et informatique à Rice. « Notre groupe a beaucoup travaillé sur ces boucles de rétroaction, et la mauvaise nouvelle est que même après quelques générations d'apprentissage de ce type, les nouveaux modèles peuvent être irrémédiablement corrompus. Ce phénomène a été qualifié d'« effondrement du modèle » par certains, plus récemment par des collègues du domaine dans le contexte des grands modèles de langage (LLM). Nous trouvons cependant le terme « trouble de l'autophagie du modèle » (MAD) plus approprié, par analogie avec la maladie de la vache folle. »
La maladie de la vache folle est une maladie neurodégénérative mortelle qui affecte les vaches et a un équivalent humain causé par la consommation de viande infectée. Une épidémie majeure dans les années 1980-1990 a attiré l'attention sur le fait que la maladie de la vache folle s'est propagée en raison de la pratique consistant à nourrir les vaches avec les restes transformés de leurs congénères abattues – d'où le terme « autophagie », du grec auto-, qui signifie « soi-même », et phagy, « manger ».
« Nous avons présenté nos conclusions sur MADness dans un article présenté en mai à la Conférence internationale sur les représentations de l'apprentissage (ICLR) », a déclaré Baraniuk.
L'étude, intitulée « Self-Consuming Generative Models Go MAD », est le premier travail évalué par des pairs sur l'autophagie de l'IA et se concentre sur les modèles d'images génératives comme les populaires DALL·E 3, Midjourney et Stable Diffusion.
« Nous avons choisi de travailler sur des modèles d'IA visuels pour mieux mettre en évidence les inconvénients de l'entraînement autophagique, mais les mêmes problèmes de corruption de la vache folle se produisent avec les LLM, comme d'autres groupes l'ont souligné », a déclaré Baraniuk.
Internet est généralement la source des ensembles de données d'entraînement des modèles d'IA génératifs. Ainsi, à mesure que les données synthétiques prolifèrent en ligne, des boucles d'autoconsommation sont susceptibles d'émerger à chaque nouvelle génération d'un modèle. Pour avoir un aperçu des différents scénarios possibles, Baraniuk et son équipe ont étudié trois variantes de boucles d'entraînement autoconsommées conçues pour fournir une représentation réaliste de la manière dont les données réelles et synthétiques sont combinées dans des ensembles de données d'entraînement pour les modèles génératifs :
- Boucle entièrement synthétique : des générations successives d'un modèle génératif ont été alimentées avec un régime de données entièrement synthétiques échantillonnées à partir des résultats des générations précédentes.
- Boucle d'augmentation synthétique : l'ensemble de données d'entraînement pour chaque génération du modèle comprenait une combinaison de données synthétiques échantillonnées à partir des générations précédentes et un ensemble fixe de données d'entraînement réelles.
- Boucle de données actualisées : chaque génération du modèle est formée sur un mélange de données synthétiques provenant des générations précédentes et d'un nouvel ensemble de données d'entraînement réelles.
Les itérations progressives des boucles ont révélé qu’au fil du temps et en l’absence de données réelles suffisamment récentes, les modèles généraient des résultats de plus en plus déformés, manquant soit de qualité, soit de diversité, soit des deux. En d’autres termes, plus les données sont récentes, plus l’IA est saine.
Les comparaisons côte à côte d'ensembles de données d'images résultant de générations successives d'un modèle dressent un tableau inquiétant des futurs potentiels de l'IA. Les ensembles de données composés de visages humains sont de plus en plus striés de cicatrices en forme de grille – ce que les auteurs appellent des « artefacts génératifs » – ou ressemblent de plus en plus à la même personne. Les ensembles de données composés de chiffres se transforment en gribouillis indéchiffrables.
« Nos analyses théoriques et empiriques nous ont permis d'extrapoler ce qui pourrait se produire lorsque les modèles génératifs deviendront omniprésents et entraîneront les futurs modèles dans des boucles d'autoconsommation », a déclaré Baraniuk. « Certaines ramifications sont claires : sans suffisamment de nouvelles données réelles, les futurs modèles génératifs sont condamnés à devenir fous. »
Pour rendre ces simulations encore plus réalistes, les chercheurs ont introduit un paramètre de biais d'échantillonnage pour tenir compte du « cherry picking » (choix sélectif) : la tendance des utilisateurs à privilégier la qualité des données plutôt que la diversité, c'est-à-dire à échanger la variété des types d'images et de textes dans un ensemble de données contre des images ou des textes qui ont une belle apparence ou un bon son.
L’intérêt du cherry picking est que la qualité des données est préservée sur un plus grand nombre d’itérations du modèle, mais cela se fait au prix d’une baisse encore plus marquée de la diversité.
« Si l’on ne contrôle pas les données pendant plusieurs générations, le MAD pourrait empoisonner la qualité et la diversité des données de l’ensemble d’Internet », a déclaré Baraniuk. « À défaut, il semble inévitable que des conséquences imprévues, jusqu’à présent inédites, résultent de l’autophagie de l’IA, même à court terme. »
Outre Baraniuk, les auteurs de l'étude incluent les étudiants au doctorat de Rice, Sina Alemohammad ; Josue Casco-Rodriguez ; Ahmed Imtiaz Humayun ; Hossein Babaei ; l'ancien élève au doctorat de Rice, Lorenzo Luzi ; l'ancien élève au doctorat de Rice et actuel étudiant postdoctoral de Stanford, Daniel LeJeune ; et le boursier postdoctoral Simons, Ali Siahkoohi.