Les modèles d'IA se nourrissant de données d'IA pourraient être confrontés à une spirale de la mort

L’effondrement du modèle fait référence à un processus d’apprentissage dégénératif dans lequel les modèles commencent à oublier des événements improbables au fil du temps, à mesure que le modèle s’empoisonne avec sa propre projection de la réalité. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2305.17493

Les grands modèles de langage génèrent une pollution verbale qui menace de saper les données mêmes sur lesquelles ces modèles sont entraînés.

C’est la conclusion à laquelle est parvenue une équipe de chercheurs britanniques et canadiens explorant l’impact des générations successives de texte généré par ChatGPT qui seront sélectionnés pour les futurs modèles.

Dans un article publié le arXiv serveur de préimpression et intitulé « La malédiction de la récursivité : la formation sur les données générées fait oublier les modèles », l’équipe a prédit que la nature récursive de la formation à l’IA finira par entraîner un « effondrement du modèle ».

« Nous découvrons que l’apprentissage à partir de données produites par d’autres modèles provoque l’effondrement du modèle, un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données », a déclaré l’équipe.

Le membre de l’équipe Ross Anderson, de l’Université de Cambridge et de l’Université d’Édimbourg, a comparé l’effet à la qualité décroissante de la production musicale.

« Si vous formez un modèle musical sur Mozart », a-t-il déclaré dans un blog personnel, « vous pouvez vous attendre à un résultat qui ressemble un peu à Mozart mais sans l’éclat… et si [that version] forme la prochaine génération, et ainsi de suite, à quoi ressemblera la cinquième ou la sixième génération ? »

Les auteurs notent que l’effondrement du modèle est une menace similaire à l’oubli catastrophique et à l’empoisonnement des données.

Dans l’oubli catastrophique, un modèle « oublie » les données précédentes, parfois brusquement, lors de l’apprentissage de nouvelles informations. L’impact s’amplifie avec le temps.

Dans leur nouvelle recherche, a déclaré l’équipe, les modèles n’oublient pas les données précédemment apprises « mais commencent plutôt à mal interpréter ce qu’ils croient être réel, en renforçant leurs propres croyances ».

L’empoisonnement des données est l’insertion malveillante de fausses informations. Bien sûr, cette pratique est antérieure à l’utilisation de grands modèles de langage. Mais avec l’utilisation d’explorations Web à grande échelle, l’insertion même d’une petite quantité de données malveillantes, selon l’équipe, peut entraîner une contamination généralisée.

« Ce qui est différent avec l’arrivée de grands modèles de langage, c’est l’échelle à laquelle un tel empoisonnement peut se produire une fois qu’il est automatisé », a déclaré l’équipe.

Le chercheur Ilia Shumailov, de l’Université d’Oxford, a averti que « une dégradation majeure se produit en quelques itérations seulement, même lorsque certaines des données d’origine sont préservées ».

« Les erreurs dues aux imperfections d’optimisation, aux modèles limités et aux données finies », a-t-il poursuivi, « en fin de compte, les données synthétiques sont de faible[er] qualité. Au fil du temps, les erreurs s’aggravent et finissent par forcer les modèles qui apprennent des données générées à méconnaître encore plus la réalité. »

Les chercheurs ont déclaré que la nature de l’apprentissage récursif est de se passer d’événements à faible probabilité, appelés par les statisticiens « queues de la distribution ».

Dans son blog, Anderson a averti que « l’utilisation de contenu généré par un modèle dans la formation provoque des défauts irréversibles. Les queues de la distribution de contenu d’origine disparaissent. En quelques générations, le texte devient une poubelle ».

« Les événements à faible probabilité sont … essentiels pour comprendre les systèmes complexes », note le rapport.

Les premiers grands modèles de langage ont été entraînés sur du texte généré par l’homme. Mais avec l’adoption rapide de ChatGPT par l’industrie et les utilisateurs généraux, d’énormes quantités de données peuplent les sites en ligne.

Les chercheurs ont demandé instamment que des mesures soient prises pour distinguer le contenu de l’IA du contenu généré par l’homme et que des efforts soient faits pour préserver le contenu original à des fins de formation futures.

« Les grands modèles de langage sont comme le feu », a déclaré Anderson, membre de l’équipe, « un outil utile, mais qui pollue l’environnement. Comment allons-nous y faire face ? »