L'IA remplit le Web de contenu. La question est de savoir ce qui se passera quand il en tirera un retour

Les modèles d’IA générative font fureur, mais ils inondent également le Web de nouveaux contenus à un rythme effréné. On le voit bien avec Midjourney et sa capacité créative, mais aussi avec ChatGPT qui aide par exemple les spammeurs à créer des milliers de sites web. Maintenant, il y a des études qui disent que cela pose un gros problème à l’avenir : le soi-disant « effondrement du modèle ».

Qu’est-ce que l’effondrement du modèle ?. Como señalaban en el citado estudio, en el mundo de las Redes Generativas Antagónicas (GANs), el « modo colapso » —del que se deriva el término « colapso del modelo »— ocurre cuando el generador comienza a retroalimentarse y producir la misma salida una et une autre fois. L’effondrement du modèle fait référence à un processus d’apprentissage dégénératif dans lequel les modèles commencent à oublier des événements improbables au fil du temps, alors que le modèle devient « empoisonné » par sa propre projection de la réalité.

Et si. Le problème est que puisque l’IA remplit le Web de contenu et que l’IA est formée et mise à jour avec tout ce Web qui s’active et se développe, qu’advient-il de ces commentaires ? Comment le fait que de plus en plus de vos données d’entraînement proviennent de contenu généré par l’IA, plutôt que de contenu généré par l’homme, influencera-t-il ces modèles ?

défauts irréversibles. Selon les chercheurs, « l’utilisation de contenu généré par des modèles dans leur formation provoque des défauts irréversibles dans les modèles résultants ». En fait, souligne-t-il, « le processus est inévitable, même dans les cas où les conditions sont presque idéales pour un apprentissage à long terme ». Parce que?

dégénérescence rapide. Selon eux, parce qu’avec le temps « les erreurs dans les données générées s’aggravent et forcent finalement les modèles qui apprennent des données générées à mal percevoir la réalité encore plus mal ». Ilia Shumailov, l’un des responsables de l’étude, a indiqué dans VentureBeat que cette dégénérescence peut en fait se produire très rapidement : « Les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris à l’origine. »

Une IA pleine de déchets. Un autre des auteurs de l’étude, Ross Anderson, de l’Université d’Edimbourg, a expliqué dans un post sur son blog que ce qui se passe lui rappelle ce qui se passe avec les océans, qui sont remplis de plastiques. Cela, dit-il, « donnera un avantage aux entreprises qui le font déjà ou qui contrôlent l’accès aux interfaces humaines à grande échelle. En fait, nous voyons déjà des entreprises d’intelligence artificielle exploiter The Internet Archive.

chambre d’écho en vue. Un autre effet dérivé du problème serait celui d’une sorte d’IA avec une chambre d’écho qui renvoie en continu. Ted Chiang, auteur de « Story of Your Life », le roman qui a inspiré le film « Arrival », a expliqué dans The New Yorker que l’effondrement conduira à une qualité de plus en plus mauvaise, quelque chose de similaire à ce qui se passe avec une image JPEG lorsqu’elle est copié et dégradé.

Comment éviter l’effondrement du modèle. Les chercheurs suggèrent deux façons d’éviter ce problème. Premièrement, en conservant une sorte de « copie maîtresse » de l’ensemble de données d’entraînement original « produit par l’homme » et en évitant de le « contaminer » avec des données générées par l’IA. La seconde, pour inclure de nouveaux ensembles de données générés par les humains tout au long de la formation dans les étapes ultérieures.

Pour l’instant tout va bien. Pour l’instant, les modèles ont été entraînés avec des données générées par des êtres humains —ceux utilisés par ChatGPT ont été mis à jour jusqu’à l’automne 2021, environ—, et il reste à voir ce qu’il adviendra des futurs modèles qui seront mis à jour avec des données incluant celles générées par ces modèles générés par l’homme. Les prévisions de l’étude ne sont pas bonnes, bien sûr.