Consanguinité, charabia ou tout simplement fou ? Les modèles d'IA suscitent des avertissements

Consanguinité, charabia ou tout simplement fou ? Les modèles d'IA suscitent des avertissements

Lorsque l’universitaire Jathan Sadowski a cherché l’année dernière une analogie pour décrire la manière dont les programmes d’IA se dégradent, il a opté pour le terme « IA des Habsbourg ».

Les Habsbourg étaient l'une des maisons royales les plus puissantes d'Europe, mais des pans entiers de leur lignée familiale se sont effondrés après des siècles de consanguinité.

Des études récentes ont montré comment les programmes d’IA qui sous-tendent des produits comme ChatGPT subissent un effondrement similaire lorsqu’ils sont alimentés de manière répétée avec leurs propres données.

« Je pense que le terme Habsburg AI a très bien vieilli », a déclaré Sadowski à l'AFP, affirmant que son invention était « devenue encore plus pertinente dans la façon dont nous pensons les systèmes d'IA ».

La principale préoccupation est que le contenu généré par l’IA pourrait prendre le contrôle du Web, ce qui pourrait à son tour rendre les chatbots et les générateurs d’images inutiles et faire sombrer une industrie d’un billion de dollars.

Mais d’autres experts estiment que le problème est exagéré ou peut être résolu.

De nombreuses entreprises sont enthousiastes à l’idée d’utiliser ce qu’elles appellent des données synthétiques pour former des programmes d’IA. Ces données générées artificiellement sont utilisées pour compléter ou remplacer les données du monde réel. Elles sont moins chères que le contenu créé par l’homme, mais plus prévisibles.

« La question ouverte pour les chercheurs et les entreprises qui construisent des systèmes d'IA est la suivante : quelle quantité de données synthétiques est excessive », a déclaré Sadowski, professeur de technologies émergentes à l'université Monash en Australie.

'La maladie de la vache folle'

La formation des programmes d’IA, connus dans le secteur sous le nom de grands modèles linguistiques (LLM), implique l’extraction de grandes quantités de texte ou d’images sur Internet.

Ces informations sont divisées en milliards de minuscules morceaux lisibles par machine, appelés jetons.

Lorsqu'on lui pose une question, un programme comme ChatGPT sélectionne et assemble des jetons de manière à ce que ses données de formation indiquent qu'il s'agit de la séquence la plus susceptible de correspondre à la requête.

Mais même les meilleurs outils d’IA génèrent des faussetés et des absurdités, et les critiques expriment depuis longtemps leur inquiétude quant à ce qui se passerait si un modèle était alimenté par ses propres résultats.

Fin juillet, un article paru dans la revue Nature intitulé « Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées de manière récursive » s'est avéré être un paratonnerre pour la discussion.

Les auteurs ont décrit comment les modèles ont rapidement éliminé les éléments les plus rares dans leur ensemble de données d'origine et, comme Nature Il a été rapporté que les résultats ont dégénéré en « charabia ».

Une semaine plus tard, des chercheurs des universités Rice et Stanford ont publié un article intitulé « Les modèles génératifs auto-consommateurs deviennent fous » qui parvenait à une conclusion similaire.

Ils ont testé des programmes d’IA générateurs d’images et ont montré que les résultats deviennent plus génériques et remplis d’éléments indésirables à mesure qu’ils ajoutent des données générées par l’IA au modèle sous-jacent.

Ils ont appelé l'effondrement du modèle « trouble de l'autophagie du modèle » (MAD) et l'ont comparé à la maladie de la vache folle, une maladie mortelle causée par l'alimentation d'autres vaches avec les restes de vaches mortes.

« Scénario apocalyptique »

Ces chercheurs craignent que les textes, images et vidéos générés par l’IA ne vident le Web de données exploitables créées par l’homme.

« Un scénario catastrophe est que, si l'on ne le contrôle pas pendant plusieurs générations, le MAD pourrait empoisonner la qualité des données et la diversité de l'ensemble de l'Internet », a déclaré l'un des auteurs de l'Université Rice, Richard Baraniuk, dans un communiqué.

Les chiffres de l’industrie ne sont toutefois pas perturbés.

Anthropic et Hugging Face, deux leaders du domaine qui se targuent d'adopter une approche éthique de la technologie, ont tous deux déclaré à l'AFP qu'ils utilisaient des données générées par l'IA pour affiner ou filtrer leurs ensembles de données.

Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face, a déclaré que l'article de Nature offrait une perspective théorique intéressante, mais que son scénario catastrophe n'était pas réaliste.

« Dans la réalité, la formation sur plusieurs séries de données synthétiques n’est tout simplement pas réalisée », a-t-il déclaré.

Il a toutefois déclaré que les chercheurs étaient tout aussi frustrés que tout le monde par l’état d’Internet.

« Une grande partie d'Internet est un déchet », a-t-il déclaré, ajoutant que Hugging Face avait déjà fait d'énormes efforts pour nettoyer les données, en supprimant parfois jusqu'à 90 %.

Il espérait que les utilisateurs du Web contribueraient à assainir Internet en n’interagissant tout simplement pas avec le contenu généré.

« Je crois fermement que les humains verront les effets et capteront les données générées bien avant les modèles », a-t-il déclaré.