Wikipédia se remplit de contenu généré par l'IA. À tel point qu’il dispose déjà d’une équipe dédiée à sa recherche.

Le contenu généré par l’intelligence artificielle a atteint tous les coins. Il est arrivé sur Amazon, où sont apparus des livres écrits par ChatGPT ; Il l'a fait pour certains médias, pour les articles scientifiques, pour les vidéos, pour la musique, pour les images, pour la photographie. À tout. L’IA générative est présente partout. Sur Wikipédia aussi, bien sûr.

C'est un problème. Celui auquel la plateforme répond déjà à travers un groupe de collaborateurs dédiés à la recherche et à l’élimination de ce contenu. Son nom : WikiProject AI Cleanup.

Comment fonctionne Wikipédia. Il est important de savoir que Wikipédia est ouvert et que n’importe qui peut y écrire et éditer des articles. Cela a un point positif : si j'ai des informations sur quelque chose ou si je suis expert dans un sujet, je peux enrichir l'encyclopédie de mes contributions, soit en ajoutant de nouvelles choses, en clarifiant des choses existantes ou en éditant des choses erronées. Le point négatif est que… n'importe qui peut éditer Wikipédia et inventer ce qu'il veut. Si l’on ajoute à cela un outil comme ChatGPT, le problème est plus que résolu.

L’IA inonde tout. Selon Ilyas Lebleu, fondateur de l'initiative WikiProject AI Cleanup, tout a commencé lorsqu'ils ont commencé à remarquer « la prévalence d'écritures non naturelles qui montraient des signes clairs d'avoir été générées par l'IA ». Grâce à ChatGPT, ils ont réussi à reproduire des styles similaires, donc blancs et en bouteille.

404Media fait écho à un très bon exemple : le fort ottoman Amberlisihar, une construction construite en 1466. Sur sa page Wikipédia, un avec 2 000 mots, son histoire, sa construction, les matériaux… tout est détaillé pourrait attendre. Le problème, c'est que ce fort n'existe pas. C’est faux, c’est le résultat d’une hallucination d’IA. Cet article a été publié en janvier 2023 et n’a été détecté qu’en décembre.

Pareil avec les photos. Cette image a été publiée dans cet article de Darul Uloom Deoband et, a priori, pourrait être considérée comme une image de l’époque. Cependant, il suffit de regarder les mains (et vraiment d’accorder un minimum d’attention aux détails) pour découvrir qu’elles ont été générées avec l’IA. Il a été supprimé car il « contribue peu à l'article, pourrait être confondu avec une œuvre d'art contemporaine et est anatomiquement incorrect ». Il convient de noter que toutes les images générées par l’IA ne sont pas supprimées, seules celles qui sont inappropriées.

Début de Darul Uloom Deoband sous un grenadier par Ai

La description de l'image se lit comme suit : « Une image créée par AI des débuts du séminaire islamique de Darul Uloom Deoband. Cette image créée par AI imagine le professeur Mahmud Deobandi instruisant son élève Mahmud Hasan Deobandi – le premier étudiant du séminaire – , qui sera plus tard connu sous le nom de « Shaykh al-Hind » et a joué un rôle important dans le mouvement indépendantiste indien. Des indices indiquant qu'il a été généré par l'IA sont clairement visibles dans les mains, le livre et les pieds, par exemple.

Bénévoles contre IA. WikiProject AI Cleanup est une « collaboration visant à lutter contre le problème croissant du contenu généré par l'IA sans source et mal écrit sur Wikipédia ». Tout le monde peut s'inscrire et participer. L’objectif n’est pas de restreindre ou d’éliminer l’utilisation de l’IA, mais de « vérifier que ses résultats sont acceptables et constructifs, et de les corriger ou de les éliminer dans le cas contraire ».

Ce n'est pas une tâche facile. Parce que si les LLM sont bons dans quelque chose, c'est bien dans leur capacité à faire passer leurs créations pour des textes légitimes. Cependant, ils pourraient laisser quelques indices. Des expressions telles que « comme modèle de langage de l'IA », des descriptions ultra-génériques (« une ville connue pour ses terres fertiles ») ou un ton excessivement promotionnel ou positif indiquent qu'il y a une IA derrière cela.

Les textes générés par l’IA peuvent contenir des indices indiquant leur origine synthétique : un ton très promotionnel, des descriptions génériques, etc.

D’un autre côté, on pourrait penser que détecter ce type de contenu serait aussi simple que de voir s’il contient des références ou non, mais l’IA est aussi capable de les halluciner. C'est ce qu'explique le groupe sur sa page Wikipédia, où il précise que l'IA peut inventer des sources ou proposer des sources existantes, mais complètement.

Cet article de l’historiographie léniniste a été entièrement rédigé par une IA et citait des sources russes et hongroises qui semblaient réelles, mais n’existaient pas. Il a été éliminé. Dans cet autre article sur le coléoptère Estola Albosignata, on cite de véritables sources françaises et allemandes qui à aucun moment n'ont parlé dudit coléoptère. L'article a été édité.

L’IA générative semble stagner. Les Big Tech pensent avoir un atout dans leur manche : des "agents" qui font des choses pour nous

Le défi de l'IA. L’utilisation de l’IA n’est pas mauvaise en soi, mais elle pose un défi en matière de crédibilité. Si Wikipédia permettait au contenu généré par l’IA de se déchaîner, le contenu ne serait plus fiable. Les IA hallucinent, elles inventent des informations. Bien que tout puisse sembler avoir beaucoup de sens grâce à une utilisation correcte du langage, les données, dates, noms ou événements expliqués peuvent ne pas être exacts.

Et cela ne concerne pas uniquement Wikipédia, mais il existe un risque que ces informations fausses, inexactes ou inventées se propagent sur Internet. Et s'il y a de fausses informations sur Wikipédia, l'une des principales sources de données de formation pour les LLM, il est possible que les LLM soient formés avec des informations inexactes qui entraînent des résultats encore plus inexacts, et ainsi de suite. C'est pourquoi le travail de ces bénévoles est si important.

Image de couverture | Simseo

À Simseo | Télécharger Wikipédia : comment télécharger des articles ou TOUS Wikipédia pour le lire hors ligne