Une phrase bizarre est un tournant des articles scientifiques - et nous l'avons retracé à un problème dans les données de formation de l'IA

Une phrase bizarre est un tournant des articles scientifiques – et nous l’avons retracé à un problème dans les données de formation de l’IA

Plus tôt cette année, les scientifiques ont découvert un terme particulier apparaissant dans des articles publiés: «microscopie électronique végétative».

Cette phrase, qui semble technique mais qui est en fait absurde, est devenue un « fossile numérique » – une erreur conservée et renforcée dans les systèmes d’intelligence artificielle (IA) qui est presque impossible à supprimer de nos référentiels de connaissances.

Comme les fossiles biologiques piégés dans le rock, ces artefacts numériques peuvent devenir des luminaires permanents dans notre écosystème d’information.

Le cas de la microscopie électronique végétative offre un aperçu troublant de la façon dont les systèmes d’IA peuvent perpétuer et amplifier les erreurs tout au long de nos connaissances collectives.

Une mauvaise scan et une erreur de traduction

La microscopie électronique végétative semble être née par une coïncidence remarquable d’erreurs non liées.

Premièrement, deux articles des années 1950, publiés dans la revue Revues bactériologiquesont été scannés et numérisés.

Cependant, le processus de numérisation a combiné à tort « végétatif » à partir d’une colonne de texte avec « électron » d’un autre. En conséquence, le terme fantôme a été créé.

Une phrase bizarre est un tournant des articles scientifiques - et nous l'avons retracé à un problème dans les données de formation de l'IA

Des décennies plus tard, la «microscopie électronique végétative» s’est présentée dans certains articles scientifiques iraniens. En 2017 et 2019, deux articles ont utilisé le terme en légendes et résumés anglais.

Cela semble être dû à une erreur de traduction. Dans Farsi, les mots pour « végétatif » et « scanne » ne diffèrent que par un seul point.

Une phrase bizarre est un tournant des articles scientifiques - et nous l'avons retracé à un problème dans les données de formation de l'IA

Une erreur en hausse

Le résultat? À ce jour, la «microscopie électronique végétative» apparaît dans 22 articles, selon Google Scholar. L’un a fait l’objet d’une rétraction contestée d’un journal de la nature Springer, et Elsevier a délivré une correction pour une autre.

Le terme apparaît également dans les articles de presse discutant des enquêtes d’intégrité ultérieures.

La microscopie électronique végétative a commencé à apparaître plus fréquemment dans les années 2020. Pour découvrir pourquoi, nous avons dû regarder à l’intérieur des modèles d’IA modernes – et faire des fouilles archéologiques à travers les vastes couches de données sur lesquelles ils ont été formés.

Preuve empirique de la contamination de l’IA

Les grands modèles de langue derrière les chatbots d’IA modernes tels que Chatgpt sont « formés » sur d’énormes quantités de texte pour prédire le mot suivant probable dans une séquence. Le contenu exact des données de formation d’un modèle est souvent un secret étroitement gardé.

Pour tester si un modèle « connaissait » la microscopie électronique végétative, nous entrons des extraits des articles d’origine pour savoir si le modèle les compléterait avec le terme absurde ou des alternatives plus sensées.

Les résultats étaient révélateurs. Les phrases GPT-3 d’OpenAI ont constamment complété la « microscopie électronique végétative ». Des modèles antérieurs tels que GPT-2 et Bert ne l’ont pas fait. Ce modèle nous a aidés à isoler quand et où la contamination s’est produite.

Nous avons également constaté que l’erreur persiste dans des modèles ultérieurs, notamment GPT-4O et Claude 3.5 d’Anthropic. Cela suggère que le terme absurde pourrait désormais être intégré de façon permanente dans les bases de connaissances de l’IA.

Une phrase bizarre est un tournant des articles scientifiques - et nous l'avons retracé à un problème dans les données de formation de l'IA

En comparant ce que nous savons des ensembles de données de formation de différents modèles, nous avons identifié l’ensemble de données CommonCrawl des pages Internet grattées comme le vecteur le plus probable où les modèles AI ont appris pour la première fois ce terme.

Le problème de l’échelle

Trouver des erreurs de ce type n’est pas facile. Les réparer peut être presque impossible.

Une raison est l’échelle. L’ensemble de données CommonCrawl, par exemple, a des millions de gigaoctets. Pour la plupart des chercheurs en dehors des grandes entreprises technologiques, les ressources informatiques nécessaires pour travailler à cette échelle sont inaccessibles.

Une autre raison est le manque de transparence dans les modèles d’IA commerciaux. OpenAI et de nombreux autres développeurs refusent de fournir des détails précis sur les données de formation de leurs modèles. Les efforts de recherche pour insensigner certains de ces ensembles de données ont également été bloqués par des retraits de droit d’auteur.

Lorsque des erreurs sont trouvées, il n’y a pas de correction facile. Le filtrage des mots clés simples pourrait gérer des termes spécifiques tels que la microscopie électronique végétative. Cependant, cela éliminerait également les références légitimes (comme cet article).

Plus fondamentalement, l’affaire soulève une question troublante. Combien d’autres termes absurdes existent dans les systèmes d’IA, attendant d’être découverts?

Implications pour la science et l’édition

Ce «fossile numérique» soulève également des questions importantes sur l’intégrité des connaissances à mesure que la recherche et l’écriture assistées par l’IA deviennent plus courantes.

Les éditeurs ont répondu de manière incohérente lorsqu’ils sont informés des articles, notamment la microscopie électronique végétative. Certains ont rétracté des papiers affectés, tandis que d’autres les ont défendus. Elsevier a notamment tenté de justifier la validité du terme avant de finalement émettre une correction.

Nous ne savons pas encore si d’autres bizarreries affligent de telles modèles de langues, mais c’est très probable. Quoi qu’il en soit, l’utilisation des systèmes d’IA a déjà créé des problèmes pour le processus de révision des pairs.

Par exemple, les observateurs ont noté la montée en puissance des « phrases torturées » utilisées pour échapper aux logiciels d’intégrité automatisés, tels que « la conscience contrefaite » au lieu de « l’intelligence artificielle ». De plus, des phrases telles que «Je suis un modèle de langue AI» ont été trouvées dans d’autres articles rétractés.

Certains outils de dépistage automatiques tels que le critère de papier problématique signalent désormais la microscopie électronique végétative comme signe d’avertissement de contenu éventuel généré par l’IA. Cependant, de telles approches ne peuvent aborder que des erreurs connues, et non à celles non découvertes.

Vivre avec des fossiles numériques

La montée en puissance de l’IA crée des opportunités pour que les erreurs se soient intégrées de façon permanente dans nos systèmes de connaissances, par le biais de processus qu’aucun acteur unique ne contrôle. Cela présente des défis pour les entreprises technologiques, les chercheurs et les éditeurs.

Les entreprises technologiques doivent être plus transparentes sur la formation des données et des méthodes. Les chercheurs doivent trouver de nouvelles façons d’évaluer les informations face à un non-sens convaincant généré par l’IA. Les éditeurs scientifiques doivent améliorer leurs processus d’examen par les pairs pour repérer les erreurs humaines et générées par l’IA.

Les fossiles numériques révèlent non seulement le défi technique de la surveillance des ensembles de données massifs, mais le défi fondamental de maintenir des connaissances fiables dans les systèmes où les erreurs peuvent s’auto-perpétuer.