Une nouvelle de Borges vieille de 83 ans laisse présager un avenir sombre pour Internet

Comment Internet va-t-il évoluer dans les décennies à venir ?

Les écrivains de fiction ont exploré certaines possibilités.

Dans son roman « Fall » de 2019, l'auteur de science-fiction Neal Stephenson a imaginé un avenir proche dans lequel Internet existe toujours. Mais il est devenu tellement pollué par la désinformation et la publicité qu’il est devenu largement inutilisable.

Les personnages du roman de Stephenson traitent ce problème en s'abonnant à des « flux d'édition » – des nouvelles et des informations sélectionnées par l'homme et qui peuvent être considérées comme dignes de confiance.

L’inconvénient est que seuls les riches peuvent se permettre de tels services sur mesure, laissant la majeure partie de l’humanité consommer du contenu en ligne non organisé et de mauvaise qualité.

Dans une certaine mesure, cela s'est déjà produit : de nombreux organes de presse, tels que le New York Times et le Wall Street Journal, ont placé leur contenu derrière des paywalls. Pendant ce temps, la désinformation se propage sur les plateformes de médias sociaux comme X et TikTok.

Le bilan de Stephenson en tant que pronostiqueur est impressionnant : il a anticipé le métaverse dans son roman « Snow Crash » de 1992, et un élément clé de l'intrigue de son « Diamond Age », sorti en 1995, est une introduction interactive qui fonctionne un peu comme un chatbot.

En apparence, les chatbots semblent apporter une solution à l’épidémie de désinformation. En diffusant du contenu factuel, les chatbots pourraient fournir des sources alternatives d’informations de haute qualité qui ne seraient pas protégées par des paywalls.

Ironiquement, cependant, les résultats de ces chatbots pourraient représenter le plus grand danger pour l’avenir du Web – un danger auquel l’écrivain argentin Jorge Luis Borges avait fait allusion des décennies plus tôt.

L’essor des chatbots

Aujourd’hui, une part importante d’Internet est encore constituée de contenus factuels et apparemment véridiques, tels que des articles et des livres qui ont été évalués par des pairs, vérifiés ou approuvés d’une manière ou d’une autre.

Les développeurs de grands modèles de langage, ou LLM, les moteurs qui alimentent des robots comme ChatGPT, Copilot et Gemini, ont profité de cette ressource.

Toutefois, pour opérer leur magie, ces modèles doivent ingérer d’immenses quantités de texte de haute qualité à des fins de formation. Une grande quantité de verbiage a déjà été extraite de sources en ligne et transmise aux nouveaux LLM.

Le problème est que le Web, aussi énorme soit-il, est une ressource limitée. Les textes de haute qualité qui n'ont pas encore été extraits se font rares, ce qui conduit à ce que le New York Times appelle une « crise émergente du contenu ».

Cela a contraint des entreprises comme OpenAI à conclure des accords avec des éditeurs pour obtenir encore plus de matière première pour leurs robots voraces. Mais selon une prédiction, une pénurie de données supplémentaires sur la formation de haute qualité pourrait survenir dès 2026.

À mesure que les résultats des chatbots se retrouvent en ligne, ces textes de deuxième génération, complétés par des informations inventées appelées « hallucinations », ainsi que des erreurs pures et simples, telles que des suggestions pour mettre de la colle sur votre pizza, pollueront davantage le Web.

Et si un chatbot fréquente le mauvais type de personnes en ligne, il peut capter leurs opinions répugnantes. Microsoft l'a découvert à ses dépens en 2016, lorsqu'il a dû débrancher Tay, un robot qui commençait à répéter des contenus racistes et sexistes.

Au fil du temps, tous ces problèmes pourraient rendre le contenu en ligne encore moins fiable et moins utile qu’il ne l’est aujourd’hui. En outre, les LLM nourris avec un régime pauvre en calories peuvent produire des résultats encore plus problématiques qui se retrouvent également sur le Web.

Une bibliothèque infinie et inutile

Il n’est pas difficile d’imaginer une boucle de rétroaction qui aboutirait à un processus continu de dégradation alors que les robots se nourriraient de leurs propres résultats imparfaits.

Un article de juillet 2024 publié dans Nature a exploré les conséquences de la formation de modèles d'IA sur des données générées de manière récursive. Elle a montré que des « défauts irréversibles » peuvent conduire à un « effondrement du modèle » pour les systèmes formés de cette manière – un peu comme la copie d'une image et une copie de cette copie, et une copie de cette copie, perdraient leur fidélité à l'image originale.

À quel point cela pourrait-il devenir grave ?

Considérez la nouvelle de Borges de 1941 « La Bibliothèque de Babel ». Cinquante ans avant que l’informaticien Tim Berners-Lee ne crée l’architecture du Web, Borges avait déjà imaginé un équivalent analogique.

Dans son histoire de 3 000 mots, l'écrivain imagine un monde composé d'un nombre énorme, voire infini, de pièces hexagonales. Les étagères de chaque pièce contiennent des volumes uniformes qui, selon l'intuition de ses habitants, doivent contenir toutes les permutations possibles de lettres de leur alphabet.

Au départ, cette prise de conscience suscite la joie : par définition, il doit exister des livres qui détaillent l’avenir de l’humanité et le sens de la vie.

Les habitants recherchent de tels livres et découvrent que la grande majorité ne contient que des combinaisons de lettres dénuées de sens. La vérité existe, mais tous les mensonges imaginables le sont aussi. Et tout cela est noyé dans une quantité inconcevable de charabia.

Même après des siècles de recherches, seuls quelques fragments significatifs ont été retrouvés. Et même dans ce cas, il n’existe aucun moyen de déterminer si ces textes cohérents sont des vérités ou des mensonges. L'espoir se transforme en désespoir.

Le Web deviendra-t-il si pollué que seuls les riches pourront s’offrir des informations précises et fiables ? Ou bien un nombre infini de chatbots produiront-ils tellement de verbiage entaché que trouver des informations précises en ligne équivaudra à chercher une aiguille dans une botte de foin ?

Internet est souvent décrit comme l’une des plus grandes réalisations de l’humanité. Mais comme toute autre ressource, il est important de réfléchir sérieusement à la manière dont elle est entretenue et gérée, de peur de nous retrouver confrontés à la vision dystopique imaginée par Borges.