Que Reddit et Twitter aient plafonné leurs API est un désastre pour tout Internet. Mais surtout pour Google

Jusqu’à il n’y a pas si longtemps l’information circulait librement sur internet. Cela est en train de changer, et le blâme en incombe aux plates-formes qui sont nées comme un point de rencontre pour des millions d’utilisateurs.

Ce sont ces utilisateurs qui les ont nourris toutes ces années avec d’immenses quantités d’informations et les ont transformés en géants technologiques. Certains géants sont devenus égoïstes et contrôlent combien et comment toutes ces informations sont accessibles.

C’est un problème, et c’est particulièrement le cas pour Google. Le moteur de recherche qui domine tout était de facto la ressource pour trouver tout type d’information sur internet, mais les derniers mouvements d’entreprises comme Reddit ou Twitter provoquent un effet inquiétant : du coup des millions de résultats de recherche peuvent conduire à des liens brisés.

Le fond du problème, affirment ceux qui le dénoncent, réside dans l’intelligence artificielle. Les modèles d’IA générative conversationnelle comme ChatGPT ou Bard fonctionnent bien grâce en grande partie au fait qu’ils ont été formés avec d’énormes quantités de données qu’ils ont prises sans préavis et sans autorisation.

Non pas qu’ils aient dû le faire, du moins dans le cas d’un contenu non protégé par le droit d’auteur. L’information, insistions-nous, était là pour quiconque voulait la consulter, mais soudain le faire à cette échelle est devenu un problème.

Twitter a été le premier à faire un geste controversé. En février, Elon Musk a annoncé que l’accès à l’API gratuite se terminait. Cela signifiait que l’accès automatisé à la plate-forme était interdit, et avec lui toutes sortes de développements et de services qui « tiraient » cette API sans avoir à payer étaient laissés entre le marteau et l’enclume. Les robots et les applications tierces telles que Twitterriffic ont été contraints de dire au revoir car ils ne pouvaient pas supporter le coût d’accès à ces API.

Reddit a suivi ses traces peu de temps après. En avril, ses responsables ont annoncé qu’ils commenceraient à facturer l’accès à leur API. La raison qu’ils ont donnée était la même que celle avancée par Twitter (et Elon Musk) : les modèles d’IA collectaient et utilisaient leurs données sans discernement pour la formation, et c’était trop.

Cette collecte massive de données a en effet pu être un problème pour Reddit, mais en cours de route, la plateforme a provoqué la fermeture de plusieurs clients très populaires tels qu’Apollo ou RedPlanet. Les protestations se sont intensifiées et il y a quelques jours, la plus grande « grève numérique » de l’histoire de Reddit a eu lieu : plus de 6 000 sous-reddits ont été temporairement inaccessibles car ils sont devenus des forums privés.

Cela a non seulement causé une baisse du trafic vers Reddit et un mécontentement pour ceux qui cherchaient des réponses dans leurs forums ces jours-ci. Cette émeute a eu un impact sur le moteur de recherche Googledont les résultats, lorsqu’ils sont dirigés vers Reddit, aboutissent à des liens brisés ou montrent que le forum auquel nous essayons d’accéder est actuellement privé.

Comme l’a expliqué Matt Rickard, un ingénieur logiciel qui travaille sur le développement de grands modèles de langage (LLM), la situation actuelle est une menace critique pour Google. Comme il dit,

« Les grands modèles sont formés sur des données publiques extraites via l’API. Les sites riches en contenu sont plus susceptibles d’être modifiés à jamais (pourquoi publier sur StackOverflow ?) Par des modèles formés sur leurs propres données. Naturellement, ils veulent restreindre l’accès et (1) vendre les données ou (2) former leurs propres modèles. Cette restriction empêche (ou complique) l’extraction automatique des données par Google pour la recherche (et probablement aussi pour la formation des modèles) ».

C’est vrai : Twitter est allé plus loin ce week-end et a fixé une limite au nombre de messages que les utilisateurs pouvaient lire. Cette décision a empêché (ou du moins entravé) la collecte de données qui tentait de contourner l’API de paiement, mais une fois de plus, elle a exposé un problème plus important : de nombreux résultats de recherche pouvaient se retrouver avec des messages d’erreur et des liens rompus.

Les choses pourraient empirer pour Google et aussi pour les modèles d’IA comme ChatGPT ou Bard à l’avenir : s’ils ne paient pas pour accéder à ces API, ils ne pourront pas continuer à les former comme avant et les faire évoluer et s’améliorer à partir de ces données. Reddit et Twitter sont certes des sources d’informations très pertinentes, mais il existe une menace encore plus frappante.

C’est Wikipédia. Que se passe-t-il si l’organisation qui le gère finit par décider que l’accès va être régulé par une API de paiement ? Sachant que cette source d’information est particulièrement importante pour les modèles d’IA —et aussi pour Google—, ce coup serait particulièrement perceptible.

Il semble plausible que Wikipédia puisse faire une telle démarche, d’autant plus que cette organisation demande des dons aux utilisateurs relativement fréquemment et est donc toujours à la recherche de sources de revenus. Cette API de paiement serait une solution intéressante pour eux, mais elle nous enfermerait davantage dans une situation inquiétante.

Celui dans lequel Google ne nous donnerait plus de réponses. Nous aurions à aller spécifiquement sur Reddit, Twitter, StackOverflow ou Wikipedia pour les rechercher, peut-être en payant pour le faire.

L’information, qui circulait librement sur Internet, aurait cessé de le faire. Maintenant, tout serait plus fragmenté, et chaque plateforme serait une sorte de petit internet autonome et isolé du reste. Ce serait terrible pour tout le monde, mais ce serait certainement particulièrement terrible pour Google.