Reddit en a marre des géants de l'IA, il empêche donc presque tout le monde de voler son contenu

Reddit en a marre des géants de l'IA, il empêche donc presque tout le monde de voler son contenu

Les entreprises qui créent des modèles d’intelligence artificielle ont besoin de plus en plus de données pour s’entraîner et essayer d’être plus précises et plus utiles. D’où obtiennent-ils ces données ? Depuis Internet, et souvent sans autorisation. C’est exactement ce dont Steve Huffman, PDG de Reddit, vient de se plaindre.

Soit tu payes, soit je te bloque. Dans une récente interview, Huffman a expliqué à quel point les accords avec les sociétés d’IA, comme celui conclu avec Google, sont importants. Sans eux, a-t-il déclaré, « nous n'avons aucun pouvoir de décision ni connaissance de la manière dont nos données sont affichées et à quoi elles sont utilisées ». En fait, il a souligné que cela « nous a mis dans la position de bloquer les personnes qui ne sont pas disposées à parvenir à un accord sur la manière dont nous voulons que nos données soient utilisées ou non ».

Critiques de Microsoft, Anthropic et Perplexity. Le PDG de Reddit a spécifiquement nommé trois des entreprises les plus remarquables dans ce domaine : Microsoft, Anthropic et Perplexity. Selon lui, ces sociétés refusent de négocier, ce qui a entraîné leur blocage afin que leurs trackers ne puissent pas collecter les données de Reddit. Cependant, souligne-t-il, les bloquer a été « un véritable casse-tête ».

Robots.txt contre l'IA. Nous avons déjà expliqué comment Perplexity a été accusé d'ignorer les fichiers robots.txt qui limitent la portée des moteurs de recherche et des robots d'exploration. Reddit est passé à l'offensive et a modifié ce type de système, ce qui a provoqué un effet unique : du coup, les résultats de Reddit n'apparaissaient que dans le moteur de recherche Google, et pas dans d'autres comme Bing.

Le contenu de Reddit n'est pas un logiciel gratuit. Huffman accuse Microsoft d'entraîner son IA et de l'utiliser sur Bing « sans nous le dire », mais il explique également que les données Reddit sont vendues via l'API Bing à d'autres moteurs de recherche. Selon lui, chez Microsoft, ils suivent la philosophie de leur nouveau responsable de l'IA, Mustafa Suleyman, qui a récemment indiqué que pour lui tout ce qui est public sur Internet est un logiciel gratuit et peut être utilisé librement.

Microsoft répond. Jordi Ribas, responsable de la recherche chez Microsoft, a commenté sur X que « Reddit a empêché Bing d'explorer son site pour les recherches, favorisant ainsi un autre moteur de recherche et affectant la concurrence avec Bing et d'autres moteurs basés sur Bing ».

Reddit protège les siens. La mesure de Reddit vise à protéger ce contenu et à empêcher d'autres personnes d'en profiter sans payer. C’est un argument raisonnable, même si, une fois de plus, ce qui semble caché est le fait que ceux qui ont généré ce contenu sont nous, les utilisateurs.

À Simseo | Le moteur de recherche Google était censé répartir ses utilisateurs sur le reste du Web. C'était supposé