Ceux qui peuvent facturer l'IA pour leur contenu et ceux qui ne peuvent se cacher que

Le prix à payer pour avoir IA est le pillage de tous les contenus Internet. Dans Reddit, ils le savent bien, et ils viennent de prendre une mesure extrême contre ces vols aveugles: ce n'est pas qu'ils bloquent déjà directement l'accès à leur contenu aux «grattoirs» des sociétés de l'IA. Maintenant, ils les bloquent également si ces entreprises essaient d'accéder à des rodéos. La partie blessée? Archives Internet.

Ce qui s'est passé. Reddit, qui a toujours été très proactif lors de la protection de « leur » contenu (qui, soit dit en passant, a été généré par les utilisateurs volontairement et gratuits), a réalisé quelque chose: ils les volaient. Mais pas directement, mais à travers des versions précédentes stockées dans cette gigantesque hémérotécée numérique appelée Internet Archive.

Machine Wayback sans accès. Wayback Machine est la « machine à temps » des archives Internet et permet d'accéder aux anciennes versions de n'importe quel site Web. Mais pour éviter plus de vol de contenu, Reddit a interdit cette plate-forme pour indexer la grande majorité du contenu Reddit. Seule la page d'accueil de Reddit.com peut être indexée.

L'argument Reddit. Tim Rathschmidt, porte-parole de Reddit, a expliqué au bord que bien que les archives Internet soient un service destiné au Web ouvert, ils avaient découvert « des cas dans lesquels les sociétés de renseignement artificielles violent les politiques de plate-forme, y compris la nôtre, et extrait des données de Wayback Machine ». De plus, il a souligné ce qui suit:

« Jusqu'à ce qu'ils soient en mesure de défendre leur site et de se conformer aux politiques de la plate-forme (par exemple, de respecter la confidentialité des utilisateurs, en relation avec l'élimination du contenu supprimé), nous limitons une partie de leur accès aux données Reddit pour protéger les utilisateurs de Reddit. »

Si vous voulez notre contenu, payez. Ce message du porte-parole est raisonnable, mais aussi peu est incomplet. D'autant plus que Reddit a persécuté ce type de pillage des entreprises d'IA. Il a essayé de bloquer ceux qui l'ont fait avec des moyens techniques, et l'objectif avant et maintenant était le même: que les entreprises paient pour leur contenu.

C'est quelque chose qui a conclu avec les accords qui sont parvenus depuis le début de ce type de processus. La première chose qu'il a faite a été de fermer son API, un désastre pour tout Internet. Il a ensuite fini par arriver à un accord Google, qui paie 60 millions de dollars par an pour pouvoir accéder à ces contenus. Et la même chose a fini par faire avec Openai, avec lequel il a scellé un pacte dont les détails économiques n'ont pas été révélés mais qui donne accès au contenu de Reddit aux modèles qui améliorent le chatpt.

Mon contenu est le mien (plus ou moins). Les plateformes sociales nourrissent le contenu des utilisateurs depuis des années. Jusqu'à présent, le modèle commercial s'est concentré sur la publicité, mais l'arrivée de l'IA nous a permis d'avoir un modèle alternatif intéressant: que les entreprises d'IA paient pour pouvoir accéder à ces contenus.

Les utilisateurs gagnent à peine, Reddit et les réseaux sociaux. Les contenus qui prétendent qu'ils sont les siens – comme Reddit, qui, en juin, a exigé anthropique – mais que les utilisateurs de ces plateformes ont vraiment créé, qui sans se rendre compte sont devenus esclaves de ces réseaux sociaux: ils n'arrêtent pas de produire du contenu que d'autres consomment et le font sans facturer un euro.

Ces plateformes sont des intermédiaires qui fournissent gratuitement l'infrastructure nécessaire pour que ce contenu soit disponible, mais il n'y a pratiquement aucune considération pour les créateurs. Seuls quelques-uns peuvent gagner leur vie sur YouTube, Tiktok ou Instagram par exemple. Dans Reddit, il existe une rémunération métallique pour les « contribuables » qu'ils créent le plus pour la plate-forme.

CloudFlare et Content Locks. Les sociétés de contenu commencent à agir de manière similaire, et au cours des deux dernières années, nous avons vu comment certains groupes de rédaction – y compris les accords de dépêche – avec les sociétés d'IA afin qu'ils puissent utiliser leur contenu.

5 000 "jetons" de mon blog sont utilisés pour former une IA. Je n'ai pas donné ma permission

Vous ne pouvez pas passer! Cependant, il y a des entreprises qui vont plus loin. Nous avons comme exemple clair à CloudFlare, qui a créé un système pour les entreprises qui utilisent leurs services pour bloquer les « Crawlers d'IA » qui essaient de voler leur contenu. Si vous êtes un client CloudFlare, vous pouvez activer ce bloc, en évitant ainsi le problème ou au moins le mettre beaucoup plus difficile aux entreprises d'IA qui essaient de former leurs modèles avec vos données. Les médias et les plates-formes telles que l'Associated Press, Fortune, Time ou Stack Overflow sont certaines des entreprises qui utilisent déjà ledit système.

Quid Pro Quo. Ce jeu de chat et de souris est particulièrement frappant pour l'ensemble du segment de la création de contenu, car les entreprises IA utilisent tous les raccourcis qui peuvent être capturés (et voler), ont ou non le droit d'auteur. Ce que Reddit augmente, c'est un modèle dans lequel les créateurs compensent l'IA pour prendre ces données. Ou plus que les créateurs, les plates-formes qui servent de réunion et de présentation. Les groupes de médias et les producteurs de contenu audiovisuel ont une opportunité intéressante ici face à l'effondrement potentiel du trafic causé par des solutions telles que Google IA Présentation.

Dans Simseo | La « décomposition numérique »: comment 38% des sites Web qui existaient en 2013 ont disparu d'Internet