Reddit est devenu la meilleure source de données humaine. AI essaie de les attaquer

Tout le monde veut des données Reddit. Et ils veulent qu'ils soient pourquoi ils sont des données. C'est la grande valeur d'une plate-forme qui est devenue le joyau de la couronne des entreprises de l'IA. Ils veulent utiliser ces données pour former leurs modèles d'IA, et Reddit est fatigué d'essayer sans demander la permission … et sans payer.

Reddit exige anthropique. Le réseau social, marre de ce type de comportement, a enregistré un procès contre Anthropic, les créateurs de Claude, afin qu'il considère une violation du contrat et pour participer à des « actes commerciaux illicites et déloyaux » lors de l'utilisation de la plate-forme et des données de la société de médias sociaux sans autorisation. Ou quel est le même: pour voler les données de votre IA.

Critique émoussée. Dans le procès, les directeurs juridiques de Reddit commencent forts: « Anthropic est une entreprise d'intelligence artificielle de floraison tardive qui proclame le chevalier blanc de l'industrie de l'intelligence artificielle. C'est tout sauf cela. » Selon Reddit, Anthropic montre un visage public dans lequel il présume son respect pour la loi et faisant des choses légitimement, et un autre privé « qui ignore toute règle qui interfère avec ses tentatives de remplir encore plus ses poches ».

Trésor de données humaines. Reddit est devenu une précieuse source d'informations humaines. Si quelqu'un cherche des réponses, des expériences et des opinions dans RAW, c'est la plate-forme qui a fini par devenir une référence absolue. Dans Reddit, ils le savent. Son directeur juridique, Ben Lee, a expliqué dans le verge ce qui suit:

« L'humanité de Reddit a une valeur unique dans un monde aplati par l'IA. Maintenant, plus que jamais, les gens recherchent des conversations authentiques entre les humains. Reddit abrite près de 20 ans de débats riches et humains sur tous les sujets imaginables. Ces conversations ne se produisent pas ailleurs et sont fondamentales pour former des modèles linguistiques tels que Claude. »

Reddit a commencé à se protéger très bientôt. Sachant que ses «données humaines» étaient ce grand trésor avec lequel faire une boîte, Reddit a commencé à faire des mouvements pour profiter très bientôt de ces données. Quelques mois après le lancement de Chatgpt, il a semblé qu'il avait publié son API, aussi peu avant qu'Elon Musk ait fait avec X / Twitter. Le mouvement controversé visait clairement à protéger la plate-forme de ces oiseaux de proie dans lesquels les entreprises IA étaient devenues. Ensuite, les demandes commenceraient.

Si vous voulez mes données, payez. La politique de Reddit a été claire depuis le début, et il y a eu des entreprises qui ont pris le message. Google a été l'un des premiers à conclure un accord avec Reddit et a payé 60 millions de dollars à la plate-forme pour former ses modèles d'IA avec ces données. Openai a fini par faire de même, bien que le montant payé à Reddit n'ait jamais été révélé.

Discrépa anthropique. Un e-mail d'Anthropic à CNBC révèle que « nous ne sommes pas d'accord avec les plaintes de Reddit et nous nous défendrons vigoureusement ». Fait intéressant, Anthropic elle-même a bloqué l'accès de son modèle Claude à Windsurf, la startup de programmation nouvellement acquise d'Openai. Un de ses co-fondateurs a affirmé que « ce serait bizarre pour nous de le vendre (l'API de) Claude à Openai ». C'est un argument raisonnable – et discutable – mais il ne semble pas être également logique dans le cas de Reddit.

Mais il a déjà d'autres demandes en attente. Cette déclaration contraste avec deux autres exigences qu'Anthropic a reçues au cours des deux dernières années. En août dernier, trois auteurs l'ont poursuivie devant un tribunal fédéral en Californie pour « une entreprise milliardaire volant des centaines de milliers de livres avec le droit d'auteur ». Avant, en octobre 2023, Universal Music lui exigeait également au Tennessee une « violation systématique et généralisée du droit d'auteur des paroles de leurs chansons ». Le géant record a cependant perdu cette bataille, ce qui signifiait une victoire inquiétante pour les victoires technologiques.

5 000 "jetons" de mon blog sont utilisés pour former une IA. Je n'ai pas donné ma permission

Le pillage Internet continue. Il s'agit d'un autre cas de ce pillage absolu que les entreprises d'IA mettent sur Internet. Aucun d'eux n'est sauvé, bien que bien sûr, il existe des cas flagrantes tels que la perplexité ou le scandale d'objectifs récent en téléchargeant des livres avec le droit d'auteur pour former leurs modèles. S'il existe des données qui peuvent être utilisées pour améliorer la qualité de ces modèles, les entreprises essaient de les obtenir, et c'est exactement ce qui se passe avec Reddit.

Les IAS ne veulent pas de copyright. Tout ce processus fait partie d'un phénomène inquiétant: il n'y a toujours pas de punition pour toutes ces entreprises malgré la violation du droit d'auteur. Openai a déjà demandé à Carta Blanca de fonctionner à l'aise dans ce domaine, mais d'autres sociétés ont rejoint cette proposition inhabituelle d'éradiquer les lois sur le droit d'auteur, du moins pour leurs modèles d'IA. L'argument de «l'utilisation équitable» reste son grand bouclier devant ces demandes, mais la réalité est que les mois passent, nous insistons, il n'y a toujours pas de conséquences pour ce vol flagrant du contenu Internet.

Image | Anthropic | Reddit édité avec chatppt

Dans Simseo | Après 19 ans, Reddit est enfin une entreprise rentable: il l'a réalisée avec une stratégie particulière