Le message est clair, si vous utilisez mes données sans payer, préparez vos avocats

Le modèle économique d’Internet repose depuis des décennies sur un pacte tacite : si quelque chose est gratuit, le produit, c’est probablement nous. Pendant des années, cette logique a été assumée sans secousses majeures, mais l’émergence de l’intelligence artificielle change les règles. Les plateformes qui stockent les conversations humaines sont devenues des mines d’or pour les modèles de formation, ce qui a réouvert de vieilles questions sur la valeur des données. Au milieu de ce nouveau scénario, Reddit s’est fortement implanté. Bien que ses millions d'utilisateurs ne reçoivent aucune compensation pour le contenu qu'ils génèrent, l'entreprise a clairement indiqué qu'elle ne tolérerait pas que d'autres l'utilisent sans payer pour cela.

La fermeté de Reddit s'est concrétisée dans un nouveau procès déposé devant la justice américaine. La société accuse Perplexity AI et trois fournisseurs de services de grattage de données d'avoir contourné ses mécanismes de protection pour accéder à des contenus protégés par le droit d'auteur. Dans sa plainte, Reddit décrit un « scraping à l’échelle industrielle » et soutient que l’objectif de ces entreprises est d’obtenir illicitement le matériel qui alimente les moteurs d’intelligence artificielle. C'est un nouveau chapitre dans une stratégie de contrôle de l'utilisation de vos contenus.

Un cas bien particulier. Au centre de la plainte se trouvent Perplexity AI et trois intermédiaires de grattage de données en masse : SerpApi, Oxylabs et AWMProxy. Reddit les décrit comme des « braqueurs de banque en herbe », une métaphore avec laquelle l'entreprise illustre la tentative d'accès à leur contenu par des moyens indirects. Au lieu de signer un accord de licence, affirme le procès, ces sociétés auraient choisi d'utiliser des services tiers pour collecter des publications, des commentaires et des données protégées par le droit d'auteur. Le moteur de recherche conversationnel est répertorié comme client d’« au moins un » de ces fournisseurs.

Le document judiciaire détaille un modèle de comportement qui, selon Reddit, se répète depuis des mois. Les entreprises accusées auraient eu recours à des méthodes automatisées pour extraire des informations de la plateforme malgré les restrictions imposées sur leur dossier public. Le résultat, dénonce l'entreprise, a été un flux constant de publications qui ont fini par être intégrées au moteur d'intelligence artificielle du prévenu. Pour Reddit, il s’agit d’un scraping « à l’échelle industrielle » et dans un but clairement commercial.

Le test qui a tout déclenché. L’un des épisodes les plus pertinents de la plainte est une expérience que Reddit considère comme essentielle. En mai 2024, l’entreprise a ordonné au prévenu de cesser de collecter ses données. Cependant, peu de temps après, il a constaté une augmentation des mentions Reddit dans le moteur de réponse Perplexity. Pour le vérifier, il a publié une entrée conçue pour être visible uniquement par Google. Selon la plainte, quelques heures plus tard, le texte intégral de cette publication figurait déjà dans les résultats générés par le système de l'entreprise accusée.

Perplexité

La perplexité ne se cache pas. Perplexité constatée sur la plateforme Reddit elle-même. Dans ce message, elle explique qu'il s'agit d'une entreprise de « couche applicative » et qu'« elle ne forme pas de modèles d'intelligence artificielle avec du contenu Reddit ». « Il ne l'a jamais fait », ajoute le texte. Selon l'entreprise, cette différence rend impossible la signature d'un accord de licence comme ceux que Reddit a conclu avec d'autres sociétés. « Il y a un an, après avoir expliqué cela, Reddit a insisté pour que nous payions quand même. Céder à ce type de tactiques n'est pas la façon dont nous faisons des affaires », conclut le communiqué.

Quand il y a un accord, il y a de l’argent. La position de Reddit contre Perplexity contraste avec les accords qu'elle a signés avec d'autres entreprises technologiques. En février 2024, elle a élargi sa collaboration avec Google pour permettre l'accès à son contenu via l'API de données, de manière structurée et sous licence. Trois mois plus tard, elle a annoncé un partenariat similaire avec OpenAI : ChatGPT et les autres produits de la société peuvent afficher les publications récentes de Reddit dans leurs réponses.

Ce que nous acceptons (plusieurs fois) sans lire. Derrière tout ce débat se cache un élément que de nombreux utilisateurs négligent : les conditions d'utilisation de Reddit. En créant un compte, chaque personne accorde à la plateforme une licence mondiale, perpétuelle, irrévocable et pouvant faire l'objet d'une sous-licence, pour utiliser son contenu. Cette licence vous permet de copier, modifier, distribuer ou publier toute contribution, y compris la mettre à disposition d'autres sociétés associées. Le texte précise également que Reddit peut utiliser ce matériel pour « former des modèles d’intelligence artificielle et d’apprentissage automatique ». En d’autres termes, l’autorisation est déjà accordée.

Alors qu'OpenAI s'empare de toute la gloire médiatique avec ChatGPT, Alibaba gagne déjà des clients importants avec Qwen. Le dernier en date : Airbnb

Quelque chose que nous avons déjà vu et ce qui reste à voir. Reddit dessine depuis un certain temps un modèle d'action clair. En 2023, elle a durci les conditions d’accès à l’API, ce qui a entraîné de vastes protestations et la fermeture temporaire de milliers de communautés. Un an plus tard, en mai 2024, elle a envoyé une lettre de cessation à Perplexity pour utilisation non autorisée de ses données et a ensuite intenté une action en justice contre Anthropic pour des raisons similaires. Le litige actuel s’inscrit dans cette même logique : protéger la valeur de votre contenu et renforcer votre contrôle sur qui peut l’utiliser.

L’affaire entre Reddit et Perplexity en est encore à sa phase initiale, mais ses implications sont évidentes. Ce que décideront les tribunaux pourrait créer un précédent pour de futurs litiges entre les plateformes et les développeurs d’intelligence artificielle. D’un côté, il y a la défense du libre accès à l’information ; de l'autre, le droit des entreprises à protéger les contenus générés dans leurs communautés. Le résultat définira dans quelle mesure les plateformes contrôlent le matériel que les utilisateurs partagent quotidiennement.

Images | Reddit | Simseo avec Gémeaux 2.5 | Perplexité

À Simseo | La course pour installer un robot humanoïde dans notre maison a commencé. C'est une course absurde