la plateforme vient de leur déclarer la guerre
Les entreprises d’intelligence artificielle (IA) ont soif de données pour entraîner leurs modèles. L'une des alternatives les plus utilisées pour satisfaire cet appétit est une technique qui permet d'extraire et de stocker information publique des pages Web à gauche et à droite. La plupart du temps, cette activité est réalisée sans le consentement des créateurs ou des titulaires de licence du contenu, donc aucun paiement n’est impliqué.
Reddit a annoncé une mesure pour lutter contre le spam. La plateforme, qui héberge des millions de conversations sur une grande variété de sujets catalogués dans des subreddits, empêchera les entreprises non autorisées d'utiliser son contenu public. Il s’agit d’un changement au niveau, notamment au niveau du protocole d’exclusion du fichier robots.txt, qui sera mis en œuvre « dans les semaines à venir ».
Reddit, sur le chemin de la guerre avec les web scrapers
Le mouvement susmentionné cherche à restreindre l'accès au contenu de la société dirigée par Steve Huffman aux acteurs qui Ils n'ont pas d'accord avec la plateforme. Au cours des derniers mois, rappelons-le, nous avons vu comment des géants technologiques comme OpenAI, propriétaire de ChatGPT, et Google, créateur de Gemini, ont formalisé des alliances avec Reddit. En d’autres termes, si vous n’avez pas d’accord, vous n’avez pas accès aux données.
Les changements annoncés ce mercredi ont été reflétés dans la politique de contenu public de la plateforme. A noter que, même si l’entreprise leur déclare la guerre, elle promet de continuer à proposer ses contenus aux chercheurs et universitaires. La plateforme affirme également qu'elle garantira l'accès aux modérateurs et aux organisations comme Internet Archive, qui cherche à préserver le contenu en ligne.
Dans le monde de l’IA dans lequel nous vivons, non seulement le texte compte, mais aussi les images, la musique ou les vidéos. Pendant longtemps, on l'a vu, les entreprises ils ont « gratté » le web pour nourrir vos modèles avec du contenu en tout genre. Des entreprises comme OpenAI hésitent cependant à répondre en détail d’où proviennent les données qu’elles utilisent et soulignent qu’elles utilisent du contenu sous licence, par accord, et du contenu « accessible au public ».
Ce qui précède n’a cependant pas empêché un géant comme le New York Times de poursuivre Microsoft et OpenAI pour violation du droit d’auteur. Ou que des maisons de disques telles que Sony Music, Warner Music et Universal Music lancent une bataille juridique contre les générateurs de musique Suno AI et Udio pour avoir apparemment utilisé leurs chansons. Nous sommes témoins de la bataille des données pour alimenter l’IA. Avec le temps, nous saurons comment tout cela se terminera.
Images | reddit
À Simseo | YouTube voit un avenir dans lequel l'IA clonera la musique d'aujourd'hui. Convaincre les maisons de disques ne sera pas chose facile.