Les sites Web utilisent cette méthode pour arrêter les scrapers AI. Le problème : ils peuvent l’ignorer sans effort
Les données sont devenues l’un des trésors les plus convoités de notre époque. Nous ne parlons pas de n’importe quel type de données, mais plutôt de celles qui sont pertinentes pour former des modèles de langage alimentant des applications d'intelligence artificielle (IA) telles que ChatGPT d'OpenAI, Claude d'Anthropic et Gemini de Google.
Une pratique courante pour obtenir des données est le web scraping. Les entreprises utilisent souvent des robots automatisés (internes ou tiers) pour extraire des informations de millions de pages Web afin de préparer d'énormes ensembles de données pour alimenter leurs algorithmes. Or, tout le monde n’est pas d’accord avec cette dynamique.
Robots.txt comme outil pour arrêter les scrapers
Des plateformes de toutes tailles ont commencé à prendre des mesures pour empêcher les robots de voler vos données. sans demander la permission ou sans payer. Le New York Times, qui a déjà intenté plusieurs poursuites, a mis à jour ses conditions générales pour atteindre cet objectif. Reddit, qui s'est associé à certaines entreprises, a mis à jour son fichier robots.txt.
Robots.txt est l'une des ressources les plus utilisées sur le Web pour gérer l'activité des robots gourmands en données. Le problème est qu’il s’agit d’un ensemble d’instructions de conformité volontaire. Les « mauvais » robots peuvent ignorer ce fichier et même l’utiliser comme guide pour collecter plus facilement les données que vous souhaitez protéger.
Imaginez robots.txt comme un panneau établissant les règles que toute personne entrant dans un quartier doit suivre. Certains n'hésiteront pas à le respecter, tandis que d'autres n'auront pas aucun problème pour l'ignorer. Pour en revenir à la scène des robots, il semble que de nombreux robots effectuent cette dernière opération.
Comme le rapporte le Financial Times, les plateformes iFixit.com et Freelancer.com ont accusé Anthropic d'ignorer les instructions du fichier robots.txt de ne pas extraire de données. Kyle Wiens, PDG de la première société, a déclaré que le robot d'Anthropic avait déclenché toutes les alarmes de circulation dont ils disposaient et qu'ils avaient détecté 1 million de visites en 24 heures.
Wiens a ajouté que les conditions d'iFixit interdisent l'utilisation de ses données pour des tâches d'apprentissage automatique, donc l'activité détectée par Anthropic peut être illégal si l'entreprise collecte des données pour entraîner ses modèles de langage. Anthropic, de son côté, a déclaré que son bot respectait les instructions robots.txt.
Comme nous le disons, la plupart des entreprises d'IA dont nous parlons aujourd'hui utilisent des données du Web ouvert pour entraîner leurs modèles de langage. Il existe désormais peu d’informations détaillées sur l’origine des données de nombreux modèles populaires. OpenAI, par exemple, affirme avoir formé GPT-4 « en utilisant à la fois des données accessibles au public (telles que des données provenant d'Internet) et des données sous licence de fournisseurs tiers ».
Apple, pour sa part, affirme entraîner ses modèles d'IA avec « des données sous licence, y compris des données sélectionnées pour améliorer des fonctionnalités spécifiques, ainsi que des données accessibles au public collectées par notre robot d'exploration Web, AppleBot. De même, l’entreprise veille à respecter strictement les directives des fichiers robots.txt.
Images | Simseo avec Bing Image Creator
À Simseo | Le prix à payer pour avoir l’IA est le pillage de tous les contenus Internet. Et Perplexity n'est que le dernier exemple