L'IA en tant que chatppt est possible grâce à l'utilisation aveugle du contenu en ligne. Cloudflare vient de dire que c'est fini
La grande IAS que nous utilisons quotidiennement comme GPT, Gemini, Claude, Perplexity and Company existe et sont capables de faire ce qu'ils font grâce, en grande partie, au contenu disponible sur Internet. Des entreprises telles que OpenAI, Google et Anthropic, pour en mentionner, ont suivi (et suivi en temps réel) le Web à la recherche de contenu qui répond aux questions de l'utilisateur.
Et ils le font, à moins qu'il n'y ait des accords spécifiques, sans offrir une considération aux créateurs de ce contenu au-delà d'un lien. C'est une pratique qui est en question de la naissance de cette technologie. Articles de blog, Wikipedia, livres, contenu généré par les utilisateurs, sur des données personnelles. Les trackers, ces robots automatisés, ne laissent rien derrière et aujourd'hui Cloudflare a dit que c'était fini
À partir d'aujourd'hui, Cloudflare bloquera ceux de l'IA, ce qui a plus d'implications sur ce que cela pourrait sembler. Commençons par le début.
Frawlers Web. Cette technologie n'est pas nouvelle et, en fait, c'est grâce à cela que les fondements sur lesquels Internet est basé (la recherche sur le Web) existe. Le « Google Spider » est sûrement familier, ce bot qui suit l'intégralité du site Web dans la recherche de contenu pour indexer et offrir à l'utilisateur. Eh bien, ce n'est que l'un des milliers et des milliers qui existent et qui génèrent 30% de tout le trafic dans le monde.
Cette technologie était en capital pour façonner Internet que nous connaissons et la relation avec les générateurs de contenu était symbiotique. L'économie du clic est née: le créateur génère un contenu, Google Lo Indexa, l'utilisateur le trouve via Google, Google génère des revenus avec la publicité du moteur de recherche, le créateur reçoit du trafic gratuit et génère des revenus grâce à la publicité, aux affiliés, etc.
Avec l'IA, le film est assez différent.
Données. Les modèles d'IA ont besoin d'informations pour se nourrir, être formés et être en mesure de répondre aux questions. Pour ce faire, les grandes entreprises que nous connaissons tous ont suivi le Web, ont extrait tout le contenu qu'elles pouvaient et l'utiliser pour développer des technologies telles que Chatgpt. Quel est le problème? Ce contenu pourrait être protégé par le droit d'auteur, ce qui a conduit le New York Times à exiger OpenAI pour cette même raison, car les sociétés de l'IA ont dû signer des accords avec les moyens d'accéder à leur contenu.
Image: Solen Feyissa
IAS connecté. L'IA évoluait et, comme prévu, elle a fini par se connecter à Internet. Non seulement il a donné des réponses sur la base de données de formation finie, mais pourrait être connectée au réseau pour rechercher la réponse dans les médias, les blogs et les pages en ligne en temps réel (ou presque en temps réel). L'utilisateur n'avait plus à cliquer sur un lien. L'IA a recherché, analysé et généré la réponse, faisant du trafic vers les médias et les blogs.
L'utilisateur n'accède plus au contenu d'origine, ne clique pas sur les liens. Au lieu de cela, il consomme un produit dérivé généré par l'IA
À cette technologie, les Crawlers de l'IA ou ce qui est le même est donné la vie: les trackers IA. Ce sont la digievolution des robots qui façonnent Internet que nous connaissons. Parmi eux se trouvent Openai GPTBOT, Meta-Externalaagent de Meta, Claudebot de Anthropic ou ByteSider de Bytedonce. Avec eux, la relation symbiotique que nous avons mentionnée ci-dessus commence à se détériorer car l'utilisateur n'accède plus au contenu d'origine, ne clique pas. Au lieu de cela, il consomme un produit dérivé généré par IA.
Le plus grand exemple: les nouvelles vues précédentes générées avec l'IA qui apparaissent sur Google à chaque fois que vous effectuez une recherche.


Volume des demandes quotidiennes des principaux bots AI | Image: cloudflare
Mettez le frein … ou pas, je suis juste un .txt. Comment résoudre ce suivi aveugle et sans considération? La première proposition a été de mettre à jour le fichier robots.txt pour indiquer les bots qui ne peuvent pas extraire le contenu d'un site Web. Ce fichier et l'une des ressources les plus utilisées pour administrer l'activité des bots, mais ont un petit problème: sa conformité est volontaire. Les entreprises IA peuvent suivre les instructions ou ignorer et extraire le contenu.
De plus, il peut arriver que nous touchions ce que nous ne devons pas et que notre site Web disparaît de Google. Chaque site Web qui veut être sur Google doit permettre à Googlebot, son araignée de le suivre. Le problème est que Google utilise le « Googlebot » pour le référencement et l'IA. Si quelqu'un bloque « Googlebot » sur son site Web, vous disparaîtrez de Google. La clé serait de bloquer « Google-étendue », qui est celle de l'IA, mais cette différenciation devrait être faite pour bot, une par une. C'est une tâche laborieuse, comme on peut déduire.
Cloudflare est planté. Nous arrivons à l'annonce récente faite par Cloudflare. La plate-forme (sur laquelle dépend Internet intermédiaire) a annoncé que, à partir d'aujourd'hui, le blocus de l'IA Crawler sera actif par défaut. Pour ce faire, CloudFlare propose une gestion directe de Robots.txt pour éviter des problèmes tels que le susmentionné. La clé, bien sûr, est que CloudFlare sera chargé de maintenir les blocages mis à jour selon l'IA Panorama. Ceci, bien qu'il soit activé par défaut, est volontaire et peut être complètement désactivé dans les ajustements.
Payer. L'autre proposition de Cloudflare est le salaire par rampe. Étant donné que l'IA continuera à avoir besoin d'accès au contenu d'un site Web, pourquoi ne pas donner au Créateur la possibilité de facturer un tel accès? Pay Per Crawl, qui est actuellement en version bêta, permet aux propriétaires de domaine de définir un prix fixe à la demande. Si un robot IA veut extraire le contenu de ce domaine, vous devrez payer pour cela. Sur le papier, cet outil a le potentiel de modifier le panorama actuel, mais tout dépendra de la portée, de son adoption et de quelles mesures prennent les opérateurs de tracker.
Image de couverture | Solen Feyissa
Dans Simseo | J'ai demandé à l'AI toutes les conneries et maintenant j'écris une nouvelle à son sujet