utiliser le contenu de Reddit sans pitié

Google a mis à jour sa plateforme de recherche pour la énième fois, mais il l’a fait avec un changement particulièrement important. L’expérience utilisateur dans ses moteurs de recherche IA (à la fois AI Overviews et AI Mode) tente de devenir plus « humaine ». Et pour ce faire, dans ces recherches, Google ajoutera plus de contexte aux liens, comme des extraits de forums Internet et de blogs. Et s’il y a un bénéficiaire (ou un lésé) de ce mouvement, c’est bien Reddit.

Google était déjà une passerelle vers Reddit. Il y a un comportement que Google constate depuis des années dans ses données et qu’il a longtemps préféré ne pas reconnaître publiquement : quand quelqu’un veut une vraie réponse à une vraie question, il ajoute « Reddit » à la fin de la recherche. Non pas parce que Reddit est nécessairement une source fiable, mais parce que Reddit rassemble de vraies personnes qui ont rencontré ce problème, essayé de le résoudre et écrit à ce sujet sans que personne ne les paie pour le faire. Google, avec toute son infrastructure et tous ses algorithmes, n’avait pas réussi à reproduire cela. Donc, au lieu d’essayer, il intégrera directement ces réponses.

Qu’est-ce qui a changé exactement. La mise à jour du moteur de recherche entraînera l’apparition de fragments provenant de forums, de réseaux sociaux et d’autres « sources à la première personne » dans les aperçus de l’IA. Lorsqu’une personne recherche quelque chose pour lequel il n’existe pas de réponse objective unique, l’IA de Google inclut les perspectives et les opinions trouvées dans toutes sortes de sources (supposéement) humaines en ligne. Cela ajoutera le nom du créateur de ce contenu (ou son avatar) et l’origine d’où provient ladite perspective. Google promet également d’ajouter plus de contexte sur l’origine de ses réponses générées par l’IA, de la même manière que ChatGPT ou Claude incluent des liens soutenant leurs réponses.

Fatigué de tant de référencement. La raison est évidente : les résultats organiques de Google pour des questions pratiques et subjectives – « quel aspirateur dois-je acheter », « comment soigner l’oreille de mon chien », « quel est le meilleur quartier pour vivre à Valence » – sont dominés par le référencement et les techniques optimisées pour apparaître sur Google. Il est important de se positionner, pas de bien répondre à la question. C’est précisément là que Reddit, comme d’autres forums ou blogs personnels, a quelque chose que ce contenu n’a généralement pas : l’expérience réelle de quelqu’un qui s’est trouvé dans la même situation. Google le résume sans détour dans sa propre déclaration : « Pour de nombreuses recherches, les gens se tournent de plus en plus vers d’autres personnes pour obtenir des conseils. »

Une contradiction que Google n’a pas résolue. Il y a un problème potentiel dans cette nouvelle façon de concevoir ces recherches avec l’IA. Les aperçus IA ont été conçus pour répondre directement aux questions et ainsi éviter à l’utilisateur le travail de clic, de lecture et de recherche. Désormais, ils incluront des points de vue divers, voire contradictoires, issus des forums et des réseaux sociaux. Alors, les aperçus de l’IA répondront-ils à la question, ou nous obligeront-ils à retourner aux sources pour trouver la réponse ? Si c’est ce dernier cas, ce ne sera pas très différent de ce que faisait déjà le moteur de recherche traditionnel de Google. Il existe ici un déséquilibre intéressant entre « nous vous donnons la réponse » et « nous vous donnons le contexte pour que vous puissiez trouver la réponse ». D’une certaine manière, la décision de Google complique les recherches.

Les modèles d’IA sont de moins en moins sujets aux échecs. Les fameux cas d’ajout de colle à la pizza sont désormais beaucoup moins courants, et les nouveaux modèles se vantent souvent d’une réduction significative des taux d’« hallucinations » qu’ils ressentent. GPT-5.5 Instant, sorti cette semaine, « a produit 52,5 % d’hallucinations en moins que GPT-5.3 Instant », a déclaré OpenAI dans son annonce officielle. Le problème est que ces hallucinations sont de plus en plus difficiles à détecter car ces chatbots cachent très bien ces erreurs. Le fait que le système inclut désormais du contenu non vérifié ou validé provenant de réseaux comme Reddit peut être problématique : les votes de la communauté ne mesurent pas toujours la véracité ou l’utilité d’un certain fil de discussion.

Utiliser Reddit a ses inconvénients. Cette plateforme a de la valeur précisément parce qu’elle n’est pas optimisée pour les algorithmes de Google : elle est chaotique et contradictoire. Parfois, il y a des réponses brillantes de la part des gens, mais d’autres fois, il y a des commentaires complètement faux. Lorsqu’un utilisateur ajoute « Reddit » à sa recherche et lit les résultats, il évalue automatiquement quels commentaires sont utiles et lesquels ne le sont pas. Mais cette étape disparaît si Google extrait des fragments de ces discussions pour les inclure dans un aperçu de l’IA. Éliminez cette étape de filtrage humain et présentez ces réponses avec une autorité qu’elles ne devraient peut-être pas avoir. Google aura bien plus de mal qu’un humain à distinguer le commentaire de quelqu’un qui travaille dans la plomberie depuis vingt ans de celui de quelqu’un qui bricole comme hobby.

Le contrat fantôme. Il ne s’agit pas seulement d’une décision éditoriale ou technologique. En 2024, Google a signé un accord de 60 millions de dollars par an avec Reddit pour accéder à ses données et entraîner ses modèles. Vous n’intégrez pas le contenu de ce réseau social en tant que service public : vous monétisez un contrat commercial. Votre message selon lequel vous mettez en avant ces « voix originales » dit en réalité que vous avez payé pour cet accès privilégié au contenu Reddit et que vous allez maintenant profiter de cet accès et le rentabiliser. Ces revenus sont sans aucun doute intéressants pour Reddit, mais il y a un problème : les clics.

Le précédent Stack Overflow. Il n’est pas nécessaire de spéculer beaucoup sur ce qui pourrait arriver puisque cela s’est déjà produit. Stack Overflow est la plus grande communauté de questions et réponses techniques sur Internet, mais elle a perdu la majeure partie de son trafic en deux ans parce que les sociétés d’IA ont commencé à collecter toutes ces réponses pour former leurs modèles et les proposer ensuite directement à leurs utilisateurs. Cela a amené les utilisateurs à cesser de visiter Stack Overflow et les experts à cesser de répondre aux questions. La qualité du nouveau contenu sur ce réseau a été clairement affectée, et il est devenu clair que si l’IA vous donnait déjà la réponse sans avoir à entrer dans Stack Overflow, pourquoi entrer ? Le danger pour Reddit est exactement le même.

Google n’avait pas beaucoup d’alternatives. ChatGPT, Claude et Perplexity ont depuis longtemps conquis des parts de marché dans les recherches pour lesquelles les gens ajoutaient auparavant « Reddit » : questions pratiques, recommandations subjectives ou résolution de problèmes spécifiques. Ces modèles répondent directement et naturellement et évitent de devoir naviguer dans des résultats pleins de SEO. L’inclusion de ce contexte et des liens de Reddit est une tentative d’utiliser cet avantage pour offrir quelque chose que les modèles linguistiques concurrents ne peuvent pas (pour le moment) : des perspectives humaines mises à jour et vérifiées par de véritables communautés. L’ironie est que l’IA, qui semble tout savoir, n’apprend et ne s’améliore que grâce aux connaissances et à l’expérience humaines accumulées et partagées.

Les liens constituent depuis le début l’unité de base de la communication sur Internet. L'IA les extermine petit à petit

Qui paie tout cela ? Au final, nous voyons comment Google utilise un système hybride, mais la question importante n’est pas de savoir si cela fonctionnera bien ou mal. La question est de savoir qui paie pour que le site Web qui alimente cet hybride continue d’exister. Google extrait le contenu de Reddit, des blogs, des forums et des réseaux sociaux, le traite avec l’IA et le présente dans un résumé qui élimine le besoin de visiter les sources originales. Et c’est là qu’entre l’inévitable et dangereux cercle vicieux. Si ces sites perdent du trafic, ils perdent des revenus. S’ils perdent des revenus, ils perdent la capacité de générer le contenu dont Google a besoin pour faire fonctionner ses aperçus d’IA. Tout un dilemme encore non résolu.

À Simseo | Les forums Internet disparaissent car désormais ils ne sont plus que Reddit et Discord. Et c’est inquiétant.