L'IA apprend de ce que vous avez dit sur Reddit, Stack Overflow ou Facebook. Ça vous convient ?

Postez un commentaire sur Reddit, répondez à des questions de codage sur Stack Overflow, modifiez une entrée Wikipédia ou partagez une photo de bébé sur votre flux public Facebook ou Instagram et vous contribuez également à former la prochaine génération d'intelligence artificielle.

Tout le monde n’est pas d’accord avec cela, d’autant plus que les mêmes forums en ligne sur lesquels ils contribuent depuis des années sont de plus en plus inondés de commentaires générés par l’IA imitant ce que de vrais humains pourraient dire.

Certains utilisateurs de longue date ont tenté de supprimer leurs contributions passées ou de les réécrire en charabia, mais les protestations n'ont pas eu beaucoup d'effet. Une poignée de gouvernements, dont le régulateur brésilien de la vie privée mardi, ont également tenté d'intervenir.

« Une part plus importante de la population se sent impuissante », a déclaré Sarah Gilbert, modératrice bénévole de Reddit, qui étudie également les communautés en ligne à l'université Cornell. « Elle n'a d'autre choix que de se déconnecter complètement ou de ne pas contribuer d'une manière qui lui apporte de la valeur, à elle et aux autres. »

Les plateformes réagissent, avec des résultats mitigés. Prenons l'exemple de Stack Overflow, le célèbre site de conseils en programmation informatique. Au début, il interdisait les réponses écrites par ChatGPT en raison d'erreurs fréquentes, mais il s'associe désormais à des développeurs de chatbots IA et a puni certains de ses propres utilisateurs qui ont essayé d'effacer leurs contributions passées en signe de protestation.

C'est l'une des nombreuses plateformes de médias sociaux qui doivent faire face à la méfiance des utilisateurs – et à des révoltes occasionnelles – alors qu'elles tentent de s'adapter aux changements apportés par l'IA générative.

Le développeur de logiciels Andy Rotering de Bloomington, Minnesota, utilise Stack Overflow quotidiennement depuis 15 ans et a déclaré qu'il craignait que l'entreprise « puisse par inadvertance nuire à sa plus grande ressource » : la communauté de contributeurs qui ont donné de leur temps pour aider d'autres programmeurs.

« Il devrait être primordial de motiver les contributeurs à fournir des commentaires », a-t-il déclaré.

Le PDG de Stack Overflow, Prashanth Chandrasekar, a déclaré que la société essayait d'équilibrer la demande croissante d'assistance instantanée au codage générée par un chatbot avec le désir d'une « base de connaissances » communautaire où les gens veulent toujours publier et « être reconnus » pour ce qu'ils ont contribué.

« Dans cinq ans, il y aura toutes sortes de contenus générés par des machines sur le Web », a-t-il déclaré lors d'une interview. « Il y aura très peu d'endroits où l'on trouvera une pensée humaine authentique et originale. Et nous sommes l'un de ces endroits. »

Chandrasekar décrit volontiers les défis de Stack Overflow comme l'une des « études de cas » qu'il a apprises à la Harvard Business School, sur la façon dont une entreprise survit – ou non – après un changement technologique perturbateur.

Pendant plus d'une décennie, les utilisateurs accédaient généralement à Stack Overflow après avoir tapé une question de codage dans Google, puis ils trouvaient la réponse, la copiaient et la collaient. Les réponses qu'ils étaient le plus susceptibles de voir provenaient de bénévoles qui avaient accumulé des points mesurant leur crédibilité, ce qui dans certains cas pouvait les aider à décrocher un emploi.

Désormais, les programmeurs peuvent simplement poser une question à un chatbot IA (dont certains sont déjà formés sur tout ce qui est publié sur Stack Overflow) et il peut instantanément fournir une réponse.

Le lancement de ChatGPT fin 2022 a menacé de mettre Stack Overflow en faillite. Chandrasekar a donc constitué une équipe spéciale de 40 personnes au sein de l'entreprise pour accélérer le lancement de son propre chatbot spécialisé en IA, appelé Overflow AI. Ensuite, l'entreprise a conclu des accords avec Google et le créateur de ChatGPT, OpenAI, permettant aux développeurs d'IA d'exploiter les archives de questions-réponses de Stack Overflow pour améliorer encore leurs modèles de langage volumineux d'IA.

Ce type de stratégie est logique, mais elle est peut-être arrivée trop tard, a déclaré Maria Roche, professeure adjointe à la Harvard Business School. « Je suis surprise que Stack Overflow n'ait pas travaillé sur ce sujet plus tôt », a-t-elle déclaré.

Lorsque certains utilisateurs de Stack Overflow ont tenté de supprimer leurs anciens commentaires après l'annonce du partenariat Open AI, la société a réagi en suspendant leurs comptes en raison de conditions qui rendent toutes les contributions « perpétuellement et irrévocablement sous licence à Stack Overflow ».

« Nous avons rapidement réagi et dit : 'Écoutez, ce n'est pas un comportement acceptable' », a déclaré Chandrasekar, décrivant les manifestants comme une petite minorité parmi les « quelques centaines » des 100 millions d'utilisateurs de la plateforme.

L'autorité nationale de protection des données du Brésil a pris mardi des mesures pour interdire au géant des réseaux sociaux Meta Platforms d'utiliser les publications Facebook et Instagram des Brésiliens pour former ses modèles d'intelligence artificielle. Elle a instauré une amende quotidienne de 50 000 réaux (8 820 dollars) en cas de non-respect de cette interdiction.

Meta a qualifié cette initiative de « pas en arrière en matière d'innovation » et a déclaré qu'elle avait été plus transparente que de nombreux homologues du secteur effectuant des formations similaires en IA sur du contenu public, et que ses pratiques étaient conformes aux lois brésiliennes.

Meta a également rencontré des résistances en Europe, où elle a récemment suspendu son projet de commencer à intégrer les publications publiques des internautes dans des systèmes d'IA de formation, ce qui devait commencer la semaine dernière. Aux États-Unis, où il n'existe pas de loi nationale protégeant la confidentialité en ligne, une telle formation est probablement déjà en cours.

« La grande majorité des gens n’ont aucune idée que leurs données sont utilisées », a déclaré Gilbert.

Reddit a adopté une approche différente, en s'associant à des développeurs d'intelligence artificielle comme OpenAI et Google, tout en précisant que le contenu ne peut pas être récupéré en masse sans l'approbation de la plateforme par des entités commerciales « sans égard aux droits des utilisateurs ou à la vie privée ». Ces accords ont permis à Reddit de gagner l'argent dont il avait besoin pour faire ses débuts à Wall Street en mars, les investisseurs poussant la valeur de l'entreprise à près de 9 milliards de dollars quelques secondes après son entrée en bourse à New York.

Reddit n'a pas essayé de punir les utilisateurs qui protestaient, et il ne pourrait pas le faire facilement étant donné l'influence des modérateurs volontaires sur ce qui se passe dans leurs forums spécialisés, appelés subreddits. Mais ce qui inquiète Gilbert, qui aide à modérer le subreddit « AskHistorians », c'est le flux croissant de commentaires générés par l'IA que les modérateurs doivent décider d'autoriser ou d'interdire.

« Les gens viennent sur Reddit parce qu'ils veulent parler à des gens, ils ne veulent pas parler à des robots », a déclaré Gilbert. « Il existe des applications qui leur permettent de parler à des robots s'ils le souhaitent. Mais historiquement, Reddit a été conçu pour se connecter avec des humains. »

Elle a déclaré qu'il était ironique que le contenu généré par l'IA menaçant Reddit provienne des commentaires de millions d'utilisateurs humains de Reddit, et « il existe un risque réel que cela finisse par pousser les gens à partir ».