L'essor de ChatGPT est lié au déclin du partage des connaissances publiques sur les plateformes de questions-réponses en ligne

L'essor de ChatGPT est lié au déclin du partage des connaissances publiques sur les plateformes de questions-réponses en ligne

Une nouvelle étude publiée dans Nexus PNAS L'étude révèle que l'adoption généralisée de modèles de langages de grande taille (LLM), tels que ChatGPT, a entraîné une baisse significative du partage des connaissances publiques sur des plateformes comme Stack Overflow. L'étude met en évidence une réduction de 25 % de l'activité des utilisateurs sur le site de questions-réponses de programmation populaire dans les six mois suivant la sortie de ChatGPT, par rapport à des plateformes similaires où l'accès à ChatGPT est restreint.

« Les LLM sont si puissants, ont une telle valeur et ont un impact énorme sur le monde. On commence à s'interroger sur leur avenir », déclare Maria del Rio-Chanona, première auteure et membre associée du corps professoral du Complexity Science Hub (CSH).

« Notre étude a émis l'hypothèse qu'au lieu de poser des questions et de recevoir des réponses sur des plateformes publiques comme Stack Overflow, où tout le monde peut les voir et en tirer des enseignements, les gens posent leurs questions en privé sur ChatGPT. Cependant, les LLM comme ChatGPT sont également formés sur ces données ouvertes et publiques, qu'ils remplacent d'une certaine manière. Alors, que va-t-il se passer ? », ajoute Del Rio-Chanona, qui est également professeur adjoint à l'University College London, chercheur associé à l'Institute for New Economic Thinking de l'Oxford Martin School et au Bennett Institute for Public Policy de l'Université de Cambridge.

Les implications sont majeures

« Nos résultats montrent que depuis la sortie de ChatGPT, nous avons constaté que de moins en moins de questions et de réponses étaient posées sur Stack Overflow. Cela a des conséquences importantes. Cela signifie qu'il pourrait ne pas y avoir suffisamment de données publiques pour former des modèles à l'avenir », prévient Del Rio-Chanona. Dans cette étude, elle a collaboré avec Nadzeya Laurentsyeva, de l'Université Ludwig Maximilian de Munich, et Johannes Wachs, membre du corps enseignant du CSH et professeur à l'Université Corvinus de Budapest.

« Stack Overflow est une base de données de connaissances extrêmement précieuse, accessible à toute personne disposant d'une connexion Internet. Les gens du monde entier apprennent à partir des questions et des réponses que d'autres personnes publient », explique Wachs.

En fait, même les modèles d’IA comme ChatGPT sont formés à partir de contenu généré par l’homme, comme les publications Stack Overflow. Ironiquement, le remplacement de la création de contenu humain par l’IA rendra plus difficile la formation des futurs modèles d’IA. L’utilisation de données générées par l’IA pour former de nouveaux modèles est généralement considérée comme peu efficace, un processus comparable à la réalisation d’une photocopie d’une photocopie.

Un passage du public au privé

Les résultats de l’étude mettent également en évidence des scénarios qui vont au-delà des simples changements technologiques et touchent également la structure de nos structures économiques et sociales. Les utilisateurs pourraient être moins enclins à contribuer aux plateformes de connaissances ouvertes à mesure qu’ils interagissent davantage avec des LLM comme ChatGPT, ce qui entraîne le transfert de données précieuses des référentiels publics vers des systèmes d’IA privés, expliquent Del Rio-Chanona et ses collègues.

« Cela représente un déplacement important des connaissances du domaine public vers le domaine privé », affirment les chercheurs. Selon eux, cela pourrait également renforcer l’avantage concurrentiel des précurseurs en matière d’IA, en concentrant davantage les connaissances et le pouvoir économique.

Tous les niveaux d'expérience et de qualité

Del Rio-Chanona et ses collègues ont constaté que le déclin de la création de contenu sur Stack Overflow touchait les utilisateurs de tous niveaux d'expérience, des novices aux experts. Ils ont également observé que la qualité des publications n'avait pas diminué de manière significative, comme le montrent les commentaires des utilisateurs, ce qui indique que les contributions de faible et de haute qualité sont remplacées par les LLM.

En outre, l'étude a montré que l'activité de publication dans certains langages de programmation, tels que Python et Javascript, a chuté de manière significative par rapport à la moyenne de la plateforme.

« Les résultats suggèrent que les gens posent effectivement des questions sur Python et Javascript, deux des langages de programmation les plus couramment utilisés, sur ChatGPT plutôt que sur Stack Overflow », explique Del Rio-Chanona.