Il y a un mot qui s’est multiplié de manière exagérée dans les articles scientifiques pour une raison : ChatGPT l’aime bien
Qu’il existe des articles académiques rédigés par l’IA est quelque chose qui a déjà été prouvé, la question est de savoir quelle est sa gravité. Pour connaître l'ampleur de cette pratique, un groupe de chercheurs a examiné des millions de résumés d'articles publiés dans PubMed et a trouvé quelque chose d'intéressant : il y a un mot que l'IA adore et la raison pour laquelle elle l'aime tant est assez obscure.
Creuser. Sa traduction est « approfondie » et son utilisation multipliée par 28 entre 2022 et 2024, ce qui coïncide par coïncidence avec l'essor de ChatGPT et des modèles linguistiques. D'autres mots tels que « underscore » ou « showcasing » sont également cités, avec une augmentation de fréquence de x13,8 et x10,7 respectivement. Aucun d'entre eux n'est un nom ou un mot lié au contenu, mais ont plutôt à voir avec le style d'écriture et sont très caractéristiques du langage fleuri que les LLM utilisent habituellement.
Langage fleuri. Cela signifie-t-il que si nous voyons l’un de ces mots dans un article, il a été écrit avec l’IA ? Pas forcément, mais la hausse est brutale. Les chercheurs ont comparé la montée en puissance de « delve » à d'autres mots-clés, tels que pandémie, qui a connu un énorme pic en 2020 et a commencé à décliner en 2021. L'augmentation de la fréquence d'utilisation de « delve » est beaucoup plus prononcée que toutes les autres.
Ce n’est pas une coïncidence. Il y a une étape dans le processus de création d’un chatbot comme ChatGPT qui nécessite une intervention humaine pour affiner les réponses ; C’est ce qu’on appelle l’apprentissage par renforcement à partir du feedback humain (RLHF). Il s’avère que la plupart des travailleurs qui se consacrent à ce travail de raffinage se trouvent dans des pays africains, comme le Nigeria. Devinez où l’utilisation de ces mots dans l’anglais formel est assez courante. Exactement, au Nigeria.
Style africain. « Delve » est un mot assez courant dans l'anglais des affaires en Afrique, notamment au Nigeria, et ce n'est pas le seul. Il y en a aussi d'autres comme « levier », « explorer » ou « tapisserie » qui sont plus courants en anglais africain. Selon 311institute, bien que le feedback humain soit très faible par rapport aux énormes quantités de données d'entraînement, il a un grand impact puisque c'est ce qui définit le ton du modèle lorsqu'il nous répond.
Étiquetage des données. Il s’agit d’une étape clé pour former de grands modèles de langage et nécessite la participation humaine. Le problème est que la majorité des travailleurs qui s’y consacrent viennent de pays pauvres comme le Nigeria, le Kenya ou l’Inde, entre autres. Comme si les heures interminables et les salaires ridicules ne suffisaient pas, les travailleurs doivent souvent revoir des images violentes et très explicites, le tout sans aucun type de soutien psychologique.
À Simseo | Être modérateur de porno n’est pas amusant du tout. Il a été exposé à « des contenus extrêmes, violents, graphiques et sexuellement explicites »
Images | Institut National des Allergies et des Maladies Infectieuses sur Unsplash
