L’IA ne parle ni n’écrit comme un humain. Et c’est précisément pour cette raison qu’il y a des gens qui gagnent 600 euros par semaine
Ces derniers mois, nous sommes nombreux à avoir parlé à une intelligence artificielle sans trop y penser. Nous lui avons posé des questions, nous lui avons demandé des conseils ou nous avons simplement testé jusqu’où va sa capacité à entretenir une conversation naturelle. Des outils comme ChatGPT ou les modes vocaux Gemini ont rapproché cette expérience de quelque chose qui, il n’y a pas si longtemps, semblait réservé à la science-fiction, avec d’inévitables échos de « Elle ». Mais il y a une question que nous nous posons rarement lorsque nous leur parlons : comment ces machines ont-elles appris à ressembler de moins en moins à un système et davantage à une personne.
Pour le comprendre, il convient de séparer ce que l’on voit de ce que l’on ne voit pas. D’une part, il y a les applications que nous utilisons quotidiennement, ces assistants qui répondent avec une voix de plus en plus naturelle. D’un autre côté, les systèmes qui les supportent sont des modèles entraînés avec de gros volumes de données qui doivent apprendre non seulement quoi dire, mais aussi comment le dire. Nous ne savons pas quels produits spécifiques finissent par utiliser ce type d’enregistrement, mais nous savons qu’ils font partie de l’écosystème avec lequel sont formés des systèmes vocaux de plus en plus fluides et crédibles.
Quand on rentre dans les détails, ce que font ces travailleurs ne ressemble pas beaucoup à l’idée classique de « former une IA ». Dans de nombreux cas, cela implique d’avoir des conversations avec des inconnus sur des sujets apparemment triviaux, depuis les goûts quotidiens jusqu’aux questions ouvertes qui nécessitent que vous élaboriez une réponse. Dans d’autres, la mission est plus exigeante : jouer un rôle, suivre un scénario sans en avoir l’air ou entrer sur un terrain émotionnel.
Bloomberg raconte, par exemple, le cas d’une ouvrière qui a raconté des souvenirs douloureux de sa vie en discutant avec un homme qui se présentait comme pasteur et qui, dans le cadre de l’exercice, jouait le rôle d’un thérapeute.
Tout ce matériel enregistré répond à un objectif très précis : capturer les nuances. Nous ne parlons pas seulement de mots, mais de pauses, de respirations, de changements de ton, d’hésitations ou de réactions émotionnelles qui donnent à une conversation un aspect humain. Il existe également des tâches d’étiquetage dans lesquelles les travailleurs doivent distinguer si un audio contient un sanglot, un rire ou quelqu’un qui parle entre des rires. La logique sous-jacente est simple : si une machine veut cesser de paraître robotique, elle doit d’abord être exposée à la façon dont nous parlons réellement.
La main humaine derrière une voix artificielle
À partir de là, la question s’impose : comment accéder à ce type d’emploi et combien gagne-t-on réellement ? Des plateformes comme Babel Audio fonctionnent comme des intermédiaires qui relient ces travailleurs à des projets spécifiques. Après avoir réussi un premier test vocal, ils peuvent opter pour des tâches qui commencent à environ 17 dollars par heure enregistrée, bien que le revenu final dépende de l’évaluation reçue et du volume de commandes disponibles. Les revenus varient également beaucoup : un travailleur cité par les médias susmentionnés affirme gagner environ 600 dollars par semaine.

Voici à quoi ressemble le site BabelAudio
Au fur et à mesure que nous avançons, les travaux commencent à montrer un côté moins visible. Au-delà des tarifs et de la promesse de flexibilité, les témoignages pointent vers un environnement marqué par l’incertitude et un contrôle constant. Les plateformes peuvent limiter l’accès aux tâches, interrompre des projets ou suspendre des comptes sans explications détaillées, laissant de nombreux travailleurs dans une position fragile. De plus, chaque conversation est soumise à des mesures en temps réel qui évaluent si quelqu’un parle trop ou pas assez, son expressivité, sa maîtrise de la langue, la profondeur de l’échange et même la durée des pauses.
Lorsque l’on élargit le champ, le débat cesse d’être uniquement professionnel et devient également personnel. Une partie de la valeur de ces enregistrements réside précisément dans le fait qu’ils capturent la façon dont nous parlons et comment nous interagissons, ce qui implique que les travailleurs contribuent plus qu’une tâche mécanique. Les termes autorisent généralement l’utilisation de ces enregistrements dans les assistants vocaux, la synthèse vocale et « d’autres produits et services liés à l’audio ».

Lorsque nous connectons toutes les pièces, nous voyons une industrie qui fonctionne grâce à une chaîne de production complexe. Le Centre Pulitzer décrit cet écosystème comme un réseau de travail fragmenté dans lequel les travailleurs sont souvent soumis à des accords de confidentialité, opèrent avec très peu de transparence et, dans de nombreux cas, ne savent même pas quel système ils suivent ou à quelle entreprise leur travail est destiné. Dans ce contexte, les conversations qui alimentent les systèmes vocaux ne sont qu’une partie d’une machine plus vaste, où chaque tâche contribue à construire des technologies de plus en plus sophistiquées.
Images | Simseo avec Nano Banane 2 | Capture d’écran
À Simseo | Félicitations, vous programmez déjà sans savoir programmer. Préparez-vous maintenant à attendre six semaines pour qu’Apple vous écoute
