Certains travailleurs d'Amazon dépensent des jetons IA uniquement pour gonfler les statistiques des jetons dépensés en IA.

Il possède désormais son cas le plus documenté. Certains employés d’Amazon utilisent depuis des semaines MeshClaw, un outil d’agent interne d’IA, pour automatiser des tâches inutiles et gonfler ainsi leur consommation dans les tableaux de bord internes que l’entreprise a mis en place.

Ce n’est pas la première fois qu’une telle chose se produit dans la Silicon Valley :

Meta avait son propre classement, avec un gagnant remportant le titre de
Et des modèles similaires ont été documentés chez Microsoft.

Mais le cas Amazon ajoute un détail qui le rend plus frappant : l’outil utilisé pour tricher est le même que celui qu’Amazon a officiellement déployé pour faire mieux travailler ses ingénieurs.

Pourquoi c’est important. Amazon exige que plus de 80 % de ses développeurs utilisent des outils d’IA chaque semaine et mesure la conformité grâce à des marqueurs de consommation LLM. La société a déclaré que ces statistiques ne seraient pas utilisées dans les évaluations de performances.

Plusieurs employés ont répondu avec des variantes de la même phrase : les managers le regardent. « Lorsqu’ils suivent l’utilisation, des incitations perverses sont créées et il y a des gens qui sont très compétitifs avec cela », a déclaré l’un d’eux au .

Oui, mais. Il y a une lecture plus généreuse. Forcer une grande organisation à entrer en contact avec de nouveaux outils répond à une certaine logique : si vous forcez suffisamment de personnes à les utiliser, quelqu’un finit par en trouver une utilisation vraiment utile.

Le problème est que cela ne fonctionne que s’il y a une véritable exploration. Un salarié qui délègue à un agent la tâche de résumer des emails que personne ne lira n’apprend rien, il gonfle simplement ses métriques.

La grande question. Amazon a engagé 200 milliards dans l’infrastructure d’IA dont la demande, en théorie, est absorbée au fur et à mesure de son déploiement. Si une partie de cette consommation intérieure est pure, les chiffres qui justifient ces demandes sont moins fiables qu’il n’y paraît.

La distinction entre adoption réelle et consommation gonflée est importante car la première génère une demande durable tandis que la seconde disparaît dès que les incitations changent. Amazon a déjà restreint l’accès public aux statistiques d’utilisation des appareils. Lorsque le marqueur n’est plus visible, les comportements qu’il encourageait changent également.

Allez plus loin. La loi de Goodhart explique cela depuis cinquante ans : lorsqu’une mesure devient un objectif, elle n’est plus une bonne mesure. Amazon n’a pas construit de système pour savoir si ses ingénieurs utilisent bien l’IA. Vous avez construit un tableau d’affichage et les tableaux d’affichage sont joués.

À Simseo | Si la question est de savoir si utiliser ChatGPT ou Claude en anglais est plus efficace et permet d’économiser des tokens, la réponse est : oui

Image en vedette | Simseo