Certains chercheurs ont créé une entreprise où tous les employés étaient des agents de l'IA. Ils n'ont pas fait un quart du travail
Avec une IA générative qui montre déjà Signes de décélérationLe prochain grand saut envisage déjà à l'horizon: le Agents d'IA. Contrairement aux chatbots, un agent d'IA peut recevoir une tâche complexe et agira indépendamment, prenant des décisions en marche pour atteindre son objectif. Tout indiquait le fait que 2025 allait être l'année des agents IA Et, pour le vérifier, certains chercheurs ont fait une curieuse expérience: ils ont mis plusieurs de ces agents pour travailler dans une entreprise fictive. Ça ne s'est pas très bien passé.
Une entreprise fictive. L'étude a été menée par Rechercheurs de l'Université Benegie Mellon et a cherché à mesurer l'efficacité des agents de l'IA. Dans ce document, ils ont créé un environnement qui a fait semblant d'être une petite entreprise dédiée au développement de logiciels auxquels TheAegentCompany a baptisé. L'entreprise comptait 18 employés et un plan objectif pour les trimestriels. De plus, ils avaient suffisamment de documentation interne telle qu'un manuel des employés, des politiques de ressources humaines ou un guide de bonnes pratiques. Les employés ont communiqué via un programme de chat de type Slack pour la communication entre eux.
Il . Les agents de l'IA qui ont mis au travail dans TheAgentCompany comprenaient des modèles Google, Openai, Meta et anthropiques. Ils ont reçu des rôles tels que l'analyste financier, le gestionnaire de projet ou le génie logiciel. Un directeur de technologie et un responsable des ressources humaines ont également été créés à laquelle chaque agent pourrait contacter si elle en avait besoin. Parmi les tâches qu'ils devaient faire, il y avait d'écrire du code, de rechercher sur Internet, d'ouvrir des programmes ou d'organiser des données sur les feuilles de calcul. Assez typique dans une entreprise de ces caractéristiques.
Les problèmes. Les agents ont commencé à fonctionner et au début, tout allait bien, mais il semblait bientôt des problèmes et des malentendus. L'un des agents devait accéder à des informations, mais une fenêtre contextuelle est apparue à l'écran et n'a pas pu la voir. Bien que je puisse le fermer en cliquant sur le X du coin supérieur droit, il a demandé de l'aide aux ressources humaines, qui lui ont dit que le service informatique le contacterait bientôt pour le résoudre. Il n'a jamais contacté et la tâche n'a pas été terminée.
Les agents ont également développé un comportement curieux alors qu'ils n'étaient pas clairs quelles étaient les étapes à suivre. Parfois, ils ont triché et créé des raccourcis pour ignorer la partie difficile d'une tâche. Par exemple, un agent n'a pas trouvé la personne qui a dû poser une question. Ce qu'il a fait a été de changer le nom d'un autre utilisateur pour celui de l'utilisateur qu'il a dû demander.
Les résultats. La médaille des employés du mois a été prise par Anthropic et son modèle de sonnet Claude 3.5. Mais, bien qu'il soit le meilleur, il n'a réussi qu'à effectuer 24% des tâches qui lui ont été assignées. Germini 2.0 Flash et Chatgpt n'ont effectué que 10% des tâches et le pire employé était Nova Pro 1 d'Amazon avec 1,7% des tâches terminées. Les échecs les plus courants ont été causés en raison du manque de compétences sociales et de ne pas être bien à la recherche d'Internet.
La menace des agents de l'IA. Selon le dernier Rapport du Forum économique mondiall'IA détruira plus de 90 millions d'emplois au cours des cinq prochaines années (bien qu'il devrait également être créé presque deux fois nouvelles positions) et les agents de l'IA menacent de nombreux emplois. Cependant, des expériences comme celle-ci montrent que la technologie n'est pas encore prête à remplacer 100% d'un employé humain. Actuellement, les agents de l'IA Ils font de nombreuses erreurs Et, comme le pilote automatique de Tesla, pour l'instant c'est mieux Ne retirez pas vos mains du volant.
Image | Gémeaux
Dans Simseo | Les travailleurs ont arrêté la peur de l'IA en tant que machine pour détruire les emplois: les ingénieurs logiciels ne pensent pas la même chose