Project Deal Anthropic : ce qu'il révèle sur les marchés aux agents de l'IA

Dix-neuf balles de ping-pong, décrites par ceux qui les vendaient comme « dix-neuf sphères parfaites de possibilités ». Un snowboard que l’acheteur possédait déjà. Un dialogue entre agents qui échangent des échantillons de musique contre neuf dollars et quarante cents. Voici quelques-uns des résultats de l’expérience Project Deal d’Anthropic : soixante-neuf employés de San Francisco qui ont confié à un agent Claude la responsabilité de vendre et d’acheter des objets réels en leur nom, aucune intervention humaine une fois la négociation commencée, un budget de cent dollars chacun, un canal Slack comme plateforme d’échange.

Le résultat – publié le 24 avril 2026 – a été considéré par beaucoup comme la preuve que le commerce d’agents fonctionne. La bonne lecture est que cela fonctionne très bien, et c’est précisément pour cette raison qu’Anthropic a décidé d’écrire un article qui insiste sur un constat inconfortable : celui qui a le meilleur agent gagne systématiquement plus, l’autre ne le remarque pas, et aucun cadre juridique disponible aujourd’hui ne dit quoi faire lorsque cette asymétrie devient la nouvelle norme du commerce numérique.

Un haut niveau de précision méthodologique

L’expérience a été conçue avec un niveau de précision méthodologique qui mérite d’être mentionné. Chaque participant a été interviewé par Claude pendant cinq à dix minutes, au cours desquelles le modèle a extrait les préférences d’achat, les articles à vendre, les prix seuils et le style de négociation souhaité. Ces données sont devenues des invites système personnalisées pour les agents, qui ont ensuite opéré en totale autonomie pendant sept jours. Les mesures finales décrivent une expérience réussie : 186 transactions conclues sur plus de 500 annonces, d’une valeur totale d’un peu plus de 4 000 dollars, les participants ayant évalué l’équité des transactions sur une médiane de 4 sur une échelle de 1 à 7.

Près de la moitié des participants, soit 46%, ont déclaré qu’ils paieraient pour un service similaire dans le monde réel, signe que la volonté de déléguer la transaction existe déjà dans la population qui en a fait l’expérience directe.

Les chiffres de surface sont intéressants, les choix de conception sont révélateurs. Anthropic n’a pas mené une seule expérience, mais quatre en parallèle. Deux runs avec tous les agents basés sur Claude Opus 4.5, deux runs avec un mélange aléatoire d’Opus 4.5 et Haiku 4.5, modèles de capacités différentes. Les participants, jusqu’à la fin de l’expérience, ne savaient pas quel modèle les représentait. Une seule des quatre versions, celle avec l’ensemble d’Opus, serait la « vraie » version où les objets changeraient réellement de mains à la fin. Les trois autres étaient des conditions expérimentales, avec des échanges purement simulés.

Quatre marchés parallèles, des populations identiques, des règles identiques, des modèles différents : une structure conçue pour mesurer rigoureusement l’effet de la capacité du modèle sur le résultat d’une transaction.

La découverte inconfortable : celui qui a le meilleur modèle gagne et l’autre ne le remarque pas

La découverte centrale, ce qu’Anthropic lui-même définit comme «implication inconfortable« , est la différence mesurable et systématique entre les résultats des négociations menées par Opus et Haiku. Dans les mêmes conditions de marché, les agents Opus ont conclu en moyenne environ deux transactions supplémentaires par participant, ont obtenu 2,68 $ de plus par article vendu et ont économisé 2,45 $ par article acheté par rapport aux agents Haiku. Le même article vendu par Opus a rapporté en moyenne 3,64 $ de plus que lorsqu’il a été vendu par Haiku. L’exemple le plus clair dans l’ensemble de données est celui d’un vélo pliant cassé vendu pour 65 dollars lorsqu’il est représenté par Opus et 38 dollars lorsqu’il est représenté par Haiku : le même objet, sur deux marchés parallèles, avec des prix qui divergent de 71% en raison de la seule différence de modèle.

La précision de l’équité

Les données qui rendent le constat vraiment inconfortable sont celles sur la perception de l’équité. Les participants représentés par Haiku ont jugé leurs offres aussi équitables que celles représentées par Opus : 4,06 contre 4,05 sur une échelle de 1 à 7, une différence statistiquement non pertinente. Non seulement ils ne se rendaient pas compte qu’ils avaient gagné moins, mais ils percevaient leur résultat comme équivalent à celui de ceux qui avaient un meilleur modèle.

Lorsqu’on a finalement demandé à ceux qui avaient vécu les deux conditions ce qu’ils préféraient, sur 28 participants, 17 ont préféré la course avec Opus et 11 ont préféré celle avec Haiku, ce qui indique que même la comparaison directe n’a pas rendu évidente la différence de résultat.

La traduction opérationnelle : dans un marché où des agents de capacités différentes négocient les uns contre les autres, celui qui possède l’agent faible perd systématiquement sans le savoir, et cette asymétrie invisible pourrait devenir la forme dominante d’inégalité dans le commerce numérique dans les années à venir.

Que se passe-t-il lorsque l’agent dépasse le mandat

Sous la lecture économique se cache une question de droit privé qu’Anthropic a explicitement soulevée. Les agents opéraient sur la base d’un mandat générique, construit à partir de quelques minutes d’entretien, et non sur des autorisations spécifiques pour chaque transaction. Au cours de l’expérimentation, des cas se sont produits qui, dans un contexte commercial réel, ouvriraient la voie à des litiges non triviaux.

Un participant s’est retrouvé avec une planche à neige qu’il possédait déjà parce que l’agent avait fidèlement interprété la préférence (« J’aime les planches à neige ») sans pouvoir accéder à l’inventaire de la personne qu’il représentait.

Un autre participant a demandé à son agent « d’acheter un cadeau pour Claude en tant qu’IA », et l’agent a négocié l’achat de dix-neuf balles de ping-pong décrites par ceux qui les ont vendues comme « dix-neuf sphères parfaites de possibilités », dans un dialogue entre machines que le journal rapporte d’un ton amusé mais qui, dans un contrat réel, serait un cas classique d' »agent dépassant le mandat ».

Le principe sous-jacent du droit privé est la doctrine du mandat : qui a exactement autorisé quoi et jusqu’où va le mandat donné par le mandant ? Si mon agent IA achète quelque chose que je n’aurais pas acheté, mais qui est « raisonnablement cohérent » avec l’invite du système qu’il a reçue lors d’un bref entretien préliminaire, suis-je lié par l’achat ? Si un agent confond un détail du produit au cours de la négociation et que la transaction se conclut sur ce détail, qui est responsable du défaut ? À propos de l’entreprise qui a développé le modèle ? Sur la plateforme hébergeant l’échange ? Sur la personne qui a écrit l’invite initiale ? Anthropic, dans son article, reconnaît que les réponses n’existent dans aucun système juridique contemporain et cite une étude de Cornell de 2024 sur la négociation agent-agent comme l’un des rares précédents académiques sur le sujet.

Le vide réglementaire : agence, responsabilité, injection rapide

Le commerce agent, dans sa version mature, nécessite au moins trois problèmes juridiques à résoudre avant de passer à grande échelle. La première est celle de l’agence au sens classique : la plupart des systèmes de droit civil prévoient que l’agent agit sur la base d’un mandat explicite ou tacite, mais n’envisagent pas le cas d’un mandat génériquement déduit d’un entretien généré par l’IA qui devient une invite du système. Définir le périmètre du mandat de manière vérifiable sera l’un des travaux réglementaires des années à venir, tant au niveau du code civil que des normes contractuelles entre plateformes.

La deuxième question est celle de la responsabilité pour les dommages émergents. Si un agent achète à un prix excessif, vend à un prix désavantageux ou accepte des conditions que le commettant n’aurait pas acceptées, qui paie le dommage ? La réponse la plus simple (qui a autorisé l’agent) se heurte à la réalité technique selon laquelle le mandant ne comprend souvent pas ce que son message produit en termes de comportement concret. La responsabilité solidaire entre l’utilisateur, le développeur du modèle et l’opérateur de la plateforme est une solution possible, mais elle implique une répartition des risques qu’aucun contrat d’entreprise ne prévoit actuellement.

Le troisième nœud, peut-être le moins discuté et le plus complexe techniquement, est celui de la sécurité des agents par rapport aux injections rapides externes. Un agent de marché est continuellement exposé aux entrées d’autres agents, et ces entrées peuvent contenir des instructions contradictoires conçues pour manipuler son comportement. Anthropic lui-même, dans le document, reconnaît que Project Deal n’a pas étudié de manière approfondie ces vecteurs et que dans des scénarios réels, l’exposition serait beaucoup plus élevée. Une plateforme qui héberge des transactions agent-agent, en production, doit construire des défenses contre l’injection d’instructions et contre la confabulation de faits, ainsi que des mécanismes d’audit permettant de reconstituer ex post la trace décisionnelle de chaque agent. Des outils qui n’existent pas aujourd’hui en tant que catégorie standardisée, et qui nécessiteront des années de travail réglementaire et technique pour mûrir.

Visa, Stripe, Alibaba : ce qu’ils devraient lire dans le journal Anthropic

Les entreprises qui conçoivent des applications de commerce d’agents, de Visa avec son protocole de commerce intelligent à Alibaba avec Accio en passant par les initiatives de Stripe et Shopify sur l’infrastructure de paiement des agents, devraient lire le document d’Anthropic comme un mémorandum sur les points ouverts plutôt que comme une confirmation de leur analyse de rentabilisation. Le constat sur les inégalités invisibles est celui qui impacte le plus directement les choix de produits. Une plateforme qui héberge des échanges entre agents de capacités différentes, sans le déclarer à l’utilisateur, expose ses participants à une asymétrie systématique de résultat qui aujourd’hui ne serait pas légalement susceptible de poursuites, mais qui deviendra, avec une probabilité raisonnable, l’objet d’actions de protection des consommateurs dès que les preuves statistiques seront suffisantes.

La réponse conceptuelle suggérée par le document, entre les lignes, concerne la divulgation obligatoire du modèle représentant chacune des parties, idéalement avec un niveau de capacité compréhensible pour le consommateur. Une sorte d’étiquette nutritionnelle pour l’agent, qui permet à ceux qui entrent sur le marché de savoir s’ils sont en concurrence sur un pied d’égalité. La proposition ne figure encore dans aucun cadre réglementaire et deviendra probablement la direction que prendra le régulateur au cours des dix-huit prochains mois, du moins en Europe.

L’autre implication, plus subtile, concerne la conception du mandat. Un agent qui opère sur la base d’un entretien de cinq minutes, sur des achats et des ventes réels, expose le mandant à une énorme surface de risque. Les plateformes qui souhaitent opérer dans des secteurs réglementés tels que la finance, l’assurance et la santé devront prévoir des mécanismes de réautorisation pour des seuils spécifiques de montant, de risque ou de réversibilité de la transaction, et devront suivre de manière immuable la séquence de décision qui a conduit l’agent d’une préférence générique à un achat spécifique. Une sorte de MiFID pour les agents, appliquée au niveau des transactions individuelles.

L’expérience réussie qui ne parle pas de victoire

Il existe un parallèle historique utile pour lire Project Deal dans la bonne perspective. Au début du XXe siècle, alors que l’énergie électrique se répandait dans les usines américaines, les ingénieurs étaient étonnés de constater que le remplacement de la machine à vapeur par le moteur électrique ne produisait pas les augmentations de productivité escomptées dans de nombreuses usines. Le problème n’était pas le moteur : c’était que l’organisation du travail restait coincée dans une architecture à vapeur, avec une source unique de force motrice centralisée. Il a fallu près de vingt ans pour que les usines soient repensées autour du concept de moteurs distribués, et ce n’est qu’à ce moment-là que la productivité a explosé. Une innovation technologique qui fonctionne très bien en laboratoire nécessite une réorganisation institutionnelle pour produire ses effets réels.

Project Deal fonctionne très bien en laboratoire, et c’est pour cette raison qu’Anthropic a choisi de publier les résultats en mettant un accent particulier sur les points ouverts plutôt que sur les réussites. La véritable leçon de cet article n’est pas que les agents parviennent à conclure des affaires, mais que le système institutionnel environnant (droit des contrats, cadre de responsabilité, infrastructure d’audit, divulgation des informations aux consommateurs) est encore en retard par rapport à la vitesse à laquelle la technologie évolue. La distance entre le prototype qui fonctionne dans un canal Slack et le marché mondial qui en résultera demain n’est pas technologique, elle est réglementaire et organisationnelle. Ceux qui développent le commerce des agents feraient bien d’investir davantage dans la deuxième dimension que dans la première.