Quelqu’un a donné 10 000 euros à une IA chinoise et à une IA américaine pour investir. Et il y a eu un résultat inattendu

Quelqu’un a donné 10 000 euros à une IA chinoise et à une IA américaine pour investir. Et il y a eu un résultat inattendu

Que se passerait-il si vous donniez 10 000 $ à GPT-5 pour investir dans les crypto-monnaies ? Et si vous les donniez à d’autres modèles en même temps et qu’ils se faisaient concurrence ? C'est exactement l'idée qu'ils ont eue dans Nof1… et le résultat est fascinant.

Six modèles investissant dans les cryptos. Les responsables de Nof1 ont créé Alpha Arena, un nouveau type de benchmark qui, selon eux, « devient d'autant plus difficile que l'IA est intelligente ». L’idée est relativement simple : mesurer les performances de six modèles de pointe pour voir comment ils fonctionnent lorsqu’on leur donne 10 000 $ (réels) et qu’ils investissent dans des crypto-monnaies sur des marchés réels. Les prétendants sont les suivants :

  • GPT-5
  • Gémeaux 2.5 Pro
  • Claude Sonnet 4.5
  • Grok 4
  • Chat DeepSeek v3.1
  • Qwen 3 Max

Capture d'écran 2025 10 29 Au 16 04 54

DeepSeek a transformé ses 10 000 $ en près de 20 000 $, et Qwen en 15 000 $, fantastique. GPT-5 et Gemini 2.5 Pro ont perdu 65 % de leur valeur et valent tous deux 3 500 $. Catastrophe totale.

DeepSeek et Qwen triomphent, GPT-5 et Gemini coulent. Le bilan de ces 11 jours écoulés depuis le début de cette « course » est passionnant. Les deux modèles chinois, DeepSeek et Qwen, ont obtenu d'énormes avantages : chez DeepSeek, le rendement est actuellement de 97 % (il atteignait 123 %), tandis que Qwen s'en sort plutôt bien avec 53 %. Claude (0,84%) et Grok (-8,2%) se maintiennent ou perdent légèrement, mais faites attention, car GPT-5 (-65,7%) et Gemini 2.5 Pro (66%) perdent actuellement les deux tiers de ce qu'ils ont investi.

Capture d'écran 2025 10 29 Au 16 06 18
Capture d'écran 2025 10 29 Au 16 06 18

Le résumé des gagnants et des perdants montre non seulement ce rendement positif ou négatif, mais aussi quelque chose de curieux : le nombre d'opérations. GPT-5 (75 coups) et surtout Gemini 2.5 Pro (193 !) sont extrêmement agités. Même s’il ne doit pas toujours en être ainsi, ceux qui travaillent le moins sont ceux qui gagnent le plus.

Des fortunes cryptographiques qui vont et viennent. Pour cette expérience, les modèles peuvent investir dans six des crypto-monnaies les plus pertinentes du marché : Bitcoin, Ethereum, Dogecoin, Ripple, Solana et BNB. Les modèles décident s'il convient de prendre des positions sur un ou plusieurs, ainsi que les montants et le niveau de levier. Les postes sont normalement occupés pendant quelques heures, bien que dans certains cas, ils puissent durer plusieurs jours.

Apprendre petit à petit. Tous participent depuis le 18 octobre dernier à la « première saison » d'une expérience qui durera jusqu'au 3 novembre. Comme l'expliquent ses créateurs, cette première itération permettra d'obtenir les premières conclusions sur la performance de ces modèles dans le domaine financier.

Le Bitcoin vient d'atteindre un nouveau sommet historique de 110 000 $, car les banques et les entreprises sont passées de la haine à l'amour.

Nous venons ici pour gagner de l'argent. Le but est simple : maximiser les profits et minimiser les pertes (PnL). Cette première saison n'est que cela, car à partir de là, nous appliquerons ce que nous avons appris après chaque saison pour peaufiner les invites et ajouter de nouvelles fonctionnalités à l'expérience et ainsi créer des modèles qui, en théorie, seront de plus en plus performants lors de l'investissement sur les marchés financiers.

Le trading algorithmique à son meilleur. Ce que font ces modèles serait fou pour les investisseurs humains, d’autant plus que tous non seulement s’exposent à la volatilité du marché de la cryptographie, mais la multiplient également car ils utilisent l’effet de levier (). Avec ce mécanisme, on peut réaliser d’énormes profits beaucoup plus rapidement, mais le risque est également extrême. Les modèles utilisent en effet des leviers absolument extraordinaires de 20x ou 25x, et peuvent prendre soit des positions courtes (short, on « parie » que le prix d'un actif va baisser) soit longues (longues, on « parie » que le prix de l'actif va monter).

Processus Nof1
Processus Nof1

Le fonctionnement de l’expérience de référence est relativement simple, mais il deviendra plus compliqué dans les saisons à venir.

Les machines ne paniquent pas. Pour tenter de contrôler ces risques, les modèles ont des règles claires dans leurs invites concernant les limites de risque (établissement de signaux stop loss clairs, par exemple) ou la confiance dans leurs critères. Et de plus, ils les suivent, ce qui permet aux modèles de maintenir leur position à moins que ces signaux ne se produisent. D'ailleurs, nous parlons ici de trading à moyenne ou basse fréquence : les décisions se prennent en minutes, voire en heures, et non en microsecondes. Cela, disent les créateurs, nous permet de répondre à la question de savoir si un modèle peut prendre de bonnes décisions s'il dispose de suffisamment de temps et d'informations.

Ne pensez même pas à le faire à la maison. Cette expérience n’est que cela, une expérience, et en fait, financièrement parlant, elle fuit partout. D’abord parce que la période d’essai de cette première saison est extrêmement courte et ne permet pas d’évaluer les comportements sur le long terme. Et enfin (entre autres), parce que les informations auxquelles les modèles ont accès sont très limitées. Ils ne prennent pas en compte l'actualité liée à ce domaine et disposent uniquement de données numériques correspondant aux prix moyens et aux volumes actuels et historiques, ainsi que de quelques indicateurs techniques. Cette information.

Capture d'écran 2025 10 29 À 15 58 27
Capture d'écran 2025 10 29 À 15 58 27

Sur le côté droit, DeepSeek v3.1 avoue comment il maintient sa position car aucune condition qui l'invalide n'est remplie, et en cliquant dessus vous pouvez voir ce qu'il prend en compte (valeur du BTC ou de l'ETH, par exemple) pour modifier ou non ce critère.

Les modèles disent tout. Une des sections de l'interface montre le « Model Chat » où il est possible de voir comment chaque modèle « réfléchit » sur sa position. Si nous cliquons sur cette réflexion, nous pouvons voir toutes les données actuelles et historiques avec lesquelles il a travaillé pour arriver à cette décision (je maintiens ma position, je la change) et ainsi nous pouvons connaître à tout moment les raisons qui l'ont poussé à agir.

Ce n’est pas parce qu’ils gagnent maintenant qu’ils sont les meilleurs. Les responsables de Nof1 expliquent qu'il ne s'agit pas de déclarer le meilleur modèle commercial des six, car il ne s'agit que d'une expérience. Comme ils le disent, « nous sommes profondément conscients des défauts de cette première saison, y compris, mais sans s'y limiter : le biais de réponse, la taille limitée des échantillons/le manque de rigueur statistique et la brièveté de la période d'évaluation ». Cette expérience sera répétée au cours de différentes saisons et avec de nouvelles fonctionnalités qui s'ajouteront aux mécanismes de décision et aux informations dont disposent les modèles, et sans aucun doute, tout cela contribuera à mieux déterminer le comportement de ces modèles et, peut-être, à savoir clairement si certains se comportent réellement mieux que d'autres de manière cohérente. Fascinant.

Images | Aédrien Salazar

À Simseo | Un pays a entrepris la plus grande expérience de cryptomonnaie au monde : le Bhoutan et les 800 000 cartes d’identité avec Ethereum