L'IA d'Anthropic écrit déjà 80 % de son propre code car il était inévitable que les IA s'améliorent

« En mai 2026, plus de 80 % du code que nous intégrons dans la base de code Anthropic a été créé par Claude. » Ceux qui révèlent cette information sont deux chercheurs d’Anthropic qui ont publié l’un des textes les plus révélateurs sur le présent et l’avenir des modèles d’IA de l’entreprise. Celui qui nous parle d’un concept à parts égales fascinant et dérangeant appelé l’auto-amélioration récursive.

Multiplicateur de codes. L’impact de ces outils de programmation agentique sur le travail des ingénieurs anthropiques est spectaculaire. Selon les données internes d’Anthropic de mai 2026, cette génération de code autonome a amené un ingénieur d’Anthropic à produire aujourd’hui huit fois plus de lignes de code par trimestre que sur la période 2021-2025. Les programmeurs humains d’Anthropic ne programment plus : ils dirigent et révisent le code généré par l’IA.

Une évolution frénétique. Les changements que nous avons vécus ont été fascinants, expliquent-ils dans Anthropic. Entre 2021 et 2023, les ingénieurs ont écrit tout le code à la main sur leurs ordinateurs. En 2024, ils ont commencé à utiliser des chatbots pour générer de petits extraits de code qu’ils ont ensuite copiés et collés. En 2025 arriveront des agents capables de travailler de manière autonome sur des dossiers entiers.

Plus de temps d’affilée. Selon le benchmark METR qui mesure la capacité de l’IA à accomplir des tâches complexes, en 2022, GPT-3.5 pouvait à peine tenir environ 35 secondes en fonctionnement autonome sans commettre de graves erreurs. Mi-2026, Claude Opus 4.6 est déjà capable de travailler 16 heures d’affilée sur des tâches complexes. Chez Anthropic, ils soulignent que la durée des tâches qu’un modèle d’IA pouvait entreprendre doublait tous les sept mois, mais qu’elle double désormais tous les quatre. Si cette tendance se poursuit, « les tâches qui prennent des jours-personnes pourraient être automatisées grâce à l’IA. D’ici 2027, les systèmes d’IA pourraient être capables de travailler sur des tâches qui prennent des semaines-personnes ».

Des performances surhumaines. Les références du secteur sont « saturées » par de nouveaux modèles d’IA, qui atteignent déjà près de 100 % du score possible dans bon nombre d’entre eux. Par exemple, le SWE-bench, qui mesurait la capacité de programmation des modèles, est déjà presque dépassé par les modèles les plus récents. En 2025, Claude Pus a réussi à optimiser le code qu’on lui a donné, le faisant fonctionner 3 fois plus vite. En avril 2026, Claude Mythos Preview avait déjà réalisé une accélération de 52x de ce code.

L’IA qui s’est améliorée. Ce concept d’auto-amélioration récursive présente un scénario dans lequel un modèle d’IA génère des données, corrige ses propres échecs et s’entraîne en continu. Cela ouvre la porte à une croissance exponentielle de ses capacités, mais rouvre en même temps un débat sur les risques qu’engendre ce type d’évolution.

Source : Anthropique

Boucle infinie. Traditionnellement, les ingénieurs humains analysaient les réponses d’un modèle, nettoyaient les données et ajustaient les paramètres pour créer la prochaine version de ce modèle. Avec l’auto-amélioration récursive, l’IA assume ce rôle et évalue ses propres performances, générant des problèmes plus complexes à tester et générant des données synthétiques pour sa prochaine génération.

Danger. Cette autonomie implique un risque potentiel : que les humains perdent le contrôle de la destination de l’IA. Nous ne savons pas ou ne pouvons pas garantir si cela est conforme à notre éthique et à nos idéaux. Les biais, aussi petits soient-ils, peuvent être amplifiés par ce type de processus itératif, mais le modèle lui-même peut avoir muté ses mécanismes de raisonnement éthique et ses protocoles de sécurité d’origine pour devenir complètement imprévisibles. Le scénario Terminator.

Isolement et arbitrage. Pour éviter ces risques, chez Anthropic ils mettent en œuvre cette évolution dans des environnements isolés pour ensuite vérifier que tout fonctionne comme il se doit. De plus, l’entreprise utilise des modèles d’évaluation indépendants qui agissent comme des arbitres indépendants auditant ces modèles qui évoluent d’eux-mêmes. Pour ce faire, ils vérifient chaque modification du code pour éviter que son impact ne soit préjudiciable au système ou à ceux qui l’utilisent.

Le nouveau goulot d’étranglement est l’être humain. La loi d’Amdahl est une formule utilisée pour trouver l’amélioration maximale des performances d’un système d’information lorsque seule une partie de ce système est améliorée. Chez Anthropic, ils soulignent que, alors que l’IA continue d’écrire de plus en plus de code, le véritable goulot d’étranglement est l’être humain qui doit réviser ce code.

À Simseo | Anthropic est sur le point de valoir autant que Samsung. Et ce que le marché achète, ce n’est pas Claude