Anthropic disposait déjà d’une IA capable d’écrire du code. Vous disposez désormais d’une IA capable de réviser ce que votre autre IA a écrit

L’essor de l’IA générative dans le monde du développement logiciel semblait suivre un scénario clair : les modèles écriraient le code et les humains le réviseraient. En mars de l'année dernière, le PDG d'Anthropic, Dario Amodei, a déclaré que l'IA écrirait 90 % du code en trois à six mois, et pratiquement la totalité en un an. Mike Krieger, co-fondateur d'Instagram et directeur produit chez Anthropic, a été encore plus précis, assurant que les développeurs examineraient le code généré par l'IA au lieu de l'écrire. Les plans d'Anthropic vont dans ce sens, et ils font monter la barre : une IA qui examine le code d'une IA.

Le problème de la programmation avec l'IA. Ce que l’on appelle aujourd’hui le vibe coding, la pratique consistant à donner des instructions en langage naturel à une IA pour qu’elle génère du code à pleine vitesse, a fait exploser la production de logiciels dans les entreprises. Anthropic affirme que la quantité de code généré par chacun de ses propres ingénieurs a augmenté de 200 % au cours de la dernière année. Et maintenant, il y a un problème : il y a tellement de nouveau code que sa révision est devenue le goulot d'étranglement du processus.

Les développeurs humains ne peuvent pas y faire face. Et comme Anthropic le reconnaît dans sa déclaration, de nombreuses demandes de tirage (propositions de changement qui doivent être examinées avant d'intégrer du nouveau code) sont survolées ou ne sont pas lues trop attentivement.

Ce qu’Anthropic a fait. L'entreprise a lancé Code Review, un outil intégré à Claude Code qui, au lieu d'attendre qu'un humain révise le code, déploie une équipe d'agents IA pour le faire automatiquement à chaque fois qu'une pull request est ouverte. Ce nouveau système est désormais disponible en phase de prévisualisation pour les clients des forfaits Team et Enterprise.

Cat Wu, chef de produit chez Anthropic, a déclaré à TechCrunch que la question qu'ils recevaient constamment de la part des responsables techniques de leurs clients était toujours la même : « Maintenant que Claude Code génère une tonne de demandes d'extraction, comment puis-je m'assurer qu'elles sont examinées efficacement ?

Comment ça marche à l’intérieur. Les agents d’IA travaillent en parallèle de manière autonome dès l’ouverture d’une pull request, examinant le code sous différents angles. Un agent final regroupe et hiérarchise ensuite les problèmes qu'il a détectés, en supprimant les doublons et en les triant par gravité. Le résultat parvient au développeur via un commentaire en vedette, accompagné de commentaires en ligne supplémentaires sur des bogues spécifiques.

L'accent, selon Anthropic, est mis sur les erreurs logiques, et non sur les questions de style, quelque chose de conçu exprès pour que le feedback ne génère pas trop de bruit. Les problèmes sont étiquetés par couleur en fonction de leur importance : rouge pour critique, jaune pour attention et violet pour code préexistant.

Nombres. L'entreprise utilise Code Review en interne depuis des mois avant de le lancer sur le marché. D'après ce qu'ils disent, avant de le mettre en œuvre, seulement 16 % de leurs demandes d'extraction ont reçu des commentaires d'évaluation importants. Avec l'outil, ce pourcentage s'élève à 54 %. Dans les requêtes pull volumineuses (plus de 1 000 lignes modifiées), 84 % ont renvoyé des résultats, avec une moyenne de 7,5 problèmes détectés. Et moins de 1 % de ces résultats sont signalés comme incorrects par les ingénieurs eux-mêmes.

Dans l’un des cas documentés par l’entreprise, il s’agissait d’un seul changement de ligne qui semblait banal. Cependant, Code Review l'a marqué comme critique, car il aurait apparemment pu rompre l'authentification de l'ensemble du service. Le bug a été corrigé avant l'intégration. De plus, selon l'entreprise, l'ingénieur a reconnu par la suite qu'il ne l'aurait pas attrapé seul.

Un investisseur d'OpenAI est clair sur l'avenir de l'emploi : "il est peu probable qu'un enfant de cinq ans ait aujourd'hui besoin de travailler un jour"

Le nouveau rôle du programmeur. C’est le récit qui s’est répandu au cours des deux dernières années et que les grands PDG ont répété à plusieurs reprises. Matt Garman, PDG d'Amazon Web Services, a même déclaré que dans 24 mois, la plupart des développeurs pourraient arrêter de programmer. Boris Cherny, responsable de Claude Code chez Anthropic, a déclaré à NPR que quelle que soit la quantité de code générée par l'IA, « chaque ligne devrait être révisée par un ingénieur ». L’humain comme superviseur : tel était le nouveau pacte.

Désormais, cette transition est également automatisée, au moins en partie. Anthropic n'élimine pas l'humain de l'équation (en fait l'outil n'approuve pas les pull request), mais il compresse le travail de révision qui était censé être le dernier bastion. Il semble que l’humain passe désormais du statut d’examinateur à celui d’arbitre final.

Prix. Ce n'est pas un outil bon marché. Chaque révision a un coût basé sur la consommation de jetons. Anthropic estime le prix moyen par révision entre 15 et 25 dollars, selon la complexité du code. C'est un coût que l'entreprise justifie dans le contexte des grandes entreprises technologiques où les erreurs qui échappent à l'examen ont un prix beaucoup plus élevé.

Image de couverture | Compagnons

À Simseo | Les éditeurs de logiciels ont sombré en bourse pour une raison simple : les investisseurs paniquent à propos de l’IA