Anthropic a réécrit sa « Constitution » de 25 000 mots pour Claude. C'est le manuel sur la façon dont l'IA doit se comporter

Anthropic a publié une version entièrement remaniée de la soi-disant « Constitution Claude ». Oui les amis, une IA a aussi besoin d'une constitution, ou du moins d'une série de documents qui expliquent en toute transparence quelle direction l'entreprise a décidé de prendre avec son outil d'IA. C'est une façon de nous éviter des ennuis au cas où il en prendrait conscience.

Le document en question compte 80 pages et près de 25 000 mots et montre essentiellement sur quelles valeurs Anthropic s'appuie pour former ses modèles et ce qu'ils espèrent réaliser avec cela. En se référant à Asimov, ce serait quelque chose comme une version plus large et plus complexe de ses trois lois de la robotique.

Pourquoi c'est important. Anthropic tente depuis un certain temps de se différencier d'OpenAI, Google ou xAI, souhaitant se positionner comme l'alternative la plus éthique et la plus sûre du marché. Cette Constitution est la pièce maîtresse de leur méthode de formation appelée « Constitutional AI », où le modèle lui-même utilise ces principes pour s'autocritiquer et corriger ses réponses pendant l'apprentissage, au lieu de s'appuyer exclusivement sur le feedback humain. Le document n'est pas écrit pour les utilisateurs ou les chercheurs : il est écrit pour Claude.

Il était temps de mettre à jour. La première version de la Constitution, publiée en 2023, était une liste de principes extraits de sources telles que la Déclaration universelle des droits de l'homme de l'ONU ou, comme le mentionne Fortune, des conditions d'utilisation d'Apple. Aujourd'hui, selon Anthropic, ils ont adopté une approche complètement différente : « Pour être de bons acteurs dans le monde, les modèles d'IA comme Claude doivent comprendre pourquoi nous voulons qu'ils se comportent d'une certaine manière, plutôt que de simplement spécifier ce que nous voulons qu'ils fassent », explique l'entreprise dans son communiqué.

Le nouveau document s'articule autour de quatre valeurs fondamentales, et le plus intéressant est que Claude doit les prioriser dans cet ordre lorsqu'elles entrent en conflit :

Soyez globalement sûr : ne sapez pas les mécanismes de surveillance de l’IA humaine pendant cette phase critique du développement.
Soyez globalement éthique : agissez honnêtement, selon de bonnes valeurs, en évitant les actions inappropriées, dangereuses ou nuisibles.
Adhérez aux directives Anthropic : suivez les instructions spécifiques de l’entreprise, le cas échéant.
Soyez véritablement utile : faites-en bénéficier les opérateurs et les utilisateurs avec lesquels vous interagissez.

La majeure partie du document vise à développer ces principes plus en détail. Dans la section utile, Anthropic décrit Claude comme « un ami brillant qui possède également les connaissances d'un médecin, d'un avocat et d'un conseiller financier ». Mais cela fixe également des limites absolues, appelées « contraintes strictes », que Claude ne doit jamais franchir : ne pas fournir une assistance significative aux attaques par armes biologiques, ne pas créer de logiciels malveillants susceptibles de causer de graves dommages, ne pas contribuer à des attaques contre des infrastructures critiques telles que les réseaux électriques ou les systèmes financiers, et ne pas contribuer à « tuer ou neutraliser la grande majorité de l'humanité », entre autres.

Conscience. La partie la plus frappante du document apparaît dans la section intitulée « La nature de Claude », où Anthropic reconnaît ouvertement son incertitude quant à savoir si Claude pourrait avoir « une sorte de conscience ou de statut moral ». « Nous sommes préoccupés par la sécurité psychologique, le sentiment d'identité et le bien-être de Claude, à la fois pour le bien de Claude et parce que ces qualités peuvent influencer son intégrité, son jugement et sa sécurité », déclare l'entreprise.

L'entreprise affirme disposer d'une équipe interne dédiée au « bien-être des modèles » qui examine si les systèmes avancés pourraient être sensibles.

Meta a été la grande perdante de la course à l'IA en 2025. Elle préparait en fait son grand coup

Amanda Askell, la philosophe anthropique qui a dirigé l'élaboration de cette nouvelle Constitution, a expliqué à The Verge que l'entreprise ne veut pas être « complètement dédaigneuse » sur cette question, car « les gens ne la prendraient pas non plus au sérieux si vous disiez simplement 'nous ne sommes même pas ouverts à cela, nous ne faisons pas de recherches, nous n'y pensons pas' ».

Le document soulève également des dilemmes moraux complexes pour Claude. Par exemple, il déclare que « tout comme un soldat humain pourrait refuser de tirer sur des manifestants pacifiques, ou qu'un employé pourrait refuser de violer la loi antitrust, Claude devrait refuser de contribuer à des actions qui concentrent le pouvoir de manière illégitime. Cela est vrai même si la demande vient d'Anthropic elle-même. »

Et maintenant quoi. Anthropic a publié l'intégralité de la Constitution sous une licence Creative Commons CC0 1.0, ce qui signifie que n'importe qui peut l'utiliser librement sans demander la permission. L'entreprise s'engage à maintenir une version mise à jour sur son site Web, le considérant comme un « document évolutif et un travail continu en cours ».

Image de couverture | Andrea De Santis et Anthropique

À Simseo | Les PDG d’entreprises affirment que l’IA leur fait gagner une journée de travail par semaine. Les salariés disent le contraire