Anthropic a publié les invites du système qui guident le comportement de Claude. C'est un exemple de transparence

Dans une action sans précédent, Anthropic, la société à l'origine des modèles Claude d'IA générative, a rendu publiques les « invites » ou instructions du système qu'elle met avant les demandes des utilisateurs, à mesure qu'elle avance

Pourquoi est-ce important. Cette mesure positionne Anthropic comme une entreprise plus ouverte et transparente dans une industrie, celle de l’IA, habituellement critiquée pour son opacité et son secret.

Le nouveau:

Anthropic a publié ceux qui guident ses modèles de langage les plus avancés : Claude 3.5 Opus, Claude 3.5 Sonnet et Claude Haiku.
Il s’agit d’instructions destinées à modérer le ton et à éviter les réponses toxiques, biaisées ou controversées de la part des chatbots.
Les instructions pour le plus grand modèle comptent environ 1 000 mots. Le reste est plus court.
L'entreprise a déclaré vouloir faire de cette pratique une habitude, en les mettant à jour à chaque nouvelle version ou mise à jour majeure.

Le contexte. C’est le type de matériel que les entreprises du secteur de l’IA tentent de préserver, à la fois pour des raisons de compétitivité et de sécurité. La révélation de ces invites peut permettre aux utilisateurs malveillants (ou simplement curieux) de trouver plus facilement des moyens de les contourner.

Détails clés:

Les instructions interdisent aux modèles d'ouvrir des URL ou des vidéos et sont particulièrement restrictives lors de la reconnaissance faciale.
Il leur est ordonné de ne pas voir leur visage et d’éviter d’identifier ou de mentionner des personnes spécifiques sur les images.
On leur parle également de certains traits de personnalité, comme être « très intelligent et intellectuellement curieux ».
Ils doivent traiter les questions controversées de manière impartiale, en fournissant une « réflexion approfondie » et des « informations claires ».

Les conséquences. Cette mesure pourrait faire pression sur les concurrents, à commencer par OpenAI, pour qu’ils soient tout aussi transparents avec les leurs. Une autre chose est que vous comprenez.

En dévoilant cette petite partie de son système, Anthropic se positionne comme un acteur un peu plus fiable de l'industrie de l'IA, et certainement plus transparent. Et ce faisant, ils nous rappellent à quel point ces modèles restent dépendants des conseils humains pour fonctionner de manière efficace et éthique.

Image en vedette | Simseo avec Mockuuups Studio

À Simseo | Un groupe d'auteurs a dénoncé Anthropic. La raison : il a entraîné son IA avec des copies de ses livres