L’IA est une grande boîte noire qui nous a empêchés de savoir comment « je pensais » à l’intérieur. Jusqu’à maintenant
L’IA n’a aucune idée de ce qu’elle dit ni pourquoi elle dit. Quand il répond presque tout a du sens – même ses jambes de jambes – mais il ne nous semble que, car les machines ne comprennent pas ce qu’elles font. Ils le font simplement. Nous ne savons pas comment les IAS pensent à l’intérieur, mais cela semble pouvoir changer bientôt.
Ouvrir la boîte noire. Les responsables de la société anthropique et créative de Chatbot Claude, prétendent avoir fait une découverte importante qui commencera à comprendre comment le LLM fonctionne. Ces modèles fonctionnent comme de grandes boîtes noires: nous savons ce que nous leur donnons en commençant (une invite) et ce que nous obtenons en conséquence, mais c’est toujours un mystère ce qui se passe dans cette « boîte noire » et comment les modèles finissent par générer le contenu qu’ils génèrent.
Pourquoi il est important de savoir comment « penser » l’AI. L’inscrutabilité des modèles d’IA génère des problèmes importants. Par exemple, il est difficile de prévoir s’ils «hallucineront» ou feront des erreurs, et pourquoi ils les ont commis. Savoir précisément comment ils travaillent à l’intérieur permettraient de mieux comprendre ces réponses incorrectes pour corriger ces problèmes et améliorer le comportement de ces modèles.
Plus sûr, plus fiable. Savoir pourquoi les IAS font ce qu’ils font comme ils le font serait également crucial pour pouvoir nous faire beaucoup plus confiance. Ces modèles permettraient donc de nombreuses garanties dans des domaines tels que la confidentialité et la protection des données, ce qui peut être un obstacle aux entreprises.
Et des modèles de raisonnement, quoi. L’apparition de modèles tels que O1 ou Deepseek R1 a permis que, au cours de ces processus de « raisonnement », l’IA montre apparemment ce que vous faites à tout moment. Cette liste de Minitaras qui termine (« Recherche sur le Web », « analysant les informations », etc.) est utile, mais la « chaîne de pensée » de So-appelée ne reflète pas vraiment la façon dont nos demandes traitent ces modèles.


Comment Claude calcule-t-il combien sont 36 + 59? Le mécanisme n’est pas entièrement clair, mais en anthropique, ils commencent à le déchiffrer. Source: anthropique.
Déchiffrer comment l’IA pense. Les experts anthropiques ont créé un outil qui essaie de déchiffrer cette boîte noire. C’est quelque chose comme les scannées de résonance magnétique qui étudient le cerveau humain et permettent de détecter quelles régions cérébrales jouent leur rôle dans certains domaines cognitifs.
Réponses à long terme. Bien que des modèles tels que Claude soient formés pour prédire le mot suivant dans une phrase, dans certaines tâches, il semble que Claude ait une sorte de planification à plus long terme de la tâche. Par exemple, si nous vous demandons d’écrire un poème Claude, vous trouvez d’abord des mots qui correspondent au thème du poème, puis revenez pour créer les phrases qui généreront les versets et les rimes du poème.
Une langue à penser, beaucoup à traduire. Bien que Claude ait un support multi-monté, les experts anthropes révèlent que leur fonctionnement en gérant plusieurs langues ne « réfléchit » pas directement à ces langues. Au lieu de cela, utilisez des concepts communs dans plusieurs langues, il semble donc «raisonner» dans la même langue, puis traduire la sortie dans la langue souhaitée.
Les modèles trichent. Cette recherche a également révélé que les modèles peuvent mentir sur ce qu’ils font et peuvent même prétendre qu’ils réfléchissent quand ils ont vraiment la réponse à notre demande. L’un des développeurs de Claude, Josh Batson, a expliqué comment « bien que (le modèle) prétend avoir fait un calcul, nos techniques d’interprétabilité ne révèlent aucune indication qu’elle s’est produite ».
Comment fonctionne le déchiffrement d’Anthropic. La méthode anthropique utilise le soi-disant transcoder (CLT) qui fonctionne en analysant des ensembles interprétables au lieu d’essayer d’analyser les « neurones » individuels. Par exemple, ces caractéristiques pourraient être toutes des conjugaisons d’un verbe spécifique. Cela permet aux chercheurs d’identifier des «circuits» complets des neurones qui ont tendance à se joindre à ces processus.
Un bon début. Dans le passé, Openai a déjà essayé de découvrir comment leurs modèles d’IA pensaient, mais cela n’a pas eu beaucoup de succès. Le travail d’Anthropic a des limites notables, et par exemple, il ne sait pas pourquoi le LLM accorde plus d’attention à certaines parties de l’invite que d’autres. Même ainsi, selon Batson « dans un an ou deux, nous en saurons plus sur la façon dont ces modèles pensent de ce que les gens pensent ».
Dans Simseo | Universal Music vient de trébucher contre Anthropic par le droit d’auteur: une victoire pour la technologie de l’IA