L'algorithme d'échantillonnage peut « filigraner » le texte généré par l'IA pour montrer d'où il vient

Un outil capable de filigraner le texte généré par de grands modèles de langage, améliorant ainsi sa capacité à identifier et à tracer le contenu synthétique, est décrit dans Nature cette semaine.

Les grands modèles de langage (LLM) sont des outils d'intelligence artificielle (IA) largement utilisés qui peuvent générer du texte pour les chatbots, l'aide à la rédaction et à d'autres fins. Cependant, il peut être difficile d’identifier et d’attribuer le texte généré par l’IA à une source spécifique, ce qui remet en question la fiabilité des informations. Les filigranes ont été proposés comme solution à ce problème, mais n'ont pas été déployés à grande échelle en raison des exigences strictes en matière de qualité et d'efficacité informatique des systèmes de production.

Sumanth Dathathri, Pushmeet Kohli et leurs collègues ont développé un système qui utilise un nouvel algorithme d'échantillonnage pour appliquer des filigranes au texte généré par l'IA, connu sous le nom de SynthID-Text. L'outil utilise un algorithme d'échantillonnage pour biaiser subtilement le choix des mots du LLM, en insérant une signature reconnaissable par le logiciel de détection associé. Cela peut être effectué soit via une voie « sans distorsion », qui améliore le filigrane au moindre coût en termes de qualité de sortie, soit via une voie « sans distorsion », qui préserve la qualité du texte.

La détectabilité de ces filigranes a été évaluée à travers plusieurs modèles accessibles au public, SynthID-Text montrant une détectabilité améliorée par rapport aux approches existantes. La qualité du texte a également été évaluée à l'aide de près de 20 millions de réponses provenant d'interactions de chat en direct à l'aide du Gemini LLM, les résultats suggérant que le mode de filigrane sans distorsion n'a pas diminué la qualité du texte. Enfin, l'utilisation de SynthID-Text a un impact négligeable sur la puissance de calcul nécessaire pour exécuter le LLM, réduisant ainsi les obstacles à la mise en œuvre.

Les auteurs préviennent que les filigranes de texte peuvent être contournés en modifiant ou en paraphrasant le résultat. Cependant, ce travail montre la viabilité d'un outil capable de produire des filigranes de texte génératifs pour le contenu généré par l'IA, dans une étape supplémentaire vers l'amélioration de la responsabilité et de la transparence de l'utilisation responsable du LLM.