Comment fonctionnent réellement les outils de « détection d’IA » ? Et sont-ils efficaces ?

Comment fonctionnent réellement les outils de « détection d’IA » ? Et sont-ils efficaces ?

Comme près de la moitié des Australiens déclarent avoir récemment utilisé des outils d’intelligence artificielle (IA), il devient de plus en plus important de savoir quand et comment ils sont utilisés.

Le cabinet de conseil Deloitte a récemment remboursé partiellement le gouvernement australien après qu'un rapport qu'il a publié contenait des erreurs générées par l'IA.

Un avocat a également récemment fait l’objet de mesures disciplinaires après la découverte de fausses citations générées par l’IA dans un document judiciaire officiel. Et de nombreuses universités s’inquiètent de la manière dont leurs étudiants utilisent l’IA.

Parmi ces exemples, une gamme d'outils de « détection d'IA » ont vu le jour pour tenter de répondre au besoin des gens d'identifier un contenu précis, digne de confiance et vérifié.

Mais concrètement, comment fonctionnent ces outils ? Et sont-ils efficaces pour repérer le matériel généré par l’IA ?

Comment fonctionnent les détecteurs IA ?

Plusieurs approches existent et leur efficacité peut dépendre des types de contenus concernés.

Les détecteurs de texte tentent souvent de déduire l'implication de l'IA en recherchant des modèles de « signature » dans la structure des phrases, le style d'écriture et la prévisibilité de certains mots ou expressions utilisés. Par exemple, l’utilisation de « fouilles » et de « présentation » a explosé depuis que les outils d’écriture d’IA sont devenus plus disponibles.

Cependant, la différence entre l’IA et les modèles humains devient de plus en plus petite. Cela signifie que les outils basés sur les signatures peuvent être très peu fiables.

Les détecteurs d'images fonctionnent parfois en analysant les métadonnées intégrées que certains outils d'IA ajoutent au fichier image.

Par exemple, l'outil d'inspection Content Credentials permet aux utilisateurs de voir comment un utilisateur a modifié un élément de contenu, à condition qu'il ait été créé et modifié avec un logiciel compatible. Comme le texte, les images peuvent également être comparées à des ensembles de données vérifiés de contenu généré par l’IA (tels que les deepfakes).

Enfin, certains développeurs d’IA ont commencé à ajouter des filigranes aux sorties de leurs systèmes d’IA. Il s’agit de modèles cachés dans tout type de contenu qui sont imperceptibles pour les humains mais peuvent être détectés par le développeur d’IA. Cependant, aucun des grands développeurs n’a encore partagé ses outils de détection avec le public.

Chacune de ces méthodes a ses inconvénients et ses limites.

Quelle est l’efficacité des détecteurs IA ?

L'efficacité des détecteurs IA peut dépendre de plusieurs facteurs. Ceux-ci incluent les outils qui ont été utilisés pour créer le contenu et si le contenu a été édité ou modifié après la génération.

Les données de formation des outils peuvent également affecter les résultats.

Par exemple, les ensembles de données clés utilisés pour détecter les images générées par l’IA ne contiennent pas suffisamment de photos du corps entier de personnes ou d’images de personnes de certaines cultures. Cela signifie que la détection réussie est déjà limitée à bien des égards.

La détection basée sur les filigranes peut être très efficace pour détecter le contenu créé par les outils d'IA de la même entreprise. Par exemple, si vous utilisez l'un des modèles d'IA de Google tel qu'Imagen, l'outil de filigrane SynthID de Google prétend être capable de repérer les résultats résultants.

Mais SynthID n’est pas encore accessible au public. Cela ne fonctionne pas non plus si, par exemple, vous générez du contenu à l'aide de ChatGPT, qui n'est pas créé par Google. L'interopérabilité entre les développeurs d'IA est un problème majeur.

Les détecteurs IA peuvent également être trompés lorsque la sortie est modifiée. Par exemple, si vous utilisez une application de clonage vocal, puis ajoutez du bruit ou réduisez la qualité (en la réduisant), cela peut déclencher les détecteurs d'IA vocale. Il en va de même avec les détecteurs d’images AI.

L’explicabilité est un autre problème majeur. De nombreux détecteurs d'IA donneront à l'utilisateur une « estimation de confiance » du degré de certitude que quelque chose est généré par l'IA. Mais ils n’expliquent généralement pas leur raisonnement ni pourquoi ils pensent que quelque chose est généré par l’IA.

Il est important de réaliser que la détection par l’IA en est encore à ses débuts, en particulier lorsqu’il s’agit de détection automatique.

Un bon exemple de cela peut être vu dans les récentes tentatives de détection des deepfakes. Le gagnant du Deepfake Detection Challenge de Meta a identifié quatre deepfakes sur cinq. Cependant, le modèle a été formé sur les mêmes données sur lesquelles il a été testé, un peu comme s'il avait vu les réponses avant de répondre au quiz.

Lorsqu'il a été testé par rapport à un nouveau contenu, le taux de réussite du modèle a chuté. Il n’a identifié correctement que trois deepfakes sur cinq dans le nouvel ensemble de données.

Tout cela signifie que les détecteurs d’IA peuvent se tromper et se trompent effectivement. Ils peuvent donner lieu à des faux positifs (affirmer que quelque chose est généré par l'IA alors que ce n'est pas le cas) et à des faux négatifs (affirmer que quelque chose est généré par l'homme alors que ce n'est pas le cas).

Pour les utilisateurs concernés, ces erreurs peuvent être dévastatrices, comme par exemple pour un étudiant dont la dissertation est considérée comme générée par l’IA alors qu’il l’a rédigée lui-même, ou pour quelqu’un qui croit à tort qu’un e-mail écrit par l’IA provient d’un véritable humain.

C'est une course aux armements alors que de nouvelles technologies sont développées ou perfectionnées, et que les détecteurs ont du mal à suivre le rythme.

Où aller à partir d'ici ?

S’appuyer sur un seul outil est problématique et risqué. Il est généralement plus sûr et préférable d'utiliser diverses méthodes pour évaluer l'authenticité d'un élément de contenu.

Vous pouvez le faire en croisant les sources et en revérifiant les faits dans le contenu écrit. Ou pour le contenu visuel, vous pouvez comparer des images suspectes à d’autres images censées avoir été prises au même moment ou au même endroit. Vous pouvez également demander des preuves ou des explications supplémentaires si quelque chose semble douteux.

Mais en fin de compte, les relations de confiance avec les individus et les institutions resteront l'un des facteurs les plus importants lorsque les outils de détection échouent ou que d'autres options ne sont pas disponibles.