Une formule mathématique s'attaque à la prise de décision morale complexe en IA

Le contenu généré par l’IA est-il réellement détectable ?

Crédit : Pixabay/CC0 Domaine public

Ces dernières années, l’intelligence artificielle (IA) a fait d’énormes progrès grâce aux progrès de l’apprentissage automatique et à la croissance des pools de données à partir desquelles apprendre. Les grands modèles de langage (LLM) et leurs dérivés, tels que ChatGPT d’OpenAI et BERT de Google, peuvent désormais générer du matériel de plus en plus similaire au contenu créé par les humains. En conséquence, les LLM sont devenus des outils populaires pour créer des textes de haute qualité, pertinents et cohérents à diverses fins, de la rédaction de publications sur les réseaux sociaux à la rédaction d’articles universitaires.

Malgré la grande variété d’applications potentielles, les LLM font l’objet d’un examen de plus en plus minutieux. Les critiques, en particulier les éducateurs et les créateurs de contenu original, considèrent les LLM comme un moyen de plagiat, de tricherie, de tromperie et d’ingénierie sociale manipulatrice.

En réponse à ces préoccupations, les chercheurs ont développé de nouvelles méthodes pour aider à faire la distinction entre le contenu créé par l’homme et les textes générés par la machine. L’espoir est que la capacité d’identifier le contenu automatisé limitera les abus de LLM et leurs conséquences.

Mais les informaticiens de l’Université du Maryland s’efforcent de répondre à une question importante : ces détecteurs peuvent-ils identifier avec précision le contenu généré par l’IA ?

La réponse courte : non, du moins pas maintenant

« Les détecteurs actuels d’IA ne sont pas fiables dans des scénarios pratiques », a déclaré Soheil Feizi, professeur adjoint d’informatique à l’UMD. « Il y a beaucoup de lacunes qui limitent leur efficacité à détecter. Par exemple, nous pouvons utiliser un paraphrase et la précision du meilleur détecteur que nous avons passe de 100 % au caractère aléatoire d’un tirage au sort. Si nous paraphrasons simplement quelque chose qui a été généré par un LLM, nous pouvons souvent déjouer une gamme de techniques de détection. »

Dans un article récent, Feizi a décrit deux types d’erreurs qui ont un impact sur la fiabilité d’un détecteur de texte IA : le type I (lorsque le texte humain est détecté comme généré par l’IA) et le type II (lorsque le texte généré par l’IA n’est tout simplement pas détecté).

« L’utilisation d’un paraphrase, qui est maintenant un outil assez courant disponible en ligne, peut provoquer le deuxième type d’erreur », a expliqué Feizi, qui détient également une nomination conjointe à l’Institut d’études informatiques avancées de l’Université du Maryland. « Il y a aussi eu un exemple récent du premier type d’erreur qui est devenu viral. Quelqu’un a utilisé un logiciel de détection d’IA sur la Constitution américaine et il a été signalé comme généré par l’IA, ce qui est évidemment très faux. »

Selon Feizi, de telles erreurs commises par les détecteurs d’IA peuvent être extrêmement dommageables et souvent impossibles à contester lorsque des autorités comme les éducateurs et les éditeurs accusent les étudiants et d’autres créateurs de contenu d’utiliser l’IA. Lorsque et si de telles accusations s’avèrent fausses, les entreprises et les personnes responsables du développement des détecteurs d’IA défectueux pourraient également subir une perte de réputation.

De plus, même les LLM protégés par des schémas de filigrane restent vulnérables contre les attaques d’usurpation d’identité où des humains adverses peuvent déduire des filigranes cachés et les ajouter à du texte non IA afin qu’il soit détecté comme étant généré par l’IA. Les réputations et la propriété intellectuelle peuvent être irréversiblement entachées après des résultats erronés – une raison majeure pour laquelle Feizi appelle à la prudence lorsqu’il s’agit de se fier uniquement aux détecteurs d’IA pour authentifier le contenu créé par l’homme.

« Disons qu’on vous donne une peine au hasard », a déclaré Feizi. « Théoriquement, vous ne pouvez jamais dire de manière fiable que cette phrase a été écrite par un humain ou une sorte d’IA, car la distribution entre les deux types de contenu est si proche l’une de l’autre. C’est particulièrement vrai quand on pense à la sophistication des LLM et LLM- les attaquants comme les paraphrases ou l’usurpation sont en train de devenir. »

« La frontière entre ce qui est considéré comme humain et artificiel devient encore plus mince à cause de toutes ces variables », a-t-il ajouté. « Il y a une limite supérieure sur nos détecteurs qui les limite fondamentalement, il est donc très peu probable que nous soyons en mesure de développer des détecteurs qui identifieront de manière fiable le contenu généré par l’IA. »

Un autre point de vue : plus de données pourraient conduire à une meilleure détection

Furong Huang, professeur adjoint d’informatique à l’UMD, a une vision plus optimiste de l’avenir de la détection de l’IA.

Bien qu’elle soit d’accord avec son collègue Feizi sur le fait que les détecteurs actuels sont imparfaits, Huang pense qu’il est possible de signaler le contenu généré artificiellement, tant qu’il existe suffisamment d’exemples de ce qui constitue un contenu créé par l’homme. En d’autres termes, en matière d’analyse par IA, plus c’est mieux.

« Les LLM sont formés sur d’énormes quantités de texte. Plus nous leur fournissons d’informations, meilleurs et plus humains leurs résultats », a expliqué Huang, qui détient également une nomination conjointe à l’Institut d’études informatiques avancées de l’Université du Maryland. « Si nous faisons la même chose avec les détecteurs, c’est-à-dire leur fournissons plus d’échantillons à partir desquels apprendre, alors les détecteurs deviendront également plus sophistiqués. Ils seront mieux à même de repérer le texte généré par l’IA. »

Le récent article de Huang sur ce sujet a examiné la possibilité de concevoir des détecteurs d’IA supérieurs, ainsi que de déterminer la quantité de données qui serait nécessaire pour améliorer ses capacités de détection.

« Mathématiquement parlant, nous serons toujours en mesure de collecter plus de données et d’échantillons pour que les détecteurs puissent en tirer des enseignements », a déclaré le doctorat en informatique de l’UMD. étudiant Souradip Chakraborty, co-auteur de l’article. « Par exemple, il existe de nombreux bots sur les plateformes de médias sociaux comme Twitter. Si nous collectons plus de bots et les données dont ils disposent, nous serons mieux à même de discerner ce qui est du spam et ce qui est du texte humain sur la plateforme. »

L’équipe de Huang suggère que les détecteurs adoptent une approche plus holistique et examinent des échantillons plus importants pour tenter d’identifier ce « spam » généré par l’IA.

« Au lieu de se concentrer sur une seule phrase ou phrase pour la détection, nous suggérons d’utiliser des paragraphes ou des documents entiers », a ajouté Amrit Singh Bedi, chercheur au Maryland Robotics Center, qui est également co-auteur de l’article de Huang. « L’analyse de plusieurs phrases augmenterait la précision de la détection de l’IA, car le système a plus à apprendre qu’une simple phrase individuelle. »

Le groupe de Huang pense également que la diversité innée au sein de la population humaine rend difficile pour les LLM de créer un contenu qui imite le texte produit par l’homme. Des caractéristiques spécifiquement humaines telles que certains schémas grammaticaux et certains choix de mots pourraient aider à identifier un texte écrit par une personne plutôt que par une machine.

« Ce sera comme une course aux armements constante entre l’IA générative et les détecteurs », a déclaré Huang. « Mais nous espérons que cette relation dynamique améliore réellement notre approche de la création à la fois des LLM génératifs et de leurs détecteurs en premier lieu. »

Quelle est la prochaine étape pour l’IA et la détection de l’IA

Bien que Feizi et Huang aient des opinions divergentes sur l’avenir de la détection LLM, ils partagent plusieurs conclusions importantes qu’ils espèrent que le public envisagera d’aller de l’avant.

« Une chose est sûre : interdire les LLM et les applications comme ChatGPT n’est pas la solution », a déclaré Feizi. « Nous devons accepter que ces outils existent maintenant et qu’ils sont là pour rester. Il y a tellement de potentiel en eux pour des domaines comme l’éducation, par exemple, et nous devons intégrer correctement ces outils dans des systèmes où ils peuvent faire du bien. »

Feizi suggère dans ses recherches que les méthodes de sécurité utilisées pour contrer les LLM génératives, y compris les détecteurs, n’ont pas besoin d’être à 100 % infaillibles – elles doivent simplement être plus difficiles à casser pour les attaquants, en commençant par combler les failles que les chercheurs connaissent déjà. Huang est d’accord.

« Nous ne pouvons pas simplement abandonner si le détecteur commet une erreur dans un cas », a déclaré Huang. « Il doit y avoir un effort actif pour protéger le public des conséquences de l’abus de LLM, en particulier les membres de notre société qui s’identifient comme des minorités et sont déjà confrontés à des préjugés sociaux dans leur vie. »

Les deux chercheurs pensent également que la multimodalité (l’utilisation de texte en conjonction avec des images, des vidéos et d’autres formes de médias) sera également essentielle pour améliorer la détection de l’IA à l’avenir. Feizi cite l’utilisation d’outils de vérification secondaires déjà en pratique, tels que l’authentification des numéros de téléphone liés aux comptes de médias sociaux ou l’observation des modèles de comportement dans les soumissions de contenu, comme garanties supplémentaires pour empêcher la fausse détection et les biais de l’IA.

« Nous voulons encourager une discussion ouverte et honnête sur les applications éthiques et dignes de confiance des LLM génératifs », a déclaré Feizi. « Il existe de nombreuses façons d’utiliser ces outils d’IA pour améliorer notre société, en particulier pour l’apprentissage des élèves ou pour empêcher la propagation de la désinformation. »

Alors que les textes générés par l’IA deviennent de plus en plus répandus, des chercheurs comme Feizi et Huang reconnaissent qu’il est important de développer des positions plus proactives dans la façon dont le public aborde les LLM et les formes similaires d’IA.

« Nous devons commencer par le haut », a déclaré Huang. « Les parties prenantes doivent commencer à discuter de ces LLM et discuter avec les décideurs politiques de l’établissement de règles de base par le biais de la réglementation. Il doit y avoir une surveillance de la progression des LLM pendant que des chercheurs comme nous développent de meilleurs détecteurs, des filigranes ou d’autres approches pour gérer les abus d’IA. »

Les deux articles sont publiés sur le arXiv serveur de préimpression.