Les chercheurs en IA exposent des vulnérabilités critiques au sein des principaux grands modèles de langage

Pourquoi l’IA ne peut pas reprendre l’écriture créative

En 1948, le fondateur de la théorie de l’information, Claude Shannon, a proposé le langage de modélisation en termes de probabilité du mot suivant dans une phrase donnée par les mots précédents. Ces types de modèles de langage probabiliste ont été largement ridiculisés, le plus célèbre par le linguiste Noam Chomsky: « La notion de » probabilité d’une phrase « est entièrement inutile. »

En 2022, 74 ans après la proposition de Shannon, Chatgpt est apparu, ce qui a attiré l’attention du public, certains suggérant même qu’il s’agissait d’une passerelle vers l’intelligence super humaine. Passer de la proposition de Shannon à Chatgpt a pris si longtemps parce que la quantité de données et le temps de calcul utilisés était inimaginable même quelques années auparavant.

Chatgpt est un modèle grand langage (LLM) appris d’un énorme corpus de texte d’Internet. Il prédit la probabilité du mot suivant compte tenu du contexte: une invite et les mots générés précédemment.

ChatGpt utilise ce modèle pour générer un langage en choisissant le mot suivant selon la prédiction probabiliste. Pensez à dessiner des mots d’un chapeau, où les mots prédits avoir une probabilité plus élevée ont plus de copies dans le chapeau. Chatgpt produit du texte qui semble intelligent.

Il y a beaucoup de controverse sur la façon dont ces outils peuvent aider ou entraver l’apprentissage et la pratique de l’écriture créative. En tant que professeur d’informatique qui est l’auteur de centaines d’œuvres sur l’intelligence artificielle (IA), y compris des manuels d’IA qui couvrent l’impact social des modèles de grandes langues, je pense que la compréhension du fonctionnement des modèles peut aider les écrivains et les éducateurs à considérer les limites et les utilisations potentielles de l’IA pour ce qui pourrait être appelé l’écriture « créative ».

LLMS comme perroquets ou plagiaristes

Il est important de faire la distinction entre la «créativité» par la LLM et la créativité par un humain. Pour les personnes qui avaient de faibles attentes quant à ce qu’un ordinateur pouvait générer, il a été facile d’attribuer la créativité à l’ordinateur. D’autres étaient plus sceptiques. Le scientifique cognitif Douglas Hofstadter a vu « une cure de latube époustouflante cachée juste sous sa surface flashy ».

La linguiste Emily Bender et ses collègues ont décrit les modèles de langue comme des perroquets stochastiques, ce qui signifie qu’ils répètent ce qui se trouve dans les données sur lesquelles ils ont été formés avec le hasard. Pour comprendre cela, examinez pourquoi un mot particulier a été généré. C’est parce qu’il a une probabilité relativement élevée, et qu’il a une probabilité élevée car beaucoup de texte dans le corpus de formation a utilisé ce mot dans des contextes similaires.

La sélection d’un mot en fonction de la distribution de probabilité, c’est comme sélectionner du texte avec un contexte similaire et utiliser son prochain mot. La génération de texte à partir de LLMS peut être considérée comme du plagiat, un mot à la fois.

La créativité d’un humain

Considérez la créativité d’un humain qui a des idées qu’il souhaite transmettre. Avec une IA générative, ils ont mis leurs idées dans une invite et l’IA produira du texte (ou des images ou des sons). Si quelqu’un ne se soucie pas de ce qui est généré, peu importe ce qu’il utilise comme invite. Mais que se passe-t-il s’ils se soucient de ce qui est généré?

Un LLM essaie de générer ce qu’une personne aléatoire qui avait écrit le texte précédent produirait. La plupart des écrivains créatifs ne veulent pas de ce qu’une personne aléatoire écrirait. Ils veulent utiliser leur créativité et peuvent vouloir un outil pour produire ce qu’ils écriraient s’ils avaient le temps de le produire.

Les LLM n’ont généralement pas un grand corpus de ce qu’un auteur particulier a écrit pour apprendre. L’auteur voudra sans aucun doute produire quelque chose de différent. Si la sortie devrait être plus détaillée que l’entrée, le LLM doit constituer des détails. Celles-ci peuvent ou non être ce que l’écrivain voulait.

Quelques utilisations positives des LLM pour l’écriture créative

L’écriture est comme le développement de logiciels: étant donné une idée de ce qui est recherché, les développeurs de logiciels produisent du code (texte dans un langage informatique) de manière analogue à la façon dont les écrivains produisent du texte dans un langage naturel. Les LLM traitent le code d’écriture et l’écriture de texte en langage naturel de la même manière; Le corpus sur chaque LLM est formé contient à la fois le langage naturel et le code. Ce qui est produit dépend du contexte.

Les écrivains peuvent apprendre de l’expérience des développeurs de logiciels. Les LLM sont bonnes pour les petits projets qui ont été réalisés auparavant par de nombreuses autres personnes, telles que les requêtes de base de données ou la rédaction de lettres standard. Ils sont également utiles pour certaines parties de projets plus grands, tels qu’une boîte contextuelle dans une interface utilisateur graphique.

Si les programmeurs souhaitent les utiliser pour des projets plus grands, ils doivent être prêts à générer plusieurs sorties et à modifier celle qui est la plus proche de ce qui est prévu. Le problème dans le développement de logiciels a toujours été de spécifier exactement ce qui est recherché; Le codage est la partie facile.

Générer de bonnes invites

Comment générer de bonnes invites a été préconisé en tant que formulaire d’art appelé « ingénierie rapide ». Les partisans de l’ingénierie rapide ont suggéré plusieurs techniques qui améliorent la sortie des LLM actuels, comme demander un contour, puis demander le texte en fonction de l’invite d’origine augmentée avec le contour.

Un autre est de demander au LLM de montrer ses étapes de raisonnement, comme dans la soi-disant chaîne de pensée. Les sorties LLM ne répondent pas seulement à une question, mais expliquent les étapes qui pourraient être prises pour y répondre. Le LLM utilise ces étapes dans le cadre de son invite pour obtenir sa réponse finale.

Ces conseils sont forcément éphémères. Si une technique d’ingénierie rapide fonctionne, elle sera incorporée dans une future version du LLM, de sorte que l’effet se produit sans avoir besoin d’utiliser explicite la technique. Des modèles récents qui prétendent raisonner ont incorporé ces invites étape par étape.

Les gens veulent croire

L’informaticien Joseph Weizenbaum, décrivant son programme Eliza écrit en 1964-1966, a déclaré: « J’ai été surpris de voir à quelle vitesse et à quel point les gens conversant avec (le programme) sont devenus émotionnellement impliqués avec l’ordinateur et à quel point ils l’ont anthroporphisé sans équivoque. » Les outils ont changé, mais les gens veulent toujours croire.

À cette époque de désinformation, il est important que tout le monde ait un moyen de juger le battage médiatique souvent égoïste.

Il n’y a pas de magie dans l’IA générative, mais il y a beaucoup de données à partir de laquelle prédire ce que quelqu’un pourrait écrire. J’espère que la créativité est plus que régurgiter ce que les autres ont écrit.