Les limites de ChatGPT pour la rédaction de scripts

L'année dernière, le syndicat Writers Guild of America (WGA), qui représente les scénaristes de cinéma et de télévision, s'est mis en grève pendant près de cinq mois, en partie pour réglementer le rôle d'IA dans l'écriture de scénarios. « Alexa ne nous remplacera pas », pouvait-on lire sur un panneau de piquetage.

Aujourd'hui, des chercheurs de Penn Engineering, Haverford College et Penn State ont présenté un article lors de la conférence 2024 de l'Association of Computing Machinery sur l'équité, la responsabilité et la transparence (ACM FAccT) qui identifie un inconvénient non signalé auparavant dans l'écriture de scripts à l'aide de ChatGPT d'OpenAI : la modération du contenu. tellement zélé que même certains scripts classés PG sont censurés, limitant potentiellement l'expression artistique.

La recherche est publiée dans La conférence ACM 2024 sur l'équité, la responsabilité et la transparence.

Les lignes directrices établies par l'accord entre la WGA et l'Association des producteurs de films et de télévision (AMPTP) qui a mis fin à la grève autorisaient certaines utilisations de l'IA dans l'écriture de scénarios. Bien que la WGA et l’AMPTP conviennent que l’IA ne peut pas être reconnue comme écrivain, elles autorisent son utilisation comme outil dans le processus de création.

La nouvelle étude soulève des questions sur l'efficacité de cette approche, montrant que la modération automatisée du contenu empêche ChatGPT de produire du contenu déjà autorisé à la télévision. La modération automatisée du contenu de ChatGPT filtre des sujets tels que la violence, la sexualité et les discours de haine afin d'empêcher la génération de contenu inapproprié ou dangereux.

Dans l'étude, qui a examiné les scripts réels et générés par ChatGPT pour les 100 émissions de télévision les plus regardées d'IMDb, notamment Game of Thrones, Stranger Things et 13 Reasons Why, ChatGPT a signalé près de 20 % des scripts générés par ChatGPT lui-même pour violations de contenu, et près de 70 % des scripts réels des émissions de télévision figurant sur la liste, dont la moitié des émissions classées PG testées.

« Si l'IA est utilisée pour générer du contenu culturel, comme des scripts télévisés, quelles histoires ne seront pas racontées ? » écrivent les co-auteurs principaux de l'article, Danaë Metaxa, Raj et Neera Singh, professeur adjoint en informatique et sciences de l'information (CIS) à Penn Engineering, et Sorelle Friedler, professeur d'informatique de la famille Shibulal au Haverford College.

« Nous avons testé de vrais scripts », explique Friedler, « et 69 % d'entre eux n'ont pas réussi à passer les filtres de contenu, y compris même certains de ceux classés PG. Cela m'a vraiment semblé indiquer que le système était un peu trop grand pour filtrer le contenu. »

Censure de la créativité : Les limites de ChatGPT pour l'écriture de scénarios

Poussé par la grève des écrivains, le projet a commencé avec Friedler et Metaxa se demandant si un grand modèle de langage (LLM) comme ChatGPT pouvait réellement produire un script de haute qualité. « Nous avons commencé à essayer de produire des scripts avec des LLM », se souvient Metaxa, « et nous avons constaté qu'avant même de pouvoir déterminer si le script était de haute qualité, dans de nombreux cas, nous ne parvenions pas à faire en sorte que le LLM génère un script. du tout. »

Dans un cas, suite à une invite tirée d'un résumé d'un épisode de Game of Thrones, ChatGPT a refusé de produire le script et a répondu par un avertissement rouge : « Ce contenu peut enfreindre nos politiques d'utilisation. »

Pour étudier le système de modération de contenu de ChatGPT, les chercheurs ont utilisé une technique connue sous le nom d'« audit d'algorithme », qui tire des conclusions sur les logiciels dont le fonctionnement interne reste propriétaire en analysant les résultats du logiciel.

L'équipe, qui comprenait également le premier auteur Yaaseen Mahomed, récemment diplômé d'une maîtrise en CIS à Penn Engineering, Charlie M. Crawford, étudiant de premier cycle à Haverford, et Sanjana Gautam, titulaire d'un doctorat. étudiant en informatique à Penn State, a interrogé à plusieurs reprises ChatGPT, lui demandant d'écrire des scripts basés sur des résumés d'épisodes d'émissions de télévision extraits de la base de données de films Internet (IMDb) et de Wikipédia.

Pour chaque demande de script, l'équipe a sondé le « point final de modération de contenu » de ChatGPT, un outil accessible aux programmeurs qui renvoie une liste de 11 catégories de contenu interdit (y compris « haineux », « sexuel » et « automutilation ») et indique quelles catégories , le cas échéant, ont été déclenchés par l'invite, ainsi qu'un score compris entre 0 et 1 de confiance de ChatGPT dans son évaluation d'une violation pour chaque catégorie.

En effet, cette approche a permis à l'équipe de déterminer pourquoi certaines demandes d'écriture de scénario étaient censurées et de déduire la sensibilité des paramètres de modération de contenu de ChatGPT à des sujets, genres et catégories d'âge particuliers.

Comme le reconnaissent les auteurs de l'article, la modération du contenu est un élément essentiel des LLM, car il est extrêmement difficile de supprimer le contenu inapproprié des données de formation des modèles. « Si vous ne pratiquez pas une forme de modération du contenu », explique Friedler, « alors ces modèles vous lanceront un langage violent et raciste ».

Pourtant, comme les chercheurs l’ont découvert, une modération trop zélée du contenu peut facilement basculer vers la censure et limiter l’expression artistique. L'agrégation de plus de 250 000 résultats du point de terminaison de modération de contenu a permis aux chercheurs d'observer des modèles dans le choix de ChatGPT de s'autoriser (ou de ne pas s'autoriser) à écrire certains scripts.

L'une des découvertes les plus remarquables des chercheurs est que différentes catégories de contenus potentiellement dangereux se signalent à des rythmes différents. Les chercheurs ont constaté que les scripts étaient très fréquemment signalés pour leur contenu violent, ce qui a conduit à de nombreuses autres conclusions, telles qu'une forte probabilité d'être signalés pour des émissions policières et d'horreur. Les scripts réels avaient des scores relatifs élevés pour le contenu sexuel, tandis que les scripts générés par GPT étaient moins susceptibles de générer du contenu jugé inapproprié à caractère sexuel en premier lieu.

Dans de nombreux cas, le contenu considéré comme approprié pour les téléspectateurs – et regardé par des millions de fans – était toujours identifié comme une violation de contenu par Open AI.

Les scripts télévisés qui mentionnent l’automutilation, par exemple, pourraient être dangereux ou constituer une forme d’expression artistique. « Nous devons parler de sujets comme l'automutilation », déclare Metaxa, « mais avec un niveau de soin et de nuance, et ce n'est tout simplement pas dans l'intérêt d'une entreprise produisant ce type d'outil de déployer autant d'efforts. qu'il faudrait suivre cette ligne avec prudence.

Un aspect de ChatGPT que les chercheurs espèrent explorer davantage est la mesure dans laquelle les paramètres de modération de contenu du logiciel filtrent le contenu lié aux identités marginalisées. Comme le dit Friedler, « ce type de filtrage peut filtrer certaines voix et certaines représentations de la vie humaine plus que d'autres ».

En effet, les chercheurs ont découvert que ChatGPT était plus susceptible de signaler les scripts décrivant la nudité féminine comme inappropriés à caractère sexuel que les scripts décrivant la nudité masculine, et que ChatGPT était plus susceptible de qualifier de violents les scripts incluant des descriptions de handicaps et de maladies mentales, bien que les chercheurs affirment que les deux tendances doivent être étudiées plus en détail.

« Ironiquement », dit Metaxa, « les groupes susceptibles d'être blessés par les discours de haine qui pourraient jaillir d'un LLM sans garde-fous sont les mêmes groupes qui vont être blessés par une modération excessive qui empêche un LLM de parler de certains types. des identités marginalisées.

Dans le contexte de la récente grève, les chercheurs affirment la nécessité à la fois de modération du contenu et d’expression artistique, qui, selon eux, ne devraient pas être entièrement laissées entre les mains de systèmes autonomes. « La modération du contenu est loin d'être un problème résolu et est indéniablement importante », concluent les chercheurs. « Mais la solution à ces problèmes ne doit pas être la censure. »

Cette étude a été menée à l’École d’ingénierie et de sciences appliquées de l’Université de Pennsylvanie, au Haverford College et à la Pennsylvania State University.