Faites-vous confiance à l’IA pour écrire l’actualité ? C’est déjà le cas

Les entreprises utilisent de plus en plus l’intelligence artificielle (IA) pour générer du contenu médiatique, notamment des actualités, afin d’engager leurs clients. Aujourd’hui, nous voyons même l’IA être utilisée pour la « gamification » des actualités, c’est-à-dire pour créer une interactivité associée au contenu des actualités.

Pour le meilleur ou pour le pire, l’IA change la nature des médias d’information. Et nous devrons faire preuve de sagesse si nous voulons protéger l’intégrité de cette institution.

Comment est-elle morte?

Imaginez que vous lisez un article tragique sur la mort d’un jeune entraîneur sportif dans une prestigieuse école de Sydney.

Dans une case à droite se trouve un sondage vous demandant de spéculer sur la cause du décès. Le sondage est généré par l’IA. Il est conçu pour vous maintenir engagé dans l’histoire, car cela vous rendra plus susceptible de répondre aux publicités fournies par l’opérateur du sondage.

Ce scénario n’est pas hypothétique. Cela s’est joué dans Le gardienle récent reportage de sur la mort de Lilie James.

Dans le cadre d’un accord de licence, Microsoft a republié Le gardiensur son application d’actualités et son site Web Microsoft Start. Le sondage était basé sur le contenu de l’article et affiché à côté de celui-ci, mais Le gardien n’avait aucune implication ni aucun contrôle sur celui-ci.

Si l’article avait porté sur un événement sportif à venir, un sondage sur le résultat probable aurait été inoffensif. Pourtant, cet exemple montre à quel point cela peut être problématique lorsque l’IA commence à se mêler aux pages d’actualités, un produit traditionnellement organisé par des experts.

L’incident a suscité une colère raisonnable. Dans une lettre adressée au président de Microsoft, Brad Smith, la directrice générale du Guardian Media Group, Anna Bateson, a déclaré qu’il s’agissait d’une « utilisation inappropriée de genAI ». [generative AI] », ce qui a causé « un préjudice important à la réputation » de Le gardien et le journaliste qui a écrit l’histoire.

Naturellement, le sondage a été supprimé. Mais cela soulève la question : pourquoi Microsoft a-t-il laissé cela se produire en premier lieu ?

La conséquence de l’omission du bon sens

La première partie de la réponse est que les produits d’information supplémentaires tels que les sondages et les quiz engagent réellement les lecteurs, comme l’a montré une étude du Center for Media Engagement de l’Université du Texas.

Étant donné qu’il est peu coûteux d’utiliser l’IA à cette fin, il semble probable que les entreprises de presse (et celles qui diffusent les actualités des autres) continueront à le faire.

La deuxième partie de la réponse est qu’il n’y a eu aucun « humain dans la boucle », ou une implication humaine limitée, dans l’incident de Microsoft.

Les principaux fournisseurs de grands modèles de langage – les modèles qui sous-tendent divers programmes d’IA – sont incités financièrement et en termes de réputation à s’assurer que leurs programmes ne causent pas de préjudice. Open AI avec ses modèles GPT et DAll-E, Google avec PaLM 2 (utilisé dans Bard) et Meta avec son Llama 2 téléchargeable ont tous déployé des efforts importants pour garantir que leurs modèles ne génèrent pas de contenu nuisible.

Ils y parviennent souvent par le biais d’un processus appelé « apprentissage par renforcement », dans lequel les humains organisent des réponses à des questions susceptibles de nuire. Mais cela n’empêche pas toujours les modèles de produire du contenu inapproprié.

Il est probable que Microsoft s’est appuyé sur les aspects peu nocifs de son IA, plutôt que de réfléchir à la manière de minimiser les dommages pouvant survenir lors de l’utilisation réelle du modèle. Cette dernière nécessite du bon sens, un trait qui ne peut pas être programmé dans de grands modèles de langage.

Des milliers d’articles générés par l’IA par semaine

L’IA générative devient accessible et abordable. Cela le rend attrayant pour les entreprises d’information commerciale, qui subissent des pertes de revenus. Ainsi, nous voyons désormais l’IA « écrire » des reportages, évitant ainsi aux entreprises d’avoir à payer des salaires aux journalistes.

En juin, le président exécutif de News Corp, Michael Miller, a révélé que la société disposait d’une petite équipe qui produisait environ 3 000 articles par semaine à l’aide de l’IA.

Essentiellement, l’équipe de quatre personnes s’assure que le contenu a du sens et n’inclut pas d’« hallucinations » : de fausses informations fabriquées par un modèle lorsqu’il ne peut pas prédire une réponse appropriée à une entrée.

Même si ces informations sont probablement exactes, les mêmes outils peuvent être utilisés pour générer des contenus potentiellement trompeurs présentés comme des informations et presque impossibles à distinguer des articles rédigés par des journalistes professionnels.

Depuis avril, une enquête de NewsGuard a découvert des centaines de sites Web, rédigés en plusieurs langues, qui sont en grande partie ou entièrement générés par l’IA pour imiter de vrais sites d’information. Certaines d’entre elles comprenaient des informations erronées préjudiciables, comme l’affirmation selon laquelle le président américain Joe Biden était décédé.

On pense que les sites, qui regorgeaient de publicités, étaient probablement générés pour générer des revenus publicitaires.

À mesure que la technologie progresse, le risque augmente également

En général, de nombreux grands modèles de langage ont été limités par leurs données de formation sous-jacentes. Par exemple, les modèles formés sur des données jusqu’en 2021 ne fourniront pas de « nouvelles » précises sur les événements mondiaux en 2022.

Cependant, cela est en train de changer, car les modèles peuvent désormais être ajustés pour répondre à des sources particulières. Ces derniers mois, l’utilisation d’un framework d’IA appelé « génération augmentée de récupération » a évolué pour permettre aux modèles d’utiliser des données très récentes.

Avec cette méthode, il serait certainement possible d’utiliser le contenu sous licence d’un petit nombre de fils d’information pour créer un site Web d’information.

Bien que cela puisse être pratique d’un point de vue commercial, il s’agit là d’un autre moyen potentiel par lequel l’IA pourrait exclure les humains du processus de création et de diffusion d’informations.

Une page d’actualités organisée par un éditorial est un produit précieux et bien pensé. Laisser l’IA faire ce travail pourrait nous exposer à toutes sortes de désinformation et de préjugés (surtout sans surveillance humaine), ou entraîner un manque de couverture localisée importante.

Prendre des raccourcis pourrait faire de nous tous des perdants

Le Code de négociation des médias d’information australien a été conçu pour « uniformiser les règles du jeu » entre les grandes entreprises technologiques et les entreprises médiatiques. Depuis l’entrée en vigueur du code, un changement secondaire découle désormais de l’utilisation de l’IA générative.

Mis à part la valeur des clics, il n’existe actuellement aucune comparaison entre la qualité des informations qu’un journaliste peut produire et celle que l’IA peut produire.

Même si l’IA générative pourrait contribuer à augmenter le travail des journalistes, par exemple en les aidant à trier de grandes quantités de contenu, nous avons beaucoup à perdre si nous commençons à la considérer comme un substitut.