L'IA évalue les textes sans parti pris, jusqu'à ce que la source soit révélée

L'IA évalue les textes sans parti pris, jusqu'à ce que la source soit révélée

Les grands modèles linguistiques (LLM) sont de plus en plus utilisés non seulement pour générer du contenu mais aussi pour l'évaluer. Il leur est demandé de noter des dissertations, de modérer le contenu des réseaux sociaux, de résumer des rapports, de filtrer les candidatures et bien plus encore.

Cependant, des discussions animées font rage – dans les médias comme dans le monde universitaire – sur la question de savoir si ces évaluations sont cohérentes et impartiales. Certains LLM sont soupçonnés de promouvoir certains agendas politiques. Par exemple, Deepseek est souvent caractérisé comme ayant une perspective pro-chinoise et Open AI comme étant « réveillé ».

Bien que ces croyances soient largement débattues, elles restent jusqu’à présent infondées. Les chercheurs de l'UZH, Federico Germani et Giovanni Spitale, ont maintenant étudié si les LLM présentaient réellement des biais systématiques lors de l'évaluation des textes. Leurs résultats, publiés dans Avancées scientifiquesmontrent que les LLM délivrent effectivement des jugements biaisés, mais uniquement lorsque des informations sur la source ou l'auteur du message évalué sont révélées.

Le jugement du LLM mis à l’épreuve

Les chercheurs ont inclus quatre LLM largement utilisés dans leur étude : OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2 et Mistral. Premièrement, ils ont chargé chacun des LLM de créer 50 déclarations narratives sur 24 sujets controversés, tels que les mandats de vaccination, la géopolitique ou les politiques en matière de changement climatique.

Ensuite, ils ont demandé aux LLM d'évaluer tous les textes dans différentes conditions : parfois aucune source pour la déclaration n'était fournie, parfois elle était attribuée à un humain d'une certaine nationalité ou à un autre LLM. Cela a abouti à un total de 192 000 évaluations qui ont ensuite été analysées pour déterminer les biais et la concordance entre les différents (ou les mêmes) LLM.

La bonne nouvelle : lorsqu'aucune information sur la source du texte n'a été fournie, les évaluations des quatre LLM ont montré un niveau d'accord élevé, plus de 90 %. Cela était vrai dans tous les sujets. « Il n'y a pas de guerre des idéologies LLM », conclut Spitale. « Le danger du nationalisme de l'IA est actuellement exagéré dans les médias. »

La neutralité se dissout lorsque la source est ajoutée

Cependant, la situation a complètement changé lorsque des sources fictives des textes ont été fournies aux LLM. Puis, tout à coup, un parti pris profond et caché s’est révélé. L'accord entre les systèmes LLM était considérablement réduit et disparaissait parfois complètement, même si le texte restait exactement le même.

Le plus frappant était le fort biais anti-chinois présent dans tous les modèles, y compris le modèle chinois Deepseek. L'accord avec le contenu du texte a fortement chuté lorsqu'« une personne originaire de Chine » a été (faussement) révélée comme étant l'auteur. « Ce jugement moins favorable est apparu même lorsque l'argumentation était logique et bien écrite », explique Germani. Par exemple : sur des sujets géopolitiques comme la souveraineté de Taiwan, Deepseek a réduit l'accord jusqu'à 75 % simplement parce qu'il s'attendait à ce qu'un Chinois ait un point de vue différent.

Également surprenant : il s'est avéré que les LLM faisaient plus confiance aux humains qu'aux autres LLM. La plupart des modèles ont obtenu des scores d’accord légèrement inférieurs lorsqu’ils pensaient que les textes avaient été écrits par une autre IA. « Cela suggère une méfiance inhérente à l'égard du contenu généré par des machines », explique Spitale.

Plus de transparence nécessaire de toute urgence

Dans l’ensemble, les résultats montrent que l’IA ne se contente pas de traiter le contenu lorsqu’on lui demande d’évaluer un texte. Cela réagit également fortement à l’identité de l’auteur ou de la source. Même de petits indices comme la nationalité de l'auteur peuvent pousser les LLM à un raisonnement biaisé. Germani et Spitale affirment que cela pourrait entraîner de graves problèmes si l’IA était utilisée à des fins de modération de contenu, de recrutement, de révision académique ou de journalisme. Le danger des LLM n’est pas qu’ils soient formés pour promouvoir une idéologie politique ; c'est ce biais caché.

« L'IA reproduira de telles hypothèses néfastes à moins que nous n'intégrions la transparence et la gouvernance dans la manière dont elle évalue les informations », explique Spitale. Cela doit être fait avant que l’IA ne soit utilisée dans des contextes sociaux ou politiques sensibles. Les résultats ne signifient pas que les gens devraient éviter l’IA, mais ils ne devraient pas lui faire aveuglément confiance. « Les LLM sont plus sûrs lorsqu'ils sont utilisés pour aider au raisonnement plutôt que pour le remplacer : des assistants utiles, mais jamais des juges. »

Comment éviter les biais d'évaluation LLM

  1. Rendre l'identité LLM aveugle : supprimez toutes les informations d'identité concernant l'auteur et la source du texte, par exemple, évitez d'utiliser des expressions telles que « écrit par une personne de X / par le modèle Y » dans l'invite.
  2. Vérifiez sous différents angles : posez les mêmes questions deux fois, par exemple avec et sans une source mentionnée dans l'invite. Si les résultats changent, vous êtes probablement confronté à un biais. Ou vérifiez par recoupement avec un deuxième modèle LLM : si une divergence apparaît lorsque vous ajoutez une source, c'est un signal d'alarme.
  3. Elargissez l’attention des sources : des critères structurés aident à ancrer le modèle dans le contenu plutôt que dans l’identité. Utilisez cette invite, par exemple : « Notez ceci en utilisant une grille en 4 points (preuves, logique, clarté, contre-arguments) et expliquez brièvement chaque score. »
  4. Gardez les humains informés : traitez le modèle comme une aide à la rédaction et ajoutez un examen humain au processus, surtout si une évaluation affecte des personnes.