Les différences de jugement entre les humains entraînent des problèmes pour l’IA

Les différences de jugement entre les humains entraînent des problèmes pour l’IA

De nombreuses personnes comprennent le concept de préjugé de manière intuitive. Dans la société et dans les systèmes d’intelligence artificielle, les préjugés raciaux et sexistes sont bien documentés.

Si la société pouvait d’une manière ou d’une autre éliminer les préjugés, tous les problèmes disparaîtraient-ils ? Le regretté lauréat du prix Nobel Daniel Kahneman, qui était une figure clé dans le domaine de l’économie comportementale, a soutenu dans son dernier livre que les préjugés ne sont qu’un côté de la médaille. Les erreurs de jugement peuvent être attribuées à deux sources : les biais et le bruit.

Les biais et le bruit jouent tous deux un rôle important dans des domaines tels que le droit, la médecine et les prévisions financières, où les jugements humains jouent un rôle central. Dans notre travail en tant qu’informaticiens et informaticiens, mes collègues et moi avons découvert que le bruit joue également un rôle dans l’IA.

Bruit statistique

Dans ce contexte, le bruit signifie une variation dans la façon dont les gens portent leur jugement sur le même problème ou la même situation. Le problème du bruit est plus répandu qu’il n’y paraît au premier abord. Un ouvrage fondateur, remontant à la Grande Dépression, a révélé que différents juges prononçaient des peines différentes pour des affaires similaires.

Il est inquiétant de constater que la détermination de la peine dans les affaires judiciaires peut dépendre de facteurs tels que la température et la victoire de l'équipe de football locale. De tels facteurs contribuent, au moins en partie, à la perception selon laquelle le système judiciaire est non seulement biaisé, mais aussi parfois arbitraire.

Autres exemples : les experts en sinistres peuvent donner des estimations différentes pour des sinistres similaires, reflétant ainsi le bruit dans leurs jugements. Le bruit est probablement présent dans toutes sortes de concours, allant des dégustations de vins aux concours de beauté locaux en passant par les admissions à l'université.

Bruit dans les données

À première vue, il semble peu probable que le bruit puisse affecter les performances des systèmes d’IA. Après tout, les machines ne sont pas affectées par la météo ou par les équipes de football, alors pourquoi porteraient-elles des jugements qui varient selon les circonstances ? D’un autre côté, les chercheurs savent que les préjugés affectent l’IA, car ils se reflètent dans les données sur lesquelles l’IA est entraînée.

Pour la nouvelle vague de modèles d’IA comme ChatGPT, la référence est la performance humaine sur des problèmes d’intelligence générale tels que le bon sens. ChatGPT et ses pairs sont mesurés par rapport à des ensembles de données de bon sens étiquetés par les humains.

En termes simples, les chercheurs et les développeurs peuvent poser à la machine une question de bon sens et la comparer aux réponses humaines : « Si je place une lourde pierre sur une table en papier, est-ce qu'elle s'effondrera ? Oui ou non. » S’il existe un accord élevé entre les deux – dans le meilleur des cas, un accord parfait – la machine se rapproche du bon sens humain, selon le test.

Alors, d’où viendrait le bruit ? La question de bon sens ci-dessus semble simple, et la plupart des humains seraient probablement d'accord sur sa réponse, mais il existe de nombreuses questions où il y a plus de désaccord ou d'incertitude : « La phrase suivante est-elle plausible ou invraisemblable ? Mon chien joue au volley-ball. En d’autres termes, il existe un risque de bruit. Il n’est pas surprenant que des questions intéressantes de bon sens suscitent un certain bruit.

Mais le problème est que la plupart des tests d’IA ne tiennent pas compte de ce bruit dans les expériences. Intuitivement, les questions générant des réponses humaines qui tendent à s’accorder devraient avoir une pondération plus élevée que si les réponses divergent – ​​en d’autres termes, là où il y a du bruit. Les chercheurs ne savent toujours pas si ni comment évaluer les réponses de l’IA dans cette situation, mais une première étape consiste à reconnaître que le problème existe.

Traquer le bruit dans la machine

Théorie mise à part, la question demeure de savoir si tout ce qui précède est hypothétique ou si dans les tests réels de bon sens il y a du bruit. La meilleure façon de prouver ou de réfuter la présence de bruit est de passer un test existant, de supprimer les réponses et de demander à plusieurs personnes de les étiqueter indépendamment, c'est-à-dire de fournir des réponses. En mesurant les désaccords entre les humains, les chercheurs peuvent connaître la quantité de bruit contenue dans le test.

Les détails permettant de mesurer ce désaccord sont complexes et impliquent des statistiques et des mathématiques importantes. D’ailleurs, qui peut dire comment définir le sens commun ? Comment savez-vous que les juges humains sont suffisamment motivés pour réfléchir à la question ? Ces questions se situent à l’intersection d’une bonne conception expérimentale et de statistiques. La robustesse est essentielle : il est peu probable qu’un seul résultat, test ou ensemble d’étiqueteurs humains convainque qui que ce soit. D’un point de vue pragmatique, le travail humain coûte cher. C'est peut-être pour cette raison qu'aucune étude n'a été menée sur le bruit possible dans les tests d'IA.

Pour combler cette lacune, mes collègues et moi avons conçu une telle étude et publié nos résultats dans Rapports scientifiques, montrant que même dans le domaine du bon sens, le bruit est inévitable. Parce que le contexte dans lequel les jugements sont suscités peut avoir son importance, nous avons réalisé deux types d’études. Un type d'étude impliquait des travailleurs rémunérés d'Amazon Mechanical Turk, tandis que l'autre étude impliquait un exercice d'étiquetage à plus petite échelle dans deux laboratoires de l'Université de Californie du Sud et du Rensselaer Polytechnic Institute.

Vous pouvez considérer le premier comme un environnement en ligne plus réaliste, reflétant le nombre de tests d’IA réellement étiquetés avant d’être publiés pour formation et évaluation. Cette dernière est plutôt extrême, garantissant une qualité élevée mais à des échelles beaucoup plus réduites. La question à laquelle nous avons tenté de répondre était de savoir dans quelle mesure le bruit est inévitable et s’agit-il simplement d’une question de contrôle qualité ?

Les résultats donnaient à réfléchir. Dans les deux contextes, même sur des questions de bon sens dont on aurait pu s’attendre à ce qu’elles suscitent un accord élevé, voire universel, nous avons constaté un degré non trivial de bruit. Le bruit était suffisamment élevé pour que nous en déduisions qu'entre 4 % et 10 % des performances d'un système pouvaient être attribuées au bruit.

Pour souligner ce que cela signifie, supposons que j'ai construit un système d'IA qui a obtenu 85 % lors d'un test, et que vous avez construit un système d'IA qui a atteint 91 %. Votre système semble être bien meilleur que le mien. Mais s'il y a du bruit dans les étiquettes humaines utilisées pour noter les réponses, alors nous ne sommes plus sûrs que l'amélioration de 6 % signifie grand-chose. Pour autant que nous le sachions, il n’y aura peut-être pas de réelle amélioration.

Dans les classements d'IA, où sont comparés de grands modèles de langage comme celui qui alimente ChatGPT, les différences de performances entre les systèmes concurrents sont beaucoup plus étroites, généralement inférieures à 1 %. Comme nous le montrons dans cet article, les statistiques ordinaires ne viennent pas vraiment à la rescousse pour démêler les effets du bruit de ceux d'une véritable amélioration des performances.

Audits sonores

Quelle est la voie à suivre ? Revenant au livre de Kahneman, il a proposé le concept d'un « audit du bruit » pour quantifier et finalement atténuer le bruit autant que possible. À tout le moins, les chercheurs en IA doivent estimer quelle influence pourrait avoir le bruit.

L’audit des systèmes d’IA pour détecter les biais est quelque peu courant, nous pensons donc que le concept d’audit du bruit devrait naturellement suivre. Nous espérons que cette étude, ainsi que d’autres similaires, conduiront à leur adoption.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.La conversation