Les camions signifient-ils Trump? L'IA montre comment les humains jugent mal les images

Crédit : domaine public Unsplash/CC0

Une étude sur les types d’erreurs que les humains commettent lors de l’évaluation d’images peut activer des algorithmes informatiques qui nous aident à prendre de meilleures décisions concernant les informations visuelles, comme lors de la lecture d’une radiographie ou de la modération de contenu en ligne.

Des chercheurs de Cornell et d’institutions partenaires ont analysé plus de 16 millions de prédictions humaines pour savoir si un quartier a voté pour Joe Biden ou Donald Trump lors de l’élection présidentielle de 2020 sur la base d’une seule image Google Street View. Ils ont constaté que les humains en tant que groupe réussissaient bien à la tâche, mais qu’un algorithme informatique était meilleur pour faire la distinction entre le pays de Trump et celui de Biden.

L’étude a également classé les façons courantes dont les gens se trompent et a identifié des objets, tels que des camionnettes et des drapeaux américains, qui ont induit les gens en erreur.

« Nous essayons de comprendre, lorsqu’un algorithme a une prédiction plus efficace qu’un humain, pouvons-nous l’utiliser pour aider l’humain, ou créer un meilleur système hybride homme-machine qui vous donne le meilleur des deux mondes ? » a déclaré le premier auteur JD Zamfirescu-Pereira, étudiant diplômé à l’Université de Californie à Berkeley.

Il a présenté le travail, intitulé « Trucks Don’t Mean Trump: Diagnosing Human Error in Image Analysis », au Conférence 2022 de l’Association for Computing Machinery (ACM) sur l’équité, la responsabilité et la transparence (FAccT).

Récemment, les chercheurs ont accordé beaucoup d’attention à la question du biais algorithmique, c’est-à-dire lorsque les algorithmes commettent des erreurs qui désavantagent systématiquement les femmes, les minorités raciales et d’autres populations historiquement marginalisées.

« Les algorithmes peuvent se tromper d’une myriade de façons et c’est très important », a déclaré l’auteure principale Emma Pierson, professeure adjointe d’informatique au Jacobs Technion-Cornell Institute de Cornell Tech et au Technion avec le Cornell Ann S. Bowers. Collège d’informatique et des sciences de l’information. « Mais les humains sont eux-mêmes biaisés et sujets aux erreurs, et les algorithmes peuvent fournir des diagnostics très utiles sur la façon dont les gens se trompent. »

Les chercheurs ont utilisé des données anonymisées d’un quiz interactif du New York Times qui a montré aux lecteurs des instantanés de 10 000 endroits à travers le pays et leur a demandé de deviner comment le quartier avait voté. Ils ont formé un algorithme d’apprentissage automatique pour faire la même prédiction en lui donnant un sous-ensemble d’images Google Street View et en lui fournissant des résultats de vote réels. Puis ils ont comparé les performances de l’algorithme sur les images restantes avec celles des lecteurs.

Dans l’ensemble, l’algorithme d’apprentissage automatique a prédit la bonne réponse environ 74 % du temps. Lorsqu’ils sont mis en moyenne ensemble pour révéler « la sagesse de la foule », les humains avaient raison 71% du temps, mais les humains individuels n’ont obtenu qu’environ 63%.

Les gens ont souvent mal choisi Trump lorsque la vue sur la rue montrait des camionnettes ou un ciel ouvert. Dans un article du New York Times, les participants ont noté que les drapeaux américains les rendaient également plus susceptibles de prédire Trump, même si les quartiers avec des drapeaux étaient également répartis entre les candidats.

Les chercheurs ont classé les erreurs humaines comme le résultat d’un biais, d’une variance ou d’un bruit, trois catégories couramment utilisées pour évaluer les erreurs des algorithmes d’apprentissage automatique. Le biais représente des erreurs dans la sagesse de la foule, par exemple, toujours associer les camionnettes à Trump. La variance englobe les mauvais jugements individuels – lorsqu’une personne fait un mauvais appel, même si la foule avait raison, en moyenne. Le bruit se produit lorsque l’image ne fournit pas d’informations utiles, comme une maison avec un panneau Trump dans un quartier principalement votant pour Biden.

Être capable de décomposer les erreurs humaines en catégories peut aider à améliorer la prise de décision humaine. Prenez les radiologues qui lisent des radiographies pour diagnostiquer une maladie, par exemple. S’il y a beaucoup d’erreurs dues à des biais, les médecins peuvent avoir besoin d’une nouvelle formation. Si, en moyenne, le diagnostic est réussi mais qu’il existe des écarts entre les radiologues, un deuxième avis peut être justifié. Et s’il y a beaucoup de bruit trompeur dans les rayons X, un test de diagnostic différent peut être nécessaire.

En fin de compte, ce travail peut conduire à une meilleure compréhension de la manière de combiner la prise de décision humaine et machine pour les systèmes human-in-the-loop, où les humains contribuent à des processus autrement automatisés.

« Vous voulez étudier ensemble les performances de l’ensemble du système – les humains plus l’algorithme, car ils peuvent interagir de manière inattendue », a déclaré Pierson.

Fourni par l’Université Cornell