Plus de transparence est nécessaire de la part des développeurs sur les mérites de l’IA, selon un document d’orientation
Les développeurs d’IA doivent être beaucoup plus ouverts sur la façon dont ils évaluent les outils qu’ils produisent, pour s’assurer que les gens comprennent à quel point l’intelligence artificielle de haute technologie est efficace.
Un groupe de 16 chercheurs issus d’institutions de premier plan appellent à des changements significatifs dans la manière dont les systèmes d’IA sont évalués et signalés, afin que d’autres universitaires et utilisateurs puissent comprendre pleinement ce que les outils peuvent et ne peuvent pas faire.
Le professeur Anthony Cohn de la School of Computing de l’Université de Leeds fait partie des 16 universitaires à l’origine d’un document d’orientation publié le vendredi 14 avril dans la revue Science plaidant pour les changements.
Le professeur Cohn, qui est également membre de l’Institut Alan Turing, a averti que sans plus de transparence autour de l’IA, les gens « pourraient finir par faire confiance à un système alors qu’ils ne le devraient pas ».
Traditionnellement, les systèmes d’IA sont évalués sur des « points de référence », généralement un grand ensemble de données d’« instances de problème », comme un ensemble de scans aux rayons X, avec des anomalies mises en évidence sous forme d’annotations. Le système d’IA peut être formé sur une partie de ceux-ci, puis testé sur un ensemble d’instances invisibles, sans aucune annotation, et évalué sur sa capacité à prédire les annotations correctes.
La performance globale du système d’IA est ensuite mesurée et rapportée par des statistiques agrégées et peut atteindre des niveaux de performance très élevés. Bien qu’il s’agisse d’une mesure potentiellement utile de la performance globale d’un système, ces statistiques agrégées peuvent dissimuler des zones de mauvaise performance dans les « cas minoritaires », avec de profondes implications pour quiconque s’appuie sur la statistique globale et pense que le système d’IA est également fiable à tous les niveaux.
Dans l’IA utilisée pour aider les travailleurs de la santé à trouver un diagnostic, ces systèmes pourraient avoir un problème lorsqu’ils examinent une personne d’une ethnie ou d’un groupe démographique particulier, car ces cas ne représentaient qu’une petite proportion de sa «formation», ou un outil pourrait avoir succès significativement plus faible dans l’identification d’une maladie ou d’une anomalie rare spécifique.
Le professeur Cohn a déclaré : « Avec l’IA qui fait tellement parler d’elle ces jours-ci et les nombreuses affirmations, souvent exagérées, concernant les performances des systèmes d’IA et les prétendus progrès vers l’intelligence artificielle générale (AGI), il est devenu beaucoup plus important de comprendre correctement le véritable les progrès réalisés lorsque les résultats d’un nouveau système sont présentés, et quelles sont exactement les forces et les faiblesses du système. »
Risque de « biais cachés »
Le problème pourrait s’appliquer à de nombreux domaines différents; un exemple non médical pourrait être un système formé pour prendre des décisions sur les demandes de carte de crédit – bien qu’il puisse s’avérer très précis sur les données de test tirées de l’ensemble de données des décisions précédentes, cela peut cacher des préjugés contre des classes minoritaires particulières de demandeur, il ajoutée.
L’article, « Rethink reporting of evaluation results in AI », a été rédigé par le premier auteur, le Dr Ryan Burnell du Leverhulme Center for the Future of Intelligence de l’Université de Cambridge, avec des chercheurs d’institutions du monde entier, dont Leeds, Harvard, le Valencian Institut de recherche en intelligence artificielle (VRAIN) de l’Universitat Politècnica de València, Massachusetts Institute of Technology et Google.
Le Dr Burnell a déclaré : « La culture de la recherche en IA est centrée sur le fait de surpasser les performances de pointe actuelles afin d’être publié, de remporter des défis et d’atteindre les meilleurs classements. Cette culture a conduit à une fixation sur l’amélioration des métriques agrégées, et décourage les chercheurs d’interroger soigneusement les performances du système. Au lieu de cela, la vitesse de publication et l’exactitude globale du système sont prioritaires par rapport aux pratiques d’évaluation robustes et transparentes.
Le document énonce quatre nouvelles lignes directrices pour des pratiques d’évaluation robustes de l’IA, indiquant que dans la mesure du possible, les chercheurs devraient donner des détails granulaires avec des ventilations des instances problématiques qu’ils ont utilisées pour développer et évaluer leurs systèmes. Les auteurs recommandent également que tous les résultats d’évaluation enregistrés, tant les réussites que les échecs, soient mis à disposition afin que d’autres chercheurs puissent reproduire les analyses et effectuer des évaluations de suivi.