Alors que l’IA continue de surpasser les performances humaines, il est temps de réévaluer les tests, selon un expert
Crédit : Pixabay/CC0 Domaine public
Quelle est la qualité de l’IA ? Selon la plupart des critères de performances techniques dont nous disposons aujourd’hui, c’est presque parfait. Mais cela ne signifie pas que la plupart des outils d’intelligence artificielle fonctionnent comme nous le souhaitons, explique Vanessa Parli, directrice associée des programmes de recherche au Stanford Institute for Human-Centered AI et membre du comité directeur de l’AI Index.
Elle cite l’exemple populaire actuel de ChatGPT. « Il y a eu beaucoup d’enthousiasme et cela répond assez bien à certains de ces critères », a-t-elle déclaré. « Mais lorsque vous utilisez réellement l’outil, il donne des réponses incorrectes, dit des choses que nous ne voulons pas qu’il dise et il est toujours difficile d’interagir avec lui. »
Dans le le dernier indice d’IApublié le 3 avril, une équipe de chercheurs indépendants a analysé plus de 50 points de repère dans la vision, le langage, la parole, etc. pour découvrir que les outils d’IA sont capables d’obtenir des scores extrêmement élevés sur bon nombre de ces évaluations.
« La plupart des points de repère atteignent un point où nous ne pouvons pas faire beaucoup mieux, une précision de 80 à 90 % », a-t-elle déclaré. « Nous devons vraiment réfléchir à la manière dont nous, en tant qu’humains et société, voulons interagir avec l’IA, et développer de nouvelles références à partir de là. »
Dans cette conversation, Parli explique plus en détail les tendances de l’analyse comparative qu’elle constate à partir de l’indice AI.
Qu’entendez-vous par référence ?
Une référence est essentiellement un objectif que le système d’IA doit atteindre. C’est une façon de définir ce que vous voulez que votre outil fasse, puis de travailler vers cet objectif. Un exemple est ImageNet du codirecteur de HAI Fei-Fei Li, un ensemble de données de plus de 14 millions d’images. Les chercheurs exécutent leurs algorithmes de classification d’images sur ImageNet afin de tester leur système. Le but est d’identifier correctement autant d’images que possible.
Qu’est-ce que l’étude AI Index a trouvé concernant ces références ?
Nous avons examiné plusieurs benchmarks techniques qui ont été créés au cours des douze dernières années – autour de la vision, autour du langage, etc. – et avons évalué le résultat de pointe de chaque année de référence sur un an. Ainsi, pour chaque référence, les chercheurs ont-ils pu battre le score de l’année dernière ? L’ont-ils rencontré ? Ou n’y a-t-il eu aucun progrès ? Nous avons examiné ImageNet, un benchmark de langage appelé SUPERGlue, un benchmark matériel appelé MLPerf, et plus encore ; quelque 50 ont été analysés et plus de 20 ont été inclus dans le rapport.
Et qu’as-tu trouvé dans tes recherches ?
Au cours des premières années, les gens s’amélioraient considérablement par rapport à l’état de l’art ou aux meilleures performances de l’année précédente. Cette année, dans la majorité des repères, nous avons constaté des progrès minimes au point que nous avons décidé de ne pas en inclure certains dans le rapport. Par exemple, le meilleur système de classification d’images sur ImageNet en 2021 avait un taux de précision de 91 % ; 2022 n’a vu qu’une amélioration de 0,1 point de pourcentage.
On assiste donc à une saturation de ces benchmarks, il n’y a tout simplement pas vraiment d’amélioration à apporter.
De plus, bien que certains repères n’atteignent pas la plage de précision de 90 %, ils dépassent la ligne de base humaine. Par exemple, le Visual Question Answering Challenge teste les systèmes d’IA avec des questions textuelles ouvertes sur les images. Cette année, le modèle le plus performant a atteint une précision de 84,3 %. La ligne de base humaine est d’environ 80 %.
Qu’est-ce que cela signifie pour les chercheurs ?
Ce qu’il faut retenir pour moi, c’est que nous avons peut-être besoin de repères plus récents et plus complets pour nous évaluer. Une autre façon d’y penser est la suivante : nos outils d’IA ne sont pas exactement ce que nous voudrions qu’ils soient : ils donnent de fausses informations, ils créent des images sexistes. La question devient, si les repères sont censés nous aider à atteindre un objectif, quel est cet objectif ? Comment voulons-nous travailler avec l’IA et comment voulons-nous que l’IA travaille avec nous ?
Peut-être avons-nous besoin de critères de référence plus complets – à l’heure actuelle, les critères de référence testent principalement par rapport à un seul objectif. Mais alors que nous nous dirigeons vers des outils d’IA qui intègrent la vision, le langage, etc., avons-nous besoin de références qui nous aident à comprendre les compromis entre précision et biais ou toxicité, par exemple ? Pouvons-nous considérer davantage de facteurs sociaux? Beaucoup de choses ne peuvent pas être mesurées à l’aide de repères quantitatifs. Je pense que c’est l’occasion de réévaluer ce que nous attendons de ces outils.
Les chercheurs commencent-ils déjà à construire de meilleurs benchmarks ?
Étant à Stanford HAI, qui abrite le Centre de recherche sur les modèles de fondation, je peux citer HELM. HELM, développé par des chercheurs du CRFM, examine plusieurs scénarios et plusieurs tâches et est plus complet que les références que nous avons vues dans le passé. Il prend en compte non seulement la précision, mais aussi l’équité, la toxicité, l’efficacité, la robustesse, etc.
Ce n’est qu’un exemple. Mais nous avons besoin de plus de ces approches. Parce que les repères guident la direction du développement de l’IA, ils doivent s’aligner davantage sur la façon dont nous, en tant qu’humains et en tant que société, voulons interagir avec ces outils.