Nouvelle technique pour évaluer la fiabilité d'un modèle d'IA à usage général avant son déploiement

Nouvelle technique pour évaluer la fiabilité d'un modèle d'IA à usage général avant son déploiement

Les modèles de base sont des modèles d'apprentissage profond massifs qui ont été pré-entraînés sur une énorme quantité de données à usage général et non étiquetées. Ils peuvent être appliqués à une variété de tâches, comme la génération d'images ou la réponse aux questions des clients.

Mais ces modèles, qui servent de base à de puissants outils d’intelligence artificielle comme ChatGPT et DALL-E, peuvent fournir des informations erronées ou trompeuses. Dans une situation critique pour la sécurité, comme lorsqu’un piéton s’approche d’une voiture autonome, ces erreurs peuvent avoir de graves conséquences.

Pour éviter de telles erreurs, les chercheurs du MIT et du MIT-IBM Watson AI Lab ont développé une technique permettant d’estimer la fiabilité des modèles de base avant qu’ils ne soient déployés sur une tâche spécifique.

Pour ce faire, ils entraînent un ensemble de modèles de base légèrement différents les uns des autres. Ils utilisent ensuite leur algorithme pour évaluer la cohérence des représentations que chaque modèle apprend sur le même point de données de test. Si les représentations sont cohérentes, cela signifie que le modèle est fiable.

Lorsqu’ils ont comparé leur technique aux méthodes de base de pointe, ils ont constaté qu’elle était plus efficace pour capturer la fiabilité des modèles fondamentaux sur une variété de tâches de classification.

Cette technique pourrait être utilisée pour décider si un modèle doit être appliqué dans un contexte donné, sans avoir à le tester sur un ensemble de données du monde réel. Cela pourrait être particulièrement utile lorsque les ensembles de données ne sont pas accessibles pour des raisons de confidentialité, comme dans le domaine des soins de santé. En outre, cette technique pourrait être utilisée pour classer les modèles en fonction des scores de fiabilité, ce qui permettrait à un utilisateur de sélectionner le meilleur modèle pour sa tâche.

« Tous les modèles peuvent être erronés, mais les modèles qui savent quand ils sont erronés sont plus utiles. Le problème de quantification de l'incertitude ou de la fiabilité devient plus difficile pour ces modèles fondamentaux, car leurs représentations abstraites sont difficiles à comparer. Notre méthode permet de quantifier la fiabilité d'un modèle de représentation pour toute donnée d'entrée donnée », explique l'auteur principal Navid Azizan, professeur adjoint Esther et Harold E. Edgerton au département de génie mécanique du MIT et à l'Institute for Data, Systems, and Society (IDSS), et membre du Laboratory for Information and Decision Systems (LIDS).

Il est rejoint dans un article sur les travaux par l'auteur principal Young-Jin Park, un étudiant diplômé du LIDS, Hao Wang, chercheur scientifique au MIT-IBM Watson AI Lab, et Shervin Ardeshir, chercheur scientifique senior chez Netflix. L'article sera présenté à la Conférence sur l'incertitude en intelligence artificielle (UAI 2024), qui se tiendra du 15 au 19 juillet à Barcelone, et est disponible sur le site arXiv serveur de préimpression.

Compter le consensus

Les modèles d'apprentissage automatique traditionnels sont formés pour effectuer une tâche spécifique. Ces modèles font généralement une prédiction concrète en fonction d'une entrée. Par exemple, le modèle peut vous dire si une certaine image contient un chat ou un chien. Dans ce cas, l'évaluation de la fiabilité pourrait simplement consister à examiner la prédiction finale pour voir si le modèle est correct.

Mais les modèles de base sont différents. Le modèle est pré-entraîné à l'aide de données générales, dans un contexte où ses créateurs ne connaissent pas toutes les tâches en aval auxquelles il sera appliqué. Les utilisateurs l'adaptent à leurs tâches spécifiques une fois qu'il a été formé.

Contrairement aux modèles d'apprentissage automatique traditionnels, les modèles de base ne fournissent pas de résultats concrets tels que des étiquettes « chat » ou « chien ». Au lieu de cela, ils génèrent une représentation abstraite basée sur un point de données d'entrée.

Pour évaluer la fiabilité d’un modèle de fondation, les chercheurs ont utilisé une approche d’ensemble en entraînant plusieurs modèles qui partagent de nombreuses propriétés mais sont légèrement différents les uns des autres.

« Notre idée est similaire à celle du comptage du consensus. Si tous ces modèles fondamentaux donnent des représentations cohérentes pour toutes les données de notre ensemble de données, alors nous pouvons dire que ce modèle est fiable », explique Park.

Mais ils se sont heurtés à un problème : comment pouvaient-ils comparer des représentations abstraites ?

« Ces modèles génèrent simplement un vecteur composé de quelques nombres, nous ne pouvons donc pas les comparer facilement », ajoute-t-il.

Ils ont résolu ce problème en utilisant une idée appelée cohérence de voisinage.

Pour leur approche, les chercheurs préparent un ensemble de points de référence fiables à tester sur l'ensemble des modèles. Ensuite, pour chaque modèle, ils étudient les points de référence situés à proximité de la représentation du point de test de ce modèle.

En examinant la cohérence des points voisins, ils peuvent estimer la fiabilité des modèles.

Aligner les représentations

Les modèles de base cartographient les points de données dans ce que l'on appelle un espace de représentation. On peut considérer cet espace comme une sphère. Chaque modèle cartographie des points de données similaires sur la même partie de sa sphère, de sorte que les images de chats se trouvent à un endroit et les images de chiens à un autre.

Mais chaque modèle cartographierait les animaux différemment dans sa propre sphère, ainsi, alors que les chats peuvent être regroupés près du pôle Sud d'une sphère, un autre modèle pourrait cartographier les chats quelque part dans l'hémisphère nord.

Les chercheurs utilisent les points voisins comme des ancres pour aligner ces sphères afin de pouvoir comparer les représentations. Si les voisins d'un point de données sont cohérents sur plusieurs représentations, on peut alors être sûr de la fiabilité de la sortie du modèle pour ce point.

En testant cette approche sur une large gamme de tâches de classification, ils ont constaté qu'elle était beaucoup plus cohérente que les méthodes de référence. De plus, elle n'était pas perturbée par des points de test difficiles qui faisaient échouer d'autres méthodes.

De plus, leur approche peut être utilisée pour évaluer la fiabilité de toute donnée d’entrée, de sorte que l’on pourrait évaluer dans quelle mesure un modèle fonctionne pour un type particulier d’individu, comme un patient présentant certaines caractéristiques.

« Même si tous les modèles ont des performances globales moyennes, d'un point de vue individuel, vous préférerez celui qui fonctionne le mieux pour cet individu », explique Wang.

Cependant, une limitation vient du fait qu'ils doivent former un ensemble de grands modèles de base, ce qui est coûteux en termes de calcul. À l'avenir, ils prévoient de trouver des moyens plus efficaces pour construire plusieurs modèles, peut-être en utilisant de petites perturbations d'un seul modèle.