Une technique efficace améliore la fiabilité des modèles d'apprentissage automatique

Un exemple de jouet de notre méthode de méta-modèle proposée dans l’application de détection OOD montre la diversité des caractéristiques dans différentes couches. MetaModel utilise deux fonctionnalités intermédiaires, tandis que Layer1 et Layer2 ne sont formés qu’avec une fonctionnalité individuelle. Crédit: arXiv (2022). DOI : 10.48550/arxiv.2212.07359

De puissants modèles d’apprentissage automatique sont utilisés pour aider les gens à résoudre des problèmes difficiles tels que l’identification de maladies dans des images médicales ou la détection d’obstacles routiers pour les véhicules autonomes. Mais les modèles d’apprentissage automatique peuvent faire des erreurs, donc dans les environnements à enjeux élevés, il est essentiel que les humains sachent quand faire confiance aux prédictions d’un modèle.

La quantification de l’incertitude est un outil qui améliore la fiabilité d’un modèle ; le modèle produit un score avec la prédiction qui exprime un niveau de confiance que la prédiction est correcte. Bien que la quantification de l’incertitude puisse être utile, les méthodes existantes nécessitent généralement de recycler l’ensemble du modèle pour lui donner cette capacité. La formation consiste à montrer à un modèle des millions d’exemples afin qu’il puisse apprendre une tâche. Le recyclage nécessite alors des millions de nouvelles entrées de données, qui peuvent être coûteuses et difficiles à obtenir, et utilise également d’énormes quantités de ressources informatiques.

Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont maintenant développé une technique qui permet à un modèle d’effectuer une quantification plus efficace de l’incertitude, tout en utilisant beaucoup moins de ressources informatiques que d’autres méthodes, et sans données supplémentaires. Leur technique, qui n’oblige pas l’utilisateur à recycler ou à modifier un modèle, est suffisamment flexible pour de nombreuses applications.

La technique consiste à créer un modèle compagnon plus simple qui aide le modèle d’apprentissage automatique d’origine à estimer l’incertitude. Ce modèle plus petit est conçu pour identifier différents types d’incertitude, ce qui peut aider les chercheurs à approfondir la cause profonde des prédictions inexactes.

« La quantification de l’incertitude est essentielle à la fois pour les développeurs et les utilisateurs de modèles d’apprentissage automatique. Les développeurs peuvent utiliser des mesures d’incertitude pour aider à développer des modèles plus robustes, tandis que pour les utilisateurs, cela peut ajouter une autre couche de confiance et de fiabilité lors du déploiement de modèles dans le monde réel. Notre conduit à une solution plus flexible et pratique pour la quantification de l’incertitude », déclare Maohao Shen, étudiant diplômé en génie électrique et en informatique et auteur principal d’un article sur cette technique.

Shen a écrit l’article avec Yuheng Bu, un ancien post-doctorant du Laboratoire de recherche en électronique (RLE) qui est maintenant professeur adjoint à l’Université de Floride ; Prasanna Sattigeri, Soumya Ghosh et Subhro Das, membres du personnel de recherche du MIT-IBM Watson AI Lab ; et l’auteur principal Gregory Wornell, professeur Sumitomo en ingénierie qui dirige le laboratoire RLE des signaux, de l’information et des algorithmes et est membre du MIT-IBM Watson AI Lab. La recherche sera présentée à la conférence AAAI sur l’intelligence artificielle, et le document est disponible sur le arXiv serveur de préimpression.

Quantifier l’incertitude

Dans la quantification de l’incertitude, un modèle d’apprentissage automatique génère un score numérique avec chaque sortie pour refléter sa confiance dans la précision de cette prédiction. L’intégration de la quantification de l’incertitude en créant un nouveau modèle à partir de zéro ou en reformant un modèle existant nécessite généralement une grande quantité de données et des calculs coûteux, ce qui est souvent peu pratique. De plus, les méthodes existantes ont parfois pour conséquence involontaire de dégrader la qualité des prédictions du modèle.

Les chercheurs du MIT et du MIT-IBM Watson AI Lab se sont ainsi penchés sur le problème suivant : étant donné un modèle pré-entraîné, comment peuvent-ils lui permettre d’effectuer une quantification efficace de l’incertitude ?

Ils résolvent ce problème en créant un modèle plus petit et plus simple, connu sous le nom de métamodèle, qui s’attache au modèle plus grand et pré-entraîné et utilise les fonctionnalités que le modèle plus grand a déjà apprises pour l’aider à effectuer des évaluations de quantification de l’incertitude.

« Le métamodèle peut être appliqué à n’importe quel modèle pré-entraîné. Il est préférable d’avoir accès aux éléments internes du modèle, car nous pouvons obtenir beaucoup plus d’informations sur le modèle de base, mais cela fonctionnera également si vous n’avez qu’une sortie finale. Il peut toujours prédire un score de confiance », déclare Sattigeri.

Ils conçoivent le métamodèle pour produire la sortie de quantification de l’incertitude à l’aide d’une technique qui inclut les deux types d’incertitude : l’incertitude des données et l’incertitude du modèle. L’incertitude des données est causée par des données corrompues ou des étiquettes inexactes et ne peut être réduite qu’en corrigeant l’ensemble de données ou en collectant de nouvelles données. Dans l’incertitude du modèle, le modèle ne sait pas comment expliquer les données nouvellement observées et peut faire des prédictions incorrectes, probablement parce qu’il n’a pas vu suffisamment d’exemples de formation similaires. Ce problème est un problème particulièrement difficile mais courant lorsque des modèles sont déployés. Dans des contextes réels, ils rencontrent souvent des données différentes de l’ensemble de données de formation.

« La fiabilité de vos décisions a-t-elle changé lorsque vous utilisez le modèle dans un nouveau cadre ? Vous voulez un moyen de savoir s’il fonctionne dans ce nouveau régime ou si vous devez collecter des données d’entraînement pour ce nouveau paramètre particulier », Wornell dit.

Validation de la quantification

Une fois qu’un modèle produit un score de quantification d’incertitude, l’utilisateur a toujours besoin d’une certaine assurance que le score lui-même est exact. Les chercheurs valident souvent l’exactitude en créant un ensemble de données plus petit, retenu à partir des données de formation d’origine, puis en testant le modèle sur les données retenues. Cependant, cette technique ne fonctionne pas bien pour mesurer la quantification de l’incertitude car le modèle peut atteindre une bonne précision de prédiction tout en étant trop confiant, explique Shen.

Ils ont créé une nouvelle technique de validation en ajoutant du bruit aux données dans l’ensemble de validation. Ces données bruyantes ressemblent davantage à des données hors distribution qui peuvent entraîner une incertitude du modèle. Les chercheurs utilisent cet ensemble de données bruitées pour évaluer les quantifications d’incertitude.

Ils ont testé leur approche en voyant dans quelle mesure un méta-modèle pouvait capturer différents types d’incertitude pour diverses tâches en aval, y compris la détection hors distribution et la détection des erreurs de classification. Leur méthode a non seulement surpassé toutes les lignes de base dans chaque tâche en aval, mais a également nécessité moins de temps de formation pour obtenir ces résultats.

Cette technique pourrait aider les chercheurs à activer davantage de modèles d’apprentissage automatique pour effectuer efficacement la quantification de l’incertitude, aidant finalement les utilisateurs à prendre de meilleures décisions quant au moment de faire confiance aux prédictions.

À l’avenir, les chercheurs souhaitent adapter leur technique aux nouvelles classes de modèles, telles que les grands modèles de langage qui ont une structure différente de celle d’un réseau de neurones traditionnel, explique Shen.

Fourni par le Massachusetts Institute of Technology