L'apprentissage automatique auto-supervisé s'adapte aux nouvelles tâches sans recyclage

L'apprentissage automatique auto-supervisé s'adapte aux nouvelles tâches sans recyclage

Le domaine de l’apprentissage automatique est traditionnellement divisé en deux catégories principales : l’apprentissage « supervisé » et « non supervisé ». Dans l’apprentissage supervisé, les algorithmes sont entraînés sur des données étiquetées, où chaque entrée est associée à la sortie correspondante, fournissant ainsi à l’algorithme des conseils clairs. En revanche, l’apprentissage non supervisé repose uniquement sur des données d’entrée, ce qui oblige l’algorithme à découvrir des modèles ou des structures sans aucune sortie étiquetée.

Ces dernières années, un nouveau paradigme appelé « apprentissage auto-supervisé » (SSL) est apparu, brouillant les frontières entre ces catégories traditionnelles. L'apprentissage supervisé dépend fortement des experts humains pour étiqueter les données et servir de « superviseur ». Cependant, SSL contourne cette dépendance en utilisant des algorithmes pour générer automatiquement des étiquettes à partir de données brutes.

Les algorithmes SSL sont utilisés pour un large éventail d'applications, du traitement du langage naturel (NLP) à la vision par ordinateur, en passant par la bioinformatique et la reconnaissance vocale. Les approches SSL traditionnelles encouragent les représentations de paires sémantiquement similaires (positives) à être proches, et celles de paires dissemblables (négatives) à être plus éloignées.

Les paires positives sont généralement générées à l’aide de techniques standard d’augmentation des données telles que la randomisation de la couleur, de la texture, de l’orientation et du recadrage. L'alignement des représentations des paires positives peut être guidé soit par l'invariance, qui favorise l'insensibilité à ces augmentations, soit par l'équivariance, qui maintient la sensibilité à celles-ci.

Le défi, cependant, est que l’application de l’invariance ou de l’équivariance à un ensemble prédéfini d’augmentations introduit de forts « a priori inductifs » – des hypothèses inhérentes sur les propriétés que les représentations apprises doivent satisfaire – qui sont loin d’être universelles dans une gamme d’applications en aval. tâches.

Dans un article publié au arXiv serveur de préimpression, une équipe du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et de l'Université technique de Munich a proposé une nouvelle approche de l'apprentissage auto-supervisé qui répond à ces limites liées au recours à des augmentations de données prédéfinies et apprend à la place d'un représentation générale qui peut s'adapter à différentes transformations en prêtant attention au contexte, qui représente une notion abstraite d'une tâche ou d'un environnement.

Cela permet d'apprendre des représentations de données plus flexibles et adaptables à diverses tâches en aval, diverses symétries et caractéristiques sensibles, éliminant ainsi le besoin de recyclage répétitif pour chaque tâche.

Appelant leur méthode « Contextual Self-Supervised Learning » (ContextSSL), les chercheurs démontrent son efficacité à travers des expériences approfondies sur plusieurs ensembles de données de référence. L'idée principale est d'introduire un contexte inspiré des modèles du monde, c'est-à-dire des représentations de l'environnement d'un agent qui capturent sa dynamique et sa structure.

En incorporant ces modèles mondiaux, l'approche permet au modèle d'adapter dynamiquement ses représentations pour qu'elles soient invariantes ou équivariantes en fonction de la tâche à accomplir. Cela élimine le besoin de former des représentations distinctes pour chaque tâche en aval et permet une approche plus générale et plus flexible du SSL.

ContextSSL utilise un module de transformation pour coder le contexte sous la forme d'une séquence de triplets état-action-état suivant, représentant les expériences précédentes de transformations. En prêtant attention au contexte, le modèle apprend à appliquer sélectivement l'invariance ou l'équivariance en fonction du groupe de transformation représenté dans le contexte.

« Plus précisément, notre objectif est de former des représentations qui deviennent plus équivariantes au groupe de transformation sous-jacent avec un contexte croissant », explique le doctorat du CSAIL. l'étudiant Sharut Gupta, auteur principal du nouvel article rédigé par des chercheurs dont les professeurs Tommi Jaakkola et Stefanie Jegelka du MIT. « Nous ne voulons pas affiner les modèles à chaque fois, mais construire un modèle flexible à usage général qui pourrait s'occuper de différents environnements de la même manière que le font les humains. »

ContextSSL démontre des gains de performances significatifs sur plusieurs tests de vision par ordinateur, notamment 3DIEBench et CIFAR-10, pour les tâches nécessitant à la fois l'invariance et l'équivariance. En fonction du contexte, la représentation apprise par ContextSSL s'adapte aux bonnes fonctionnalités utiles pour une tâche en aval donnée.

À titre d'exemple, l'équipe a testé la capacité de ContextSSL à apprendre des représentations pour l'attribut particulier du sexe sur MIMIC-III, une vaste collection de dossiers médicaux qui comprend des identifiants cruciaux tels que les médicaments, les données démographiques des patients, la durée du séjour à l'hôpital (LOS) et les données de survie. .

L'équipe a étudié cet ensemble de données car il capture des tâches du monde réel bénéficiant à la fois de l'équivariance et de l'invariance : l'équivariance est cruciale pour des tâches telles que le diagnostic médical où les dosages de médicaments dépendent du sexe et des caractéristiques physiologiques des patients, tandis que l'invariance est essentielle pour garantir l'équité dans la prévision des résultats comme la durée du séjour à l’hôpital ou les frais médicaux.

Les chercheurs ont finalement découvert que lorsque ContextSSL s’intéresse au contexte favorisant la sensibilité au genre, la précision de la prédiction du genre et la prédiction du traitement médical s’améliorent avec le contexte. Au contraire, lorsque le contexte favorise l’invariance, les performances s’améliorent en matière de prédiction de la durée du séjour hospitalier (LOS) et de diverses mesures d’équité mesurées par les cotes égalisées (EO) et l’égalité des chances (EOPP).

« L'un des principaux objectifs de l'apprentissage auto-supervisé est de générer des représentations flexibles qui peuvent être adaptées à de nombreuses tâches en aval », explique Dilip Krishnan, chercheur principal chez Google DeepMind, qui n'a pas participé à l'article. « Plutôt que de s'appuyer sur l'invariance ou l'équivariance a priori, il est bien plus utile de décider de ces propriétés d'une manière spécifique à une tâche.

« Cet article intéressant fait un pas important dans cette direction. En exploitant intelligemment les capacités d'apprentissage en contexte des modèles de transformateur, leur approche peut être utilisée pour imposer l'invariance ou l'équivariance à différentes transformations de manière simple et efficace. »