Distillation des connaissances d’équipe pour un apprentissage multi-domaines en quelques coups
Bien que l’apprentissage à quelques coups (FSL) ait réalisé de grands progrès, il reste un énorme défi, en particulier lorsque les ensembles source et cible proviennent de domaines différents, ce qui est également connu sous le nom d’apprentissage à quelques coups inter-domaines (CD-FSL). L’utilisation de plus de données de domaine source est un moyen efficace d’améliorer les performances de CD-FSL. Cependant, les connaissances de différents domaines sources peuvent s’entremêler et se confondre, ce qui nuit aux performances sur le domaine cible.
Une équipe de recherche dirigée par le professeur Zhong JI de l’Université de Tianjin a publié ses nouvelles recherches le 27 mars 2023 dans Frontières de l’informatique.
L’équipe propose des réseaux de distillation des connaissances en équipe (TKD-Net) pour aborder le CD-FSL, qui explore une stratégie pour aider la coopération de plusieurs enseignants. Ils distillent les connaissances de la coopération des réseaux d’enseignants à un seul réseau d’étudiants dans un cadre de méta-apprentissage. Il intègre la distillation des connaissances axée sur les tâches et la coopération multiple entre les enseignants pour former un étudiant efficace avec une meilleure capacité de généralisation sur des tâches invisibles. De plus, leur TKD-Net utilise à la fois des connaissances basées sur les réponses et des connaissances basées sur les relations pour transférer des connaissances plus complètes et plus efficaces.
Plus précisément, la méthode qu’ils proposent consiste en deux étapes : une étape de développement des enseignants et une étape de distillation des connaissances à plusieurs niveaux. Ils ont d’abord respectivement pré-formé des modèles d’enseignants avec les données de formation de plusieurs domaines vus par apprentissage supervisé, où tous les modèles d’enseignants ont la même architecture de réseau. Après avoir obtenu plusieurs modèles d’enseignants spécifiques à un domaine, les connaissances à plusieurs niveaux sont ensuite transférées de la coopération des enseignants à l’étudiant dans le paradigme du méta-apprentissage.
La distillation axée sur les tâches est bénéfique pour le modèle étudiant pour s’adapter rapidement aux tâches à quelques coups. Le modèle étudiant est formé sur la base des réseaux prototypes et des étiquettes souples fournies par les modèles enseignants. De plus, ils explorent davantage les connaissances intégrées dans la similarité et explorent la matrice de similarité des enseignants pour transférer la relation entre les échantillons dans les tâches à quelques coups. Il guide l’étudiant pour apprendre des informations plus spécifiques et complètes.
Les travaux futurs pourraient se concentrer sur l’ajustement adaptatif du poids de plusieurs modèles d’enseignants et trouver d’autres moyens d’agréger efficacement les connaissances de plusieurs enseignants.
Fourni par Frontiers Journals