Une approche de l'automatisation de l'apprentissage automatique
En tant que technologie fondamentale de l'intelligence artificielle, les méthodes d'apprentissage automatique (ML) existantes reposent souvent sur une intervention humaine importante et un préréglage manuel, comme la collecte, la sélection et l'annotation manuelles des données, la construction manuelle de l'architecture fondamentale des réseaux neuronaux profonds et la détermination des types d'algorithmes et de leurs hyperparamètres des algorithmes d'optimisation, etc. Ces limitations entravent la capacité du ML à traiter efficacement des données complexes et des environnements multitâches variés dans le monde réel.
Pour répondre aux défis actuels du ML, l’équipe de recherche de l’Université Xian Jiaotong a développé une nouvelle approche appelée méthodologie d’apprentissage par simulation (SLeM). Le concept de base de SLeM est de simuler et d’extraire la méthodologie d’apprentissage du ML traditionnellement définie par les humains, en la transformant en un processus d’apprentissage automatisé. Essentiellement, le cadre SLeM représente un paradigme ML pour ML, où les outils ML sont utilisés pour concevoir et optimiser les composants fondamentaux du ML.
L'équipe a développé une série d'algorithmes pour l'automatisation du ML basés sur le framework SLeM, démontrant son efficacité dans l'amélioration des capacités d'apprentissage adaptatif des méthodes ML existantes.
« Récemment, de nombreuses méthodes AutoML ont été proposées pour réaliser l'automatisation du ML. Cependant, la plupart des méthodes AutoML existantes sont de nature heuristique, ce qui rend difficile l'établissement d'une base théorique solide. En revanche, le cadre SLeM offre une formulation mathématique unifiée pour l'automatisation du ML et fournit des informations théoriques sur les capacités de généralisation du transfert de tâches de SLeM », explique le professeur Zongben Xu, auteur principal de cet article et académicien de l'Académie chinoise des sciences.
Le développement de modèles de langage à grande échelle (ML) avancés est devenu une pierre angulaire de l'intelligence artificielle, élargissant considérablement la capacité à résoudre un large éventail d'applications et de tâches. Cependant, les preuves théoriques sous-jacentes aux remarquables capacités de généralisation des tâches des LLM n'ont pas été pleinement prises en compte par la communauté ML. La nouvelle approche SLeM offre une perspective et un outil prometteurs pour faire progresser l'étude et la compréhension des capacités de généralisation des tâches dans les modèles de langage à grande échelle (LLM).