Un nouveau modèle d'apprentissage de l'IA améliore les performances et l'efficacité de la détection de position

Les systèmes d'IA généraux, comme GPT d'OpenAI, dépendent de grandes quantités de données d'entraînement pour améliorer la précision et les performances du modèle. Les applications d'IA de recherche ou médicales, qui manquent souvent à la fois de données d'entraînement et de puissance de calcul, peuvent tirer parti d'un nouveau modèle conçu pour améliorer l'efficacité, la pertinence et la précision des résultats de l'IA pour des scénarios plus spécialisés.

Les grands modèles de langage pré-entraînés (PLM) utilisent des ensembles de données de plus en plus volumineux, comme Wikipédia, pour entraîner et optimiser les modèles d'apprentissage automatique (ML) afin d'effectuer une tâche spécifique. Bien que la précision et les performances des grands PLM, comme ChatGPT, se soient améliorées au fil du temps, ils ne fonctionnent pas bien dans les situations où de grands ensembles de données ne sont pas disponibles ou ne peuvent pas être utilisés en raison de limitations informatiques.

En termes simples, une nouvelle solution d’IA est nécessaire pour utiliser efficacement le ML dans la recherche, la médecine ou d’autres applications où de grandes quantités d’informations ne sont pas disponibles pour former correctement les modèles d’IA existants.

Pour résoudre ce problème, une équipe d’informaticiens de l’Agence pour la science, la technologie et la recherche (A*STAR) de Singapour a récemment mis au point une méthode collaborative d’infusion de connaissances qui permet d’entraîner efficacement un modèle ML avec de plus petites quantités de données d’entraînement. Dans ce cas, les chercheurs ont créé un modèle qui détermine plus précisément la position, ou l’opinion pour ou contre, d’une cible spécifique, comme un produit ou un candidat politique, en fonction du contexte d’un tweet, d’une critique commerciale ou d’autres données linguistiques.

L'équipe a publié son étude dans la revue Exploration et analyse de Big Data le 28 août.

« La détection de position est par nature une tâche nécessitant peu de ressources en raison de la diversité des cibles et de la disponibilité limitée des données annotées. Malgré ces défis, la détection de position est essentielle pour surveiller les médias sociaux, mener des sondages et éclairer les stratégies de gouvernance », a déclaré Yan Ming, chercheur principal au Center for Frontier AI Research (CFAR) de l'A*STAR et premier auteur de l'article. « L'amélioration des méthodes basées sur l'IA pour la détection de position nécessitant peu de ressources est essentielle pour garantir que ces outils sont efficaces et fiables dans les applications du monde réel. »

Des ensembles de données d'entraînement plus petits peuvent avoir un effet profond sur la précision des modèles de prédiction de l'IA. Par exemple, la cible « enfreindre la loi » dans Wikipédia renvoie à une chanson de heavy metal de Judas Priest plutôt qu'à la véritable définition du terme : agir de manière illégale. Ce type de données d'entraînement erronées peut sérieusement affecter les performances des modèles ML.

Afin d'améliorer la précision de la détection de position de l'IA qui dépend d'ensembles de données de formation plus petits, l'équipe de recherche s'est concentrée sur des mécanismes de modèles collaboratifs pour : vérifier les connaissances provenant de différentes sources et apprendre des fonctionnalités sélectives plus efficacement.

« La plupart des systèmes d’IA s’appuient sur des modèles pré-entraînés développés à l’aide d’ensembles de données massifs et prédéfinis qui peuvent devenir obsolètes, entraînant une dégradation des performances. La méthode que nous proposons relève ce défi en intégrant des connaissances vérifiées provenant de sources multiples, garantissant ainsi que le modèle reste pertinent et efficace », a déclaré Ming.

« Les modèles linguistiques pré-entraînés nécessitent en outre des données annotées complètes pour l'entraînement en raison de leurs paramètres à grande échelle. Notre méthode introduit un adaptateur collaboratif qui intègre un nombre minimal de paramètres pouvant être formés, … améliorant l'efficacité de l'entraînement et les capacités d'apprentissage des fonctionnalités », a déclaré Ming.

L’équipe a également ciblé l’efficacité d’optimisation des grands PLM en mettant en scène l’algorithme d’optimisation.

Pour tester leur modèle, les chercheurs ont réalisé des expériences sur trois ensembles de données de détection de posture accessibles au public : VAST, P-Stance et COVID-19-Stance. Les performances du modèle de l'équipe ont ensuite été comparées à celles obtenues par les modèles TAN, BERT, WS-BERT-Dual et d'autres modèles d'IA.

Mesuré à l'aide des scores F1, un modèle d'apprentissage automatique précis, le nouveau modèle de détection de posture de l'équipe de recherche pour les données d'entraînement à faibles ressources a systématiquement obtenu des scores plus élevés que les autres modèles d'IA utilisant les trois ensembles de données, avec des scores F1 compris entre 79,6 % et 86,91 %. Un score F1 de 70 % ou plus est actuellement considéré comme bon.

Le nouveau modèle de détection de position améliore considérablement la praticité de l’IA dans des contextes de recherche plus spécialisés et fournit un modèle pour une optimisation supplémentaire à l’avenir.

« Notre objectif principal est de mettre en place un apprentissage efficace dans le cadre d'applications concrètes à faibles ressources. Contrairement aux grandes entreprises d'IA qui se concentrent sur le développement de modèles généraux d'intelligence artificielle (AGI), notre objectif est de créer des méthodes d'IA plus efficaces qui profitent à la fois au public et à la communauté des chercheurs », a déclaré Joey Tianyi Zhou, scientifique principal au CFAR et co-auteur de l'article.

Ivor W. Tsang du Centre for Frontier AI Research (CFAR) et de l'Institute of High Performance Computing (IHPC) de l'Agence pour la science, la technologie et la recherche (A*STAR) à Singapour a également contribué à cette recherche.

Fourni par Tsinghua University Press