L'IA multimodale apprend à peser plus uniformément le texte et les images

L'IA multimodale apprend à peser plus uniformément le texte et les images

Tout comme les yeux humains ont tendance à se concentrer sur les images avant de lire le texte qui les accompagne, l’intelligence artificielle (IA) multimodale, qui traite plusieurs types de données sensorielles à la fois, a également tendance à dépendre davantage de certains types de données. Les chercheurs du KAIST ont maintenant développé une nouvelle technologie de formation multimodale en IA qui permet aux modèles de reconnaître le texte et les images de manière uniforme, permettant ainsi des prédictions beaucoup plus précises.

Une équipe de recherche dirigée par le professeur Steven Euijong Whang de l'École de génie électrique a développé une nouvelle méthode d'augmentation des données qui permet aux systèmes d'IA multimodaux (ceux qui doivent traiter plusieurs types de données simultanément) d'utiliser de manière équilibrée toutes les données d'entrée. Les résultats sont publiés sur le arXiv serveur de préimpression.

L'IA multimodale combine diverses formes d'informations, telles que le texte et la vidéo, pour porter des jugements. Cependant, les modèles d’IA ont souvent tendance à s’appuyer de manière excessive sur un type particulier de données, ce qui entraîne une dégradation des performances de prédiction.

Pour résoudre ce problème, l’équipe de recherche a délibérément entraîné des modèles d’IA à l’aide de paires de données incompatibles ou incongrues. Ce faisant, le modèle a appris à s’appuyer sur toutes les modalités – texte, images et même audio – de manière équilibrée, quel que soit le contexte.

L'équipe a encore amélioré la stabilité des performances en intégrant une stratégie de formation qui compense les données de mauvaise qualité tout en mettant l'accent sur des exemples plus difficiles. La méthode n'est liée à aucune architecture de modèle spécifique et peut être facilement appliquée à différents types de données, ce qui la rend hautement évolutive et pratique.

Le professeur Whang a expliqué : « L'amélioration des performances de l'IA ne consiste pas seulement à modifier les architectures ou les algorithmes des modèles : la manière dont nous concevons et utilisons les données pour la formation est bien plus importante. Cette recherche démontre que la conception et l'affinement des données elles-mêmes peuvent être une approche efficace pour aider l'IA multimodale à utiliser les informations de manière plus uniforme, sans être biaisée en faveur d'une modalité spécifique telle que les images ou le texte.

L'étude a été codirigée par le doctorant Seong-Hyeon Hwang et l'étudiant à la maîtrise Soyoung Choi, le professeur Steven Euijong Whang étant l'auteur correspondant. Les résultats seront présentés lors de la conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025), qui se tiendra en décembre à San Diego, aux États-Unis, et à Mexico, au Mexique.