Un nouveau modèle d’IA brise les barrières de l’apprentissage de vision industrielle multimodalité

Récemment, l'équipe de recherche dirigée par le professeur Wang Hongqiang des instituts Hefei des sciences physiques de l'Académie chinoise des sciences a proposé un modèle d'IA de vision industrielle multimodalité de grande envergure.

Ce modèle a surmonté les limites des modèles traditionnels à domaine unique dans la gestion des informations multimodales et a réalisé de nouvelles avancées dans la technologie de récupération d'images multimodales.

La vision industrielle cross-modale est un enjeu majeur en IA, car elle implique de trouver cohérence et complémentarité entre différents types de données. Les méthodes traditionnelles se concentrent sur les images et les fonctionnalités, mais sont limitées par des problèmes tels que la granularité des informations et le manque de données.

Par rapport aux méthodes traditionnelles, les chercheurs ont constaté que les associations détaillées sont plus efficaces pour maintenir la cohérence entre les modalités. Le travail est affiché sur le arXiv serveur de préimpression.

Dans l’étude, l’équipe a introduit un vaste réseau d’exploration d’informations (WRIM-Net). Ce modèle a créé des interactions entre régions mondiales pour extraire des associations détaillées dans divers domaines, tels que les domaines spatiaux, de canal et d'échelle, en mettant l'accent sur l'exploration d'informations invariantes de modalité sur un large éventail.

De plus, l’équipe de recherche a guidé le réseau pour extraire efficacement des informations invariantes de modalité en concevant une perte contrastive d’instance clé inter-modalité. La validation expérimentale a montré l'efficacité du modèle sur des ensembles de données intermodales standards et à grande échelle, atteignant pour la première fois plus de 90 % dans plusieurs mesures de performance clés.

Ce modèle peut être appliqué dans divers domaines de l'intelligence artificielle, notamment la traçabilité et la récupération visuelles ainsi que l'analyse d'images médicales, selon l'équipe.