Le raisonnement causal rencontre l’apprentissage des représentations visuelles : une étude prospective

par Beijing Zhongke Journal Publishing Co.

Avec l’émergence d’énormes quantités de données multimodales hétérogènes, notamment des images, des vidéos, des textes/langues, des audios et des données multicapteurs, les méthodes basées sur l’apprentissage profond se sont révélées prometteuses pour diverses tâches de vision par ordinateur et d’apprentissage automatique, telles que compréhension visuelle, compréhension vidéo, analyse visuo-linguistique et fusion multimodale.

Cependant, les méthodes existantes s’appuient fortement sur l’ajustement des distributions de données et ont tendance à capturer les corrélations parasites provenant de différentes modalités, et ne parviennent donc pas à apprendre les relations causales essentielles derrière la connaissance multimodale, qui possède de bonnes capacités de généralisation et cognitives.

Inspiré par le fait que la plupart des données dans la société de vision par ordinateur sont indépendantes et distribuées de manière identique (iid), un corpus important de littérature a adopté l’augmentation des données, la pré-formation, l’auto-supervision et de nouvelles architectures pour améliorer la robustesse de l’État. des architectures de réseaux neuronaux profonds de pointe. Cependant, il a été avancé que de telles stratégies apprennent uniquement des modèles basés sur la corrélation (dépendances statistiques) à partir des données et peuvent ne pas se généraliser correctement sans la garantie du paramètre iid.

En raison de sa puissante capacité à découvrir les connaissances structurelles sous-jacentes sur les processus de génération de données qui permettent aux interventions de bien se généraliser à différentes tâches et environnements, le raisonnement causal offre une alternative prometteuse à l’apprentissage par corrélation.

Récemment, le raisonnement causal a attiré une attention croissante dans une myriade de domaines à fort impact au sein de la vision par ordinateur et de l’apprentissage automatique, tels que l’apprentissage profond interprétable, la sélection des caractéristiques causales, la compréhension visuelle, la robustesse visuelle, la réponse visuelle aux questions et la compréhension vidéo. Un défi commun à ces méthodes causales est de savoir comment construire un modèle cognitif solide capable de découvrir pleinement la causalité et les relations spatio-temporelles.

Dans leur article, les chercheurs visent à fournir un aperçu complet du raisonnement causal pour l’apprentissage de la représentation visuelle, en attirant l’attention, en encourageant les discussions et en mettant au premier plan l’urgence de développer de nouvelles méthodes d’apprentissage de la représentation visuelle guidées par la causalité.

Bien qu’il existe quelques enquêtes sur le raisonnement causal, ces travaux sont destinés à des tâches d’apprentissage de représentation générale telles que la déconfusion, la généralisation hors distribution (OOD) et l’avilissement.

L’ouvrage est publié dans la revue Recherche sur l’intelligence artificielle.

De manière unique, cet article se concentre sur l’enquête systématique et complète des travaux, ensembles de données, idées, défis futurs et opportunités pour le raisonnement causal, l’apprentissage de la représentation visuelle et leur intégration. Pour présenter la revue de manière plus concise et claire, cet article sélectionne et cite des ouvrages connexes en considérant leurs sources, leurs années de publication, leur impact et la couverture des différents aspects du sujet étudié dans cet article.

Globalement, les principales contributions de ce travail sont les suivantes.

Tout d’abord, cet article présente les concepts de base de la causalité, du modèle causal structurel (SCM), du principe du mécanisme causal indépendant (ICM), de l’inférence causale et de l’intervention causale. Ensuite, sur la base de l’analyse, l’article donne en outre quelques instructions pour mener un raisonnement causal sur les tâches d’apprentissage de la représentation visuelle. Cet article pourrait être le premier à proposer des orientations de recherche potentielles pour l’apprentissage des représentations visuelles causales.

Deuxièmement, une revue prospective est introduite pour évaluer systématiquement et structurellement les travaux existants en fonction de leurs efforts dans les directions indiquées ci-dessus pour mener plus efficacement l’apprentissage des représentations visuelles causales. Les chercheurs se concentrent sur la relation entre l’apprentissage des représentations visuelles et le raisonnement causal et permettent de mieux comprendre pourquoi et comment les méthodes de raisonnement causal existantes peuvent être utiles dans l’apprentissage des représentations visuelles, tout en fournissant une source d’inspiration pour de futures recherches et études.

Troisièmement, le nouvel article explore et discute les futurs domaines de recherche et les problèmes ouverts liés à l’utilisation de méthodes de raisonnement causal pour aborder l’apprentissage des représentations visuelles. Cela peut encourager et soutenir l’élargissement et l’approfondissement de la recherche dans des domaines connexes.

La section 2 présente les préliminaires, qui comprennent cinq parties. Sa première partie concerne les concepts de base de la causalité. L’apprentissage causal est différent de l’apprentissage statistique, qui vise à découvrir des relations causales au-delà des relations statistiques. L’apprentissage de la causalité nécessite des méthodes d’apprentissage automatique non seulement pour prédire le résultat des expériences iid, mais aussi pour raisonner dans une perspective causale.

La deuxième partie est le SCM, qui considère la formulation d’un style de causalité. La troisième partie est le principe ICM, qui décrit l’indépendance des mécanismes causals. La quatrième partie est l’inférence causale, dont le but est d’estimer le changement de résultat (ou l’effet) de différents traitements. La dernière partie est l’intervention causale, qui vise à capturer les effets causals des interventions (c’est-à-dire les variables) et à tirer parti des relations causales dans les ensembles de données pour améliorer les performances du modèle et la capacité de généralisation.

Les méthodes traditionnelles d’apprentissage des fonctionnalités apprennent généralement la fausse corrélation introduite par les facteurs de confusion. Cela réduira la robustesse des modèles et rendra les modèles difficiles à généraliser à tous les domaines. Le raisonnement causal, un paradigme d’apprentissage qui révèle la véritable causalité du résultat, surmonte le défaut essentiel de l’apprentissage par corrélation et apprend des fonctionnalités robustes, réutilisables et fiables.

Dans la section 3, les chercheurs examinent les récentes méthodes de raisonnement causal représentatives pour l’apprentissage des caractéristiques générales, qui se composent principalement de trois paradigmes principaux : 1) le modèle causal structurel (SCM) intégré, 2) l’application d’une intervention causale/contrefactuelle et 3) la frontière de Markov (MB ) sélection de fonctionnalités basée sur.

L’apprentissage des représentations visuelles a fait de grands progrès ces dernières années et peut utiliser des informations spatiales ou/et temporelles pour accomplir des tâches spécifiques, notamment la compréhension visuelle (détection d’objets, génération de graphiques de scène, ancrage visuel, raisonnement visuel de bon sens), la détection et la reconnaissance d’actions, et réponse visuelle aux questions, etc.

Dans la section 4, les chercheurs présentent ces tâches d’apprentissage visuel représentatives et discutent des défis existants et de la nécessité d’appliquer le raisonnement causal à l’apprentissage des représentations visuelles.

Selon les méthodes d’apprentissage des représentations visuelles évoquées ci-dessus, l’apprentissage automatique actuel, en particulier l’apprentissage des représentations, est confronté à plusieurs défis : 1) manque d’interprétabilité, 2) faible capacité de généralisation et 3) dépendance excessive aux corrélations de distribution des données. Le raisonnement causal offre une alternative prometteuse pour relever ces défis.

La découverte de la causalité aide à découvrir le mécanisme causal derrière les données, permettant à la machine de mieux comprendre pourquoi et de prendre des décisions par le biais d’une intervention ou d’un raisonnement contrefactuel.

Dans la section 5, les chercheurs résument quelques approches récentes pour l’apprentissage des représentations visuelles causales. L’apprentissage des représentations visuelles est un sujet de recherche émergent et apparu depuis les années 2020. Les tâches associées peuvent être grossièrement classées en plusieurs aspects principaux : 1) compréhension visuelle causale, 2) robustesse visuelle causale et 3) réponse visuelle causale aux questions. Dans cette section, les chercheurs discutent de ces trois représentations visuelles causales représentatives des tâches d’apprentissage.

Les modèles basés sur la corrélation peuvent donner de bons résultats dans les ensembles de données existants, non pas parce que ces modèles ont une forte capacité de raisonnement, mais parce que ces ensembles de données ne peuvent pas pleinement prendre en charge l’évaluation de la capacité de raisonnement des modèles. De fausses corrélations dans ces ensembles de données peuvent être exploitées par le modèle pour tricher, ce qui signifie que le modèle se concentre uniquement sur l’apprentissage superficiel des corrélations, et non sur un véritable raisonnement causal, se rapprochant uniquement de la distribution de l’ensemble de données.

Par exemple, dans l’ensemble de données VQA v1.0 pour la tâche VQA, le modèle répond simplement « oui » à la question « Voyez-vous un ··· », ce qui atteindra une précision de près de 90 %. En raison de cette lacune dans les ensembles de données actuels, les chercheurs doivent établir des critères permettant d’évaluer la véritable capacité de raisonnement causal des modèles.

Dans la section 6, les chercheurs utilisent des références de réponses à des questions en images et des références de réponses à des questions en vidéo comme exemples pour analyser la situation actuelle de la recherche sur des ensembles de données de raisonnement causal associés et donner des orientations futures.

La section 7 propose et discute certaines orientations de recherche futures. Le raisonnement causal avec l’apprentissage de représentations visuelles a de nombreuses applications. La modélisation du raisonnement causal pour diverses tâches peut permettre d’obtenir une meilleure perception du monde réel. Dans cette section, les chercheurs présentent les applications sous cinq aspects : analyse d’images/vidéos, intelligence artificielle explicable, système de recommandation, dialogue et interaction homme-machine et analyse de l’intelligence des foules.

Ils discutent également de la manière dont le raisonnement causal profite à diverses applications du monde réel.

Certains chercheurs ont mis en œuvre avec succès le raisonnement causal pour l’apprentissage de la représentation visuelle afin de découvrir la causalité et les relations visuelles. Cependant, le raisonnement causal pour l’apprentissage des représentations visuelles en est encore à ses balbutiements et de nombreuses questions restent en suspens. Par conséquent, la section 8 met en évidence plusieurs directions de recherche possibles et problèmes ouverts pour inspirer des recherches plus approfondies et approfondies sur ce sujet.

Les orientations de recherche potentielles pour l’apprentissage des représentations visuelles causales peuvent être résumées comme suit :

modélisation de la relation causale plus raisonnable
approximation plus précise des distributions d’intervention
processus de synthèse contrefactuel plus approprié
références et pipeline d’évaluation à grande échelle

Cet article fournit une étude complète sur le raisonnement causal pour l’apprentissage des représentations visuelles. Les chercheurs espèrent que cette enquête pourra contribuer à attirer l’attention, à encourager les discussions et à mettre au premier plan l’urgence de développer de nouvelles méthodes de raisonnement causal, des références accessibles au public et des normes de consensus pour un apprentissage fiable des représentations visuelles et des applications associées dans le monde réel plus efficacement.

Fourni par Beijing Zhongke Journal Publishing Co.