Un modèle informatique imite la perception audiovisuelle humaine
Un nouveau modèle informatique développé à l’Université de Liverpool peut combiner la vue et l’ouïe d’une manière qui ressemble étroitement à la façon dont les humains le font. Ce modèle s’inspire de la biologie et pourrait être utile pour l’intelligence artificielle et la perception automatique.
Le modèle est basé sur une fonction cérébrale découverte pour la première fois chez les insectes, qui les aide à détecter les mouvements. Le Dr Cesare Parise, maître de conférences en psychologie, a adapté cette idée pour créer un système capable de traiter des signaux audiovisuels réels, comme des vidéos et des sons, plutôt que de s'appuyer sur des paramètres abstraits utilisés dans des modèles plus anciens. Son article est publié dans la revue eLife.
Lorsque nous regardons quelqu’un parler, notre cerveau fait automatiquement correspondre ce que nous voyons avec ce que nous entendons. Cela peut conduire à des illusions, telles que l'effet McGurk, où des sons et des mouvements de lèvres incompatibles créent une nouvelle perception, ou l'illusion ventriloque, où une voix semble provenir d'une marionnette au lieu de l'interprète. Ce dernier travail se demande comment le cerveau sait-il quand le son et la vision correspondent ?
Les modèles précédents ont tenté d'expliquer cela mais étaient limités car ils ne fonctionnaient pas directement avec de vrais signaux audiovisuels. Le Dr Parise, de l'Institut de santé des populations de l'Université de Liverpool, explique : « Malgré des décennies de recherche sur la perception audiovisuelle, nous ne disposions toujours pas d'un modèle capable de résoudre une tâche aussi simple que de prendre une vidéo en entrée et de déterminer si l'audio serait perçu comme synchronisé.
« Cette limitation révèle un problème plus profond : sans être calculables par stimulus, les modèles de perception peuvent en théorie capturer de nombreux aspects de la perception, mais ne peuvent même pas effectuer le test le plus simple du monde réel. »
Le nouveau modèle du Dr Parise répond à un défi de longue date en matière d'intégration sensorielle. Il s'appuie sur des travaux antérieurs de Parise et Marc Ernst (Université de Bielefeld, Allemagne) qui ont introduit le principe de détection de corrélation, une explication possible de la façon dont le cerveau combine les signaux provenant de différents sens.
Ce travail a conduit au développement du détecteur de corrélation multisensorielle (MCD), un modèle capable d'imiter les réponses humaines à des modèles audiovisuels simples comme des flashs et des clics. Ils ont ensuite amélioré le modèle pour se concentrer sur de brefs changements d’entrée, qui sont essentiels à la manière dont nous intégrons la vue et le son.
Dans la présente étude, Parise a simulé un groupe de ces détecteurs disposés comme une grille dans l’espace visuel et auditif. Cette configuration a permis au modèle de gérer des stimuli complexes du monde réel. Il a reproduit avec succès les résultats de 69 expériences bien connues impliquant des humains, des singes et des rats.
Le Dr Parise a ajouté : « Cela représente la simulation à plus grande échelle jamais réalisée dans le domaine. Alors que d'autres modèles ont été testés de manière approfondie dans le passé, aucun n'a été testé sur autant d'ensembles de données dans une seule étude. »
Le modèle a adapté le comportement de toutes les espèces et a obtenu de meilleurs résultats que le principal modèle d'inférence causale bayésienne, en utilisant le même nombre de paramètres réglables. Il prédit également où les gens regarderaient des films audiovisuels, agissant comme un « modèle de saillance » léger.
Parise pense que le modèle pourrait être utile au-delà des neurosciences. « L'évolution a déjà résolu le problème de l'alignement du son et de la vision avec des calculs simples et généraux qui s'adaptent à toutes les espèces et à tous les contextes. L'étape cruciale ici est la calculabilité des stimulus : comme le modèle fonctionne directement sur des signaux audiovisuels bruts, il peut être appliqué à n'importe quel matériau du monde réel. »
Il a ajouté : « Les systèmes d'IA d'aujourd'hui ont encore du mal à combiner des informations multimodales de manière fiable, et les modèles de saillance audiovisuelle dépendent de grands réseaux riches en paramètres, formés sur de vastes ensembles de données étiquetés. En revanche, le réseau MCD est léger, efficace et ne nécessite aucune formation. Cela fait de ce modèle un candidat puissant pour les applications de nouvelle génération.
Parise conclut : « Ce qui a commencé comme un modèle de vision du mouvement des insectes explique maintenant comment les cerveaux – humains ou autres – intègrent le son et la vision dans une gamme extraordinaire de contextes. De la prédiction d'illusions comme les effets McGurk et ventriloque à la déduction de la causalité et à la génération de cartes dynamiques de saillance audiovisuelle, il offre un nouveau modèle pour la recherche en neurosciences et en intelligence artificielle.
