L'analyseur vidéo basé sur l'IA établit de nouvelles normes en matière de détection des actions humaines
Et si une caméra de sécurité pouvait non seulement capturer des vidéos, mais aussi comprendre ce qui se passe, en distinguant les activités de routine des comportements potentiellement dangereux en temps réel ? C'est l'avenir que façonnent les chercheurs de l'École d'ingénierie et de sciences appliquées de l'Université de Virginie avec leur dernière avancée : un analyseur vidéo intelligent piloté par l'IA, capable de détecter les actions humaines dans les séquences vidéo avec une précision et une intelligence sans précédent.
Le document de recherche est publié dans la revue Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle.
Le système, appelé SMAST (Semantic and Motion-Aware Spatiotemporal Transformer Network), promet un large éventail d'avantages sociétaux, allant de l'amélioration des systèmes de surveillance et de la sécurité publique à la possibilité d'un suivi de mouvement plus avancé dans les soins de santé et à l'affinement de la façon dont les véhicules autonomes naviguent dans des environnements complexes. environnements.
« Cette technologie d'IA ouvre la porte à la détection d'actions en temps réel dans certains des environnements les plus exigeants », a déclaré Scott T. Acton, professeur et directeur du département de génie électrique et informatique, et chercheur principal du projet. « C'est le genre de progrès qui peut aider à prévenir les accidents, à améliorer les diagnostics et même à sauver des vies. »
Innovation basée sur l'IA pour une analyse vidéo complexe
Alors, comment ça marche ? À la base, SMAST repose sur l’intelligence artificielle. Le système s'appuie sur deux composants clés pour détecter et comprendre les comportements humains complexes. Le premier est un modèle d’attention sélective multi-fonctionnalités, qui aide l’IA à se concentrer sur les parties les plus importantes d’une scène, comme une personne ou un objet, tout en ignorant les détails inutiles. Cela rend le système plus précis pour identifier ce qui se passe, par exemple reconnaître quelqu'un qui lance une balle au lieu de simplement bouger son bras.
La deuxième fonctionnalité clé est un algorithme de codage positionnel 2D sensible au mouvement, qui aide l'IA à suivre l'évolution des choses au fil du temps. Imaginez que vous regardez une vidéo dans laquelle des personnes changent constamment de position : cet outil aide l'IA à se souvenir de ces mouvements et à comprendre leurs relations les uns avec les autres. En intégrant ces fonctionnalités, SMAST peut reconnaître avec précision des actions complexes en temps réel, ce qui le rend plus efficace dans des scénarios à enjeux élevés comme la surveillance, les diagnostics de soins de santé ou la conduite autonome.
SMAST redéfinit la manière dont les machines détectent et interprètent les actions humaines. Les systèmes actuels ont du mal à gérer des séquences vidéo contiguës chaotiques et non éditées, manquant souvent le contexte des événements. Mais la conception innovante de SMAST lui permet de capturer les relations dynamiques entre les personnes et les objets avec une précision remarquable, grâce aux composants mêmes de l'IA qui lui permettent d'apprendre et de s'adapter à partir des données.
Établir de nouvelles normes en matière de technologie de détection d'action
Ce saut technologique permet au système d'IA d'identifier des actions comme un coureur traversant une rue, un médecin effectuant une procédure précise ou même une menace pour la sécurité dans un espace bondé. SMAST a déjà surpassé les solutions de premier plan dans des critères académiques clés, notamment AVA, UCF101-24 et EPIC-Kitchens, établissant de nouvelles normes en matière de précision et d'efficacité.
« L'impact sociétal pourrait être énorme », a déclaré Matthew Korban, associé de recherche postdoctoral au laboratoire d'Acton travaillant sur le projet. « Nous sommes ravis de voir comment cette technologie d'IA pourrait transformer les industries, en rendant les systèmes vidéo plus intelligents et capables de comprendre en temps réel. »