Détection d'anomalies vidéo orientée contenu à l'aide d'un modèle d'apprentissage en profondeur basé sur l'auto-attention

par Beijing Zhongke Journal Publishing Co. Ltd.

1. Extraire les fonctionnalités vidéo via un encodeur, 2. Saisir un mécanisme d’attention collaborative pour redistribuer les poids, 3. Lire le module de mémoire et mettre à jour, 4. Restaurer les fonctionnalités de requête agrégées et les fonctionnalités du module de mémoire aux images vidéo, et 5. Calculer la perte, rétropropager et mettre à jour les paramètres. Crédit : Beijing Zhongke Journal Publishing Co. Ltd.

La détection d’anomalies vidéo, qui diffère de l’analyse vidéo traditionnelle, est un point chaud de la recherche dans le domaine de la vision par ordinateur, attirant de nombreux chercheurs. Habituellement, les événements anormaux ne se produisent que dans un petit pourcentage des pixels vidéo et, par conséquent, il n’est pas nécessaire de se concentrer sur tous les pixels vidéo car la plupart d’entre eux sont inoffensifs, appelés « l’arrière-plan ».

Par conséquent, dans le processus d’extraction de caractéristiques vidéo, l’attention doit être concentrée sur quelques objets partiels détectables. La détection d’objets est très compliquée et consomme beaucoup de temps lors du traitement vidéo. Par conséquent, il n’est pas conseillé d’utiliser la détection d’objets dans la phase d’apprentissage pour attirer l’attention sur les parties anormales.

Dans un nouvel article publié dans Réalité virtuelle et matériel intelligent, un algorithme de détection d’anomalies vidéo basé sur le contenu (COVAD) est proposé, et sa structure de réseau est modifiée en fonction de l’algorithme original de détection d’anomalies vidéo basé sur la mémoire. L’objectif principal de l’optimisation dans le réseau de formation est de se concentrer sur les objets dans l’image vidéo. Les chercheurs ont utilisé un mécanisme d’attention basé sur le contenu pour optimiser la structure du réseau d’encodage et supprimer le dernier lot de la couche de normalisation du réseau U-Net.

Le premier est utilisé pour se concentrer sur la cible ou le contenu de la vidéo et le second est utilisé pour limiter le biais puissant du réseau de neurones car il est important de brouiller la frontière entre les données normales et anormales dans des représentations puissantes. Comparé à l’algorithme de détection d’objets, le mécanisme d’attention est léger, ne prend pas beaucoup de temps et peut traiter efficacement les vidéos. Le module de stockage de mémoire stocke des informations de contenu plus importantes que l’ensemble des pixels de l’image vidéo. Les expériences ont été déployées sur les jeux de données USCD et Avenue, et les résultats expérimentaux montrent que l’algorithme proposé a de meilleurs résultats que les modèles de référence.

Les principales contributions de cet article sont : 1) proposer une nouvelle méthode de détection d’anomalies vidéo – appelée COVAD – pour la prédiction de trames futures en combinant le mécanisme d’attention basé sur le contenu, qui peut résister à l’interférence du bruit et se concentrer sur l’extraction des caractéristiques des objets dans la vidéo; 2) redéfinir le module de mémoire utilisé pour classer et mémoriser divers modèles de comportement normaux disponibles dans les flux vidéo ; et 3) améliorer encore les performances des modèles de détection d’anomalies vidéo axés sur les événements normaux et exceptionnels.

Les résultats expérimentaux montrent que les performances de l’algorithme COVAD proposé sont significativement supérieures à celles des modèles de base considérés dans cet article.

Fourni par Beijing Zhongke Journal Publishing Co. Ltd.