En ce qui concerne les réseaux de neurones apprenant le mouvement, tout est relatif

Comparaison quantitative de la méthode existante ConvLSTM et de la nouvelle méthode VecNet+LSTM. (A) Modification de la précision de la prédiction par rapport aux itérations d’entraînement. Un BCE pondéré plus faible signifie une précision de prédiction plus élevée. (B) Modification de la précision de la prédiction au fil du temps. Crédit : Hehe Fan et al.

Cherchant à explorer les capacités des réseaux de neurones à reconnaître et à prédire le mouvement, un groupe de chercheurs dirigé par Hehe Fan a développé et testé une approche d’apprentissage en profondeur basée sur un changement relatif de position codé comme une série de vecteurs, constatant que leur méthode fonctionnait mieux que l’existant. cadres pour modéliser le mouvement. L’innovation clé du groupe était de coder le mouvement séparément de la position.

Les recherches du groupe ont été publiées dans Informatique intelligente.

La nouvelle méthode, VecNet + LSTM, a obtenu un score supérieur à six autres cadres de réseaux de neurones artificiels dans le domaine de la recherche vidéo lorsqu’elle a été testée sur la reconnaissance du mouvement. Certains des autres cadres étaient simplement plus faibles, tandis que d’autres étaient totalement inadaptés à la modélisation du mouvement.

Lorsqu’elle est mesurée par rapport à la méthode ConvLSTM commune pour la prédiction de mouvement, la nouvelle méthode était plus précise, nécessitait moins de temps pour s’entraîner et ne perdait pas sa précision aussi rapidement lors de la réalisation de prédictions supplémentaires.

L’article conclut que « la modélisation du changement de position relative est nécessaire pour la reconnaissance du mouvement et facilite la prédiction du mouvement ».

Cette recherche suggère des orientations futures pour l’apprentissage automatique pour l’analyse vidéo, puisque la reconnaissance de mouvement, associée à la reconnaissance d’objets, est à la base de la reconnaissance des actions. En d’autres termes, même si un réseau de neurones peut reconnaître une porte, s’il ne peut pas apprendre le mouvement « ouvrir », alors il ne peut pas apprendre l’action d’ouvrir une porte. La méthode est également prometteuse pour la prédiction vidéo, bien qu’elle traite du mouvement de points individuels plutôt que de systèmes entiers.

Un bon modèle de mouvement est nécessaire pour les approches d’intelligence artificielle qui tentent de construire une image holistique du monde en intégrant différentes formes de connaissances. En d’autres termes, si un réseau de neurones ne peut pas apprendre le mouvement, il ne peut pas apprendre l’action caractéristique d’un objet, comme une porte qui s’ouvre.

Les chercheurs considèrent le mouvement comme une séquence de flèches ou « vecteurs », chacun d’une certaine longueur, pointant dans une certaine direction. Chaque vecteur de leur expérience peut être considéré comme une paire d’images montrant les positions « avant » et « après » d’un petit point blanc se déplaçant sur une surface noire pendant une unité de temps. Les vecteurs peuvent également être considérés comme une paire de deux nombres représentant un mouvement en deux dimensions, un mouvement horizontal et un mouvement vertical.

Le réseau de neurones des chercheurs, VecNet, a d’abord dû apprendre à partir d’une série d’exemples comment les trames « avant » et « après » qui lui sont données modifient la position du point blanc. Il existe des composants VecNet distincts qui apprennent la position de départ, le mouvement horizontal, le mouvement vertical et la position finale du point.

Puisqu’un vecteur n’est pas suffisant pour la reconnaissance de mouvement, un autre composant a été introduit pour additionner les vecteurs dans le temps. Ce composant de « mémoire à court terme » peut mémoriser plusieurs mouvements individuels et ainsi deviner quelle sera la ou les prochaines étapes de mouvement, de sorte qu’il peut être utilisé pour la prédiction de mouvement ainsi que pour la reconnaissance de mouvement. Le système combiné de reconnaissance et/ou de prédiction de mouvement est ainsi appelé VecNet+LSTM.

L’avantage d’utiliser des vecteurs est qu’ils représentent le mouvement et la vitesse dans le sens le plus abstrait du dictionnaire : ils montrent la quantité de changement de position d’un objet sur une période de temps, indépendamment de tout ensemble de coordonnées dans l’environnement spatial. Ainsi, par exemple, si le point blanc se déplace en cercle dans le coin supérieur gauche de la surface noire, le réseau peut reconnaître cette situation comme quelque peu la même que celle dans laquelle le point blanc se déplace en cercle dans le coin inférieur droit de la surface noire.

Fourni par l’informatique intelligente