Vous recherchez une action spécifique dans une vidéo ? Cette méthode basée sur l'IA peut le trouver pour vous

Internet regorge de vidéos pédagogiques qui peuvent tout apprendre aux téléspectateurs curieux, de la préparation de la crêpe parfaite à l'exécution d'une manœuvre de Heimlich qui sauve des vies.

Mais identifier quand et où une action particulière se produit dans une longue vidéo peut s’avérer fastidieux. Pour rationaliser le processus, les scientifiques tentent d’apprendre aux ordinateurs à effectuer cette tâche. Idéalement, un utilisateur pourrait simplement décrire l'action qu'il recherche, et un modèle d'IA passerait directement à son emplacement dans la vidéo.

Cependant, l’apprentissage de modèles d’apprentissage automatique pour ce faire nécessite généralement une grande quantité de données vidéo coûteuses qui ont été minutieusement étiquetées à la main.

Une nouvelle approche plus efficace des chercheurs du MIT et du MIT-IBM Watson AI Lab entraîne un modèle pour effectuer cette tâche, connue sous le nom de mise à la terre spatio-temporelle, en utilisant uniquement des vidéos et leurs transcriptions générées automatiquement.

Les chercheurs enseignent un modèle pour comprendre une vidéo non étiquetée de deux manières distinctes : en examinant de petits détails pour déterminer où se trouvent les objets (informations spatiales) et en examinant la situation dans son ensemble pour comprendre quand l'action se produit (informations temporelles).

Par rapport à d’autres approches d’IA, leur méthode identifie avec plus de précision les actions dans des vidéos plus longues comportant plusieurs activités. Fait intéressant, ils ont constaté qu’une formation simultanée sur les informations spatiales et temporelles permet à un modèle de mieux identifier chacune d’entre elles individuellement.

En plus de rationaliser les processus d’apprentissage en ligne et de formation virtuelle, cette technique pourrait également être utile dans les établissements de soins de santé en trouvant rapidement les moments clés dans les vidéos de procédures de diagnostic, par exemple.

« Nous démêlons le défi d'essayer de coder des informations spatiales et temporelles en même temps et y réfléchissons comme deux experts travaillant seuls, ce qui s'avère être une manière plus explicite de coder les informations.

« Notre modèle, qui combine ces deux branches distinctes, conduit aux meilleures performances », déclare Brian Chen, auteur principal d'un article sur cette technique, désormais publié sur le arXiv serveur de préimpression.

Chen, diplômé en 2023 de l'Université de Columbia qui a mené cette recherche alors qu'il était étudiant invité au MIT-IBM Watson AI Lab, est rejoint sur l'article par James Glass, chercheur scientifique principal, membre du MIT-IBM Watson AI Lab et directeur. du Groupe Systèmes de Langues Parlées du Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) ; Hilde Kuehne, membre du MIT-IBM Watson AI Lab, également affilié à l'Université Goethe de Francfort ; et d'autres au MIT, à l'Université Goethe, au MIT-IBM Watson AI Lab et à Quality Match GmbH.

La recherche sera présentée lors de la conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR 2024), qui se tiendra à Seattle du 17 au 21 juin.

Apprentissage mondial et local

Les chercheurs enseignent généralement aux modèles à effectuer une mise à la terre spatio-temporelle à l’aide de vidéos dans lesquelles les humains ont annoté les heures de début et de fin de tâches particulières.

Non seulement la génération de ces données coûte cher, mais il peut être difficile pour les humains de savoir exactement quoi étiqueter. Si l'action consiste à « cuire une crêpe », cette action commence-t-elle lorsque le chef commence à mélanger la pâte ou lorsqu'elle la verse dans la poêle ?

« Cette fois, la tâche consistera peut-être à cuisiner, mais la prochaine fois, il s'agira peut-être de réparer une voiture. Il y a tellement de domaines différents que les gens peuvent annoter. Mais si nous pouvons tout apprendre sans étiquettes, c'est une solution plus générale, » dit Chen.

Pour leur approche, les chercheurs utilisent des vidéos pédagogiques non étiquetées et des transcriptions de textes d'accompagnement provenant d'un site Web comme YouTube comme données de formation. Ceux-ci ne nécessitent aucune préparation particulière.

Ils ont divisé le processus de formation en deux parties. D’une part, ils enseignent un modèle d’apprentissage automatique pour regarder la vidéo dans son intégralité afin de comprendre quelles actions se produisent à certains moments. Ces informations de haut niveau sont appelées représentation globale.

Pour la seconde fois, ils apprennent au modèle à se concentrer sur une région spécifique dans les parties de la vidéo où se déroule l'action. Dans une grande cuisine, par exemple, le modèle devra peut-être se concentrer uniquement sur la cuillère en bois qu'un chef utilise pour mélanger la pâte à crêpes, plutôt que sur l'ensemble du comptoir. Cette information fine est appelée représentation locale.

Les chercheurs intègrent un composant supplémentaire dans leur cadre pour atténuer les désalignements qui se produisent entre la narration et la vidéo. Peut-être que le chef parle d’abord de la cuisson de la crêpe et exécute l’action plus tard.

Pour développer une solution plus réaliste, les chercheurs se sont concentrés sur des vidéos non coupées d’une durée de plusieurs minutes. En revanche, la plupart des techniques d’IA s’entraînent à l’aide de clips de quelques secondes que quelqu’un a découpés pour montrer une seule action.

Une nouvelle référence

Mais lorsqu'ils ont évalué leur approche, les chercheurs n'ont pas trouvé de référence efficace pour tester un modèle sur ces vidéos plus longues et non coupées. Ils en ont donc créé un.

Pour construire leur ensemble de données de référence, les chercheurs ont conçu une nouvelle technique d'annotation qui fonctionne bien pour identifier les actions en plusieurs étapes. Ils ont demandé aux utilisateurs de marquer l'intersection des objets, comme le point où le tranchant d'un couteau coupe une tomate, plutôt que de dessiner une boîte autour des objets importants.

« Cela est plus clairement défini et accélère le processus d'annotation, ce qui réduit le travail humain et les coûts », explique Chen.

De plus, le fait que plusieurs personnes annotent des points sur la même vidéo peut mieux capturer les actions qui se produisent au fil du temps, comme le flux de lait versé. Tous les annotateurs ne marqueront pas exactement le même point dans l’écoulement du liquide.

Lorsqu’ils ont utilisé cette référence pour tester leur approche, les chercheurs ont constaté qu’elle était plus précise pour identifier les actions que les autres techniques d’IA.

Leur méthode était également plus efficace pour se concentrer sur les interactions homme-objet. Par exemple, si l'action consiste à « servir une crêpe », de nombreuses autres approches pourraient se concentrer uniquement sur des objets clés, comme une pile de crêpes posée sur un comptoir. Au lieu de cela, leur méthode se concentre sur le moment réel où le chef retourne une crêpe dans une assiette.

Ensuite, les chercheurs prévoient d’améliorer leur approche afin que les modèles puissent détecter automatiquement lorsque le texte et la narration ne sont pas alignés et passer d’une modalité à l’autre. Ils souhaitent également étendre leur cadre aux données audio, car il existe généralement de fortes corrélations entre les actions et les sons émis par les objets.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.