Construire la vision par ordinateur dans la cuisine
Imaginez-vous regarder un pizzaiolo faire son travail dans une cuisine. Vous le voyez : pesez la farine avant d'y ajouter de l'eau et de la levure ; pétrir le mélange pour obtenir une pâte; laissez-le lever pendant qu'il tranche le pepperoni et autres garnitures ; étalez la pâte avant d'assembler la pizza et de la glisser dans un four.
Même si la plupart des gens sont incapables d’exécuter couramment les étapes de préparation d’une pizza comme un chef expérimenté, ils peuvent voir et identifier ce qui a été fait. On pouvait voir le chef ouvrir le sac de farine et y creuser avec une cuillère à farine, sortir le pepperoni du réfrigérateur et le mettre sur la trancheuse à plusieurs reprises, ou râper du fromage avec une râpe. En fin de compte, les gens comprennent que la farine devient de la pâte, qui à son tour devient de la pizza.
Un logiciel de vision par ordinateur peut-il établir la même connexion ?
Annoter pour réussir
Pour Zhu Bin, professeur adjoint d'informatique à la SMU, la réponse réside dans le VISOR (VIdeo Segmentations and Object Relations), un ensemble de données sur lequel le professeur Zhu et ses collaborateurs ont travaillé.
En décrivant certains objets comme des mains, des couteaux, des cuillères à farine, des râpes, etc. et en leur attribuant des étiquettes d'identification sur des vidéos à la première personne, également appelées vidéos égocentriques, VISOR vise à : mieux identifier les objets séparés ; comprendre comment les mains et les objets interagissent ; parvenir à un meilleur raisonnement et à une meilleure compréhension de la transformation d'un objet, comme la transformation d'une farine en pâte ou d'une pomme de terre en frites.
Ce processus de contour et d'étiquetage des objets est connu sous le nom d'« annotation » et peut être réalisé via un « masque clairsemé » ou un « masque dense ».
« Les masques clairsemés sont des annotations appliquées à certaines images clés d'une vidéo plutôt qu'à chaque image », explique le professeur Zhu.
« Ces masques sont organisés pour décrire des objets à des moments ou à des intervalles significatifs de la séquence vidéo. Les masques denses sont des annotations détaillées et continues au niveau des pixels qui couvrent chaque image d'un segment d'une vidéo. Dans VISOR, celles-ci sont souvent générées par interpolation entre des images clairsemées. masques, utilisant des algorithmes de vision par ordinateur pour combler les lacunes.
« Les masques clairsemés sont très utiles pour une compréhension fine des vidéos égocentriques, telles que la reconnaissance d'actions, par exemple « couper une pomme de terre » et le changement d'état d'un objet. En revanche, des annotations denses permettent d'analyser la façon dont les objets sont manipulés au fil du temps, fournissant ainsi un aperçu de l'humain. -des interactions d'objets que des annotations clairsemées pourraient manquer à elles seules.
VISOR présente plus de 10 millions de marques denses dans 2,8 millions d'images, et chaque élément annoté possède un masque auquel est attribuée une classe d'entité (« couteau », « fourchette », « assiette », « placard », « oignon », « œuf »). etc.) et une macro-catégorie (« couverts », « électroménager », « récipient », « légume », etc.). Par exemple, les classes d'entités « couteau » et « fourchette » sont classées dans la macro-catégorie « couverts ». Au total, VISOR propose 1 477 entités étiquetées qui identifient et annotent de nombreux objets de cuisine.
Outre l'identification des objets et l'annotation de la manière dont les objets et les mains humaines interagissent, VISOR propose également une tâche appelée « D'où cela vient-il ? ». Dans le cas du pizzaiolo, la farine serait identifiée comme provenant du sac de farine. Les annotations VISOR couvrent des vidéos d'une durée moyenne de 12 minutes, ce qui est nettement plus long que la plupart des ensembles de données existants. Cela permet une analyse et un raisonnement approfondis sur les états des objets sur des périodes prolongées, facilitant ainsi les études sur les interactions et les changements soutenus.
Obstacles et utilisations futures
Contrairement à de nombreux autres ensembles de données, tels que UVO (Unidentified Video Objects) qui se concentrent sur des perspectives à la troisième personne, l'utilisation par VISOR de vidéos égocentriques de l'ensemble de données EPIC-KITCHENS présente des défis supplémentaires. Les vidéos égocentriques sont dynamiques par nature : les objets sont souvent bloqués lorsque les mains se déplacent sur les objets, et les objets se transforment comme le montre l'exemple de la farine en pâte à pizza.
VISOR vise à surmonter les obstacles de la manière suivante :
- Compréhension vidéo égocentrique à grain fin : les masques d'objets fournis par VISOR clarifient les limites des objets même à travers des transformations importantes. Cette précision permet le développement de modèles profonds avancés pour analyser les interactions et les transformations fines au sein des vidéos, telles que la reconnaissance des actions égocentriques et l'analyse de l'état des objets.
- Améliorer la compréhension des interactions : les annotations détaillées sur la façon dont les mains interagissent avec divers objets aident à étudier et à modéliser le comportement humain, en particulier dans des environnements naturalistes comme les cuisines.
- Compréhension vidéo à long terme : avec des annotations continues sur les actions et les transformations d'objets (comme un oignon épluché et cuit), VISOR prend en charge la recherche sur le raisonnement à long terme dans les vidéos, comme le suivi d'objets à long terme.
« À mesure que la technologie évolue et que les défis techniques tels que le traitement en temps réel sont relevés, une technologie telle que VISOR peut être utilisée pour développer des technologies d'assistance qui aident les personnes handicapées ou les personnes âgées à naviguer et à gérer les tâches du monde réel de manière plus indépendante », professeur Zhu. raconte le Bureau de la recherche.
« Les robots dotés de la capacité de comprendre les interactions complexes entre objets et de prédire les actions futures peuvent être utilisés dans diverses activités, telles que la cuisine, le nettoyage et la fabrication. »
Il ajoute : « La compréhension vidéo égocentrique peut également être utilisée pour développer des outils de formation et d’éducation basés sur la réalité virtuelle (VR) ou la réalité augmentée (AR), fournissant des conseils étape par étape à partir de la vue à la première personne. »