Utilisation de données synthétiques pour un apprentissage efficace des connaissances d'association

par Beijing Zhongke Journal Publishing Co.

(a) L’apparence simulée présente généralement un écart de style d’image avec l’apparence du monde réel. Pour de nombreuses tâches centrées sur l’apparence telles que la ré-identification, un tel écart de domaine d’apparence compromet les modèles formés sur des données synthétiques et testés sur des données réelles. (b) En comparaison, nous montrons que les données synthétiques sont aussi efficaces que les données réelles dans les modèles d’association d’entraînement. Cela suggère que les scénarios d’association (par exemple, les trajectoires et les occlusions) ont un petit écart de domaine entre le synthétique et le réel. Crédit : Beijing Zhongke Journal Publishing Co. Ltd.

Dans un article publié dans Recherche sur l’intelligence artificielle, une équipe de chercheurs étudie si les données synthétiques 3D peuvent remplacer les vidéos du monde réel pour la formation des associations. Plus précisément, ils introduisent un moteur de données synthétiques à grande échelle nommé MOTX, où les caractéristiques de mouvement des caméras et des objets sont configurées manuellement pour être similaires à celles des ensembles de données du monde réel.

Ils montrent que, par rapport aux données réelles, les connaissances d’association obtenues à partir de données synthétiques peuvent atteindre des performances très similaires sur des ensembles de tests réels sans techniques d’adaptation de domaine.

Le suivi multi-objets (MOT) est un système composé composé de plusieurs composants fonctionnels, tels que la détection, les représentations visuelles et l’association. L’association est à l’étape finale du pipeline MOT et est généralement considérée comme le problème central, visant à connecter les boîtes englobantes aux tracklets existants.

Le module d’association effectue des inférences en fonction des caractéristiques d’apparence, des caractéristiques de mouvement ou des deux. Dans la communauté, ce que de nombreuses solutions de l’association ont en commun, c’est qu’elles sont formées avec des données vidéo du monde réel. Cependant, il existe plusieurs problèmes potentiels avec cette pratique.

Premièrement, l’annotation des trajectoires dans les images vidéo nécessite des coûts de main-d’œuvre élevés. Cela limite potentiellement l’échelle des données de formation MOT. Deuxièmement, les problèmes de confidentialité et d’éthique limitent l’utilisation de données du monde réel dans des tâches centrées sur l’humain, par exemple, le suivi de plusieurs piétons.

Afin d’éviter ces préoccupations, des chercheurs de l’Université nationale australienne et de l’Université Tsinghua étudient comment utiliser des données synthétiques dans MOT. Ils construisent un moteur de simulation 3D, MOTX, pour générer des vidéos avec plusieurs cibles, des annotations riches et des facteurs visuels contrôlables. Ces données offrent un moyen peu coûteux d’acquérir des données à grande échelle avec des étiquettes précises. Avec MOTX, ils visent à répondre à deux questions intéressantes.

La première question est de savoir si les connaissances d’association apprises à partir de données synthétiques fonctionnent dans des vidéos du monde réel. Une faiblesse commune des données synthétiques consiste en leur différence de distribution avec les données du monde réel, en particulier en ce qui concerne le style d’image. Dans les tâches « centrées sur l’apparence », telles que la réidentification et la segmentation, pour éviter les échecs dans des environnements de test réels, les modèles formés sur des données synthétiques nécessitent des techniques de formation supplémentaires, telles que l’ajustement ou l’adaptation de domaine sur les données réelles.

Cependant, l’apprentissage par association est différent de l’apprentissage par l’apparence en ce qui concerne les exigences en matière de données. Selon les travaux existants, les indices de mouvement jouent un rôle essentiel dans l’association. Bien que les images d’aspect réaliste soient difficiles à simuler par le moteur, cela peut être moins difficile pour les signaux de mouvement, tels que l’occlusion.

Cette étude montre que sur plusieurs réseaux d’association de pointe, les connaissances d’association apprises à partir de données synthétiques peuvent être bien adaptées aux scénarios du monde réel sans baisse de performance. Plus précisément, les chercheurs synthétisent des ensembles de données à l’aide de MOTX en définissant manuellement des paramètres clés (par exemple, la vue de la caméra) pour qu’ils soient proches des ensembles d’apprentissage du monde réel.

Ensuite, lorsque les réseaux d’associations récents sont formés sur de telles vidéos synthétiques, ils obtiennent une précision de suivi similaire ou parfois même meilleure par rapport à la formation de données réelles. Leurs études d’ablation sur l’apparence et les caractéristiques de mouvement fournissent deux suggestions.

Tout d’abord, l’apparence-discordance entre les données synthétiques et les données du monde réel peut difficilement nuire à l’apprentissage des connaissances d’association. Deuxièmement, les moteurs 3D peuvent bien simuler des signaux de mouvement dans des scénarios d’association. Les résultats ci-dessus peuvent être la raison de la compétitivité des données synthétiques et impliquent que MOT bénéficie davantage de l’utilisation de données synthétiques que des tâches « centrées sur l’apparence ». Il s’agit d’une étude très ancienne sur le rôle des données synthétiques dans le MOT.

La deuxième question est de savoir comment les facteurs de mouvement affectent l’apprentissage des connaissances d’association. Les ensembles de données existants proviennent principalement du monde réel, comme MOT15. Bien que ces données profitent à la formation du modèle, le fait qu’elles soient fixes nous offre des possibilités limitées de comprendre comment le système réagit aux facteurs visuels changeants. Par exemple, comment la densité de piétons dans l’ensemble d’apprentissage affecte-t-elle la précision du modèle ? Un modèle formé avec des caméras statiques peut-il être bien déployé sous des systèmes de caméras mobiles ?

Les chercheurs profitent de la forte capacité de personnalisation de MOTX pour aider à répondre à cette question. Ils effectuent des études empiriques sur la façon dont les facteurs liés à l’objet et à la caméra affectent l’apprentissage des connaissances d’association. Plus précisément, ils étudient deux groupes de facteurs.

Le premier groupe de facteurs comprend les facteurs liés aux piétons, comme la densité et la vitesse de déplacement; Le second concerne les facteurs liés à la caméra, y compris la vue de la caméra et l’état de déplacement de la caméra. En détail, avec le moteur MOTX proposé2, les facteurs de mouvement sont abstraits avec les paramètres du système, de sorte qu’ils peuvent facilement simuler différents scénarios en modifiant simplement ces paramètres, par exemple en réglant la vitesse de l’objet sur 1 m/s. Leurs résultats mettent en lumière la relation entre les facteurs des données d’entraînement et de test et les performances du système MOT.

Fourni par Beijing Zhongke Journal Publishing Co.