Utilisation d'un réseau neuronal profond pour améliorer les images virtuelles de personnes créées à l'aide de signaux WiFi

La première ligne illustre la configuration matérielle. Les deuxième et troisième rangées sont les clips d’amplitude et de phase du signal WiFi d’entrée. La quatrième ligne contient l’estimation de pose dense de notre algorithme à partir uniquement du signal WiFi. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2301.00250

Un trio de chercheurs de l’Université Carnegie Mellon a poussé l’utilisation des signaux WiFi pour identifier les personnes dans un bâtiment à un nouveau niveau, grâce à l’utilisation d’un réseau neuronal profond. Jiaqi Geng, Dong Huang et Fernando De la Torre suggèrent, dans un article qu’ils ont posté au arXiv serveur de préimpression, que leur approche permet de créer des images comparables à celles des caméras RVB.

En 2013, une équipe d’ingénieurs du MIT a découvert que les signaux WiFi pouvaient être utilisés pour détecter la présence d’une personne dans un bâtiment. Ils ont noté qu’en cartographiant les signaux au fil du temps, ils pouvaient voir où les signaux étaient bloqués par le corps d’une personne. En poursuivant le processus au cours des années suivantes, ils ont découvert qu’ils étaient capables de créer des chiffres en bâton qui montraient où se trouvait une personne dans un bâtiment donné à un moment donné.

Le processus est maintenant connu sous le nom de DensePose. Dans ce nouvel effort, le trio de chercheurs a poussé cette approche à un nouveau niveau en introduisant un réseau de neurones qui aide à remplir les corps des figures de bâton, fournissant des images beaucoup plus réalistes – et il peut le faire à la volée, permettant de vrais -Suivi de mouvement temporel de plusieurs personnes dans une zone donnée.

Le travail de l’équipe consistait à placer trois émetteurs WiFi avec trois récepteurs alignés sur une scène – à l’intérieur dans une pièce ou à l’extérieur sur un site choisi – avec un ordinateur pour le traitement et l’affichage. Ils notent que l’équipement WiFi utilisé dans leurs expériences ne coûte que 30 dollars américains, bien moins que les systèmes LiDAR ou radar.

Lors de l’exécution, les signaux WiFi sont captés par les récepteurs qui les envoient à un GPU à l’intérieur d’un ordinateur pour traitement. Le traitement implique l’utilisation d’un réseau neuronal pour cartographier l’amplitude et la phase des signaux en coordonnées sur un corps humain créé virtuellement – un processus connu sous le nom de correspondance de pose humaine dense.

Au cours du processus, le corps humain virtuel est décomposé en 24 composants sur lesquels des coordonnées de texture bidimensionnelles sont mappées sur la base de signaux WiFi. Les parties du corps sont ensuite reconstituées pour ressembler à une forme humaine réaliste, le tout en temps réel. Le résultat est une animation virtuelle affichée sur l’écran de l’ordinateur qui imite les emplacements et les actions des personnes dans la scène d’origine.