Un chercheur trouve un moyen d'obtenir du son à partir d'images fixes et de vidéos silencieuses

Alors que les appels vidéo deviennent de plus en plus courants à l’ère des lieux de travail distants et hybrides, « coupez votre son » et « je pense que vous êtes en sourdine » font désormais partie de notre vocabulaire quotidien. Mais il s’avère que se mettre en sourdine n’est peut-être pas aussi sûr que vous le pensez.

Kevin Fu, professeur de génie électrique et informatique et d’informatique à la Northeastern University, a trouvé un moyen d’obtenir le son d’images et même de vidéos en sourdine. Grâce à Side Eye, un outil d’apprentissage automatique créé par Fu et son équipe de recherche, Fu peut déterminer le sexe d’une personne qui parle dans la pièce où une photo a été prise, et même les mots exacts qu’elle a prononcés.

« Imaginez que quelqu’un fasse une vidéo TikTok et qu’il la coupe et double de la musique », explique Fu. « Avez-vous déjà été curieux de savoir ce qu’ils disent vraiment ? Était-ce « Pastèque pastèque » ou « Voici mon mot de passe ? » Est-ce que quelqu’un parlait derrière eux ? Vous pouvez réellement capter ce qui est dit hors caméra.

Cela ressemble à de la science-fiction – et ça l’est. L’idée de Side Eye a été inspirée par un épisode de la série de science-fiction « Fringe » dans lequel les personnages principaux, une équipe d’enquêteurs scientifiques marginaux travaillant pour le FBI, extrayaient l’audio d’une vitre fondue.

Lorsque l’épisode a été diffusé, un critique de Den of Geek l’a qualifié de « pseudo-technique scientifique ridicule ». Fu n’était pas d’accord.

« Je me suis dit : ‘Je parie que nous pouvons faire ça' », dit Fu. « Mon laboratoire est spécialisé dans l’impossible. Nous nous attendons généralement à ce que la première réaction à tout ce que nous faisons soit : » Vous ne pouvez pas faire ça « , et nous disons : » Eh bien, nous l’avons déjà fait. »

Side Eye profite de la technologie de stabilisation d’image qui est désormais pratiquement standard sur la plupart des appareils photo de téléphones. Pour éviter qu’une main tremblante ne donne une photo floue, les appareils photo sont équipés de petits ressorts qui maintiennent l’objectif en suspension dans un liquide. Un électro-aimant et des capteurs poussent ensuite l’objectif dans des directions égales et opposées pour réduire le bougé de l’appareil photo.

Cependant, Fu dit que chaque fois que quelqu’un parle près de l’objectif d’un appareil photo, cela provoque de minuscules vibrations dans les ressorts et plie très légèrement la lumière. L’angle de la lumière change presque imperceptiblement, « à moins que vous ne le recherchiez », dit Fu.

Normalement, il serait difficile d’extraire la fréquence sonore de ces vibrations microscopiques. Mais Fu affirme que l’obturateur roulant, une méthode de photographie utilisée aujourd’hui par la plupart des appareils photo des téléphones, facilite en réalité la réalisation de l’impossible.

« La façon dont les caméras fonctionnent aujourd’hui pour réduire les coûts est essentiellement qu’elles ne scannent pas tous les pixels d’une image simultanément, mais qu’elles le font une ligne à la fois », explique Fu. « [That happens] des centaines de milliers de fois sur une seule photo. Cela signifie essentiellement que vous êtes capable d’amplifier plus de mille fois la quantité d’informations de fréquence que vous pouvez obtenir, essentiellement la granularité de l’audio. »

Tant qu’il y a ne serait-ce qu’un peu de lumière, Side Eye fonctionnera, même si plus il a accès à des images, mieux c’est. Fu dit que même une photo pointée vers un plafond permettrait à Side Eye de faire son travail.

Le résultat final de ce processus est un son qui, même à son meilleur, ressemble davantage au son étouffé des adultes dans les dessins animés Peanuts. Mais en utilisant l’apprentissage automatique et la formation de Side Eye sur certains mots et audio, Fu est capable d’extraire de nombreuses informations.

« Si tu veux savoir si j’ai dit oui ou non, tu peux t’entraîner [Side Eye] sur les gens qui disent oui et non, puis regardez les modèles et avec une grande confiance, lorsque j’obtiens une image plus tard, je sais si quelqu’un a dit oui ou non », explique Fu.

Side Eye peut même identifier la personne exacte qui parle s’il a été formé sur la voix de cette personne, bien que Fu dit que ce n’est pas encore aussi précis à ce sujet.

Du point de vue de la cybersécurité, Side Eye ouvre un tout nouveau monde de menaces dont les personnes et les experts en cybersécurité devraient être conscients. Cependant, Fu affirme que l’application la plus intéressante de Side Eye pourrait être une nouvelle forme de preuve numérique pour les avocats et autres personnes travaillant dans le système judiciaire pénal.

« Peut-être qu’il y a un alibi et qu’il est admis au tribunal et que quelqu’un veut prouver que quelqu’un était là ou n’était pas là », dit Fu. « Vous pourrez peut-être utiliser cette technique si vous disposez d’une vidéo authentifiée avec un horodatage connu pour confirmer dans un sens ou dans l’autre. Si vous entendez la voix de la personne, il est plus que probable qu’elle soit là. »