Utiliser l’IA pour transformer des enregistrements sonores en images de rue précises
Grâce à l'intelligence artificielle générative, une équipe de chercheurs de l'Université du Texas à Austin a converti les sons des enregistrements audio en images de rue. La précision visuelle de ces images générées démontre que les machines peuvent reproduire la connexion humaine entre la perception audio et visuelle des environnements.
Dans un article publié dans Informatique, environnement et systèmes urbainsl'équipe de recherche décrit la formation d'un modèle d'IA de paysage sonore à image à l'aide de données audio et visuelles recueillies à partir de divers paysages de rue urbains et ruraux, puis l'utilisation de ce modèle pour générer des images à partir d'enregistrements audio.
« Notre étude a révélé que les environnements acoustiques contiennent suffisamment d'indices visuels pour générer des images de paysage de rue hautement reconnaissables qui représentent avec précision différents lieux », a déclaré Yuhao Kang, professeur adjoint de géographie et d'environnement à l'UT et co-auteur de l'étude. « Cela signifie que nous pouvons convertir les environnements acoustiques en représentations visuelles vives, traduisant efficacement les sons en images. »
À l'aide de vidéos et d'audio YouTube provenant de villes d'Amérique du Nord, d'Asie et d'Europe, l'équipe a créé des paires de clips audio et d'images fixes de 10 secondes provenant de différents endroits et les a utilisés pour former un modèle d'IA capable de produire des images haute résolution à partir d'une entrée audio. . Ils ont ensuite comparé les créations son-image de l’IA réalisées à partir de 100 clips audio à leurs photos respectives du monde réel, en utilisant à la fois des évaluations humaines et informatiques.
Les évaluations informatiques comparaient les proportions relatives de verdure, de bâtiment et de ciel entre les images source et générées, tandis que les juges humains devaient faire correspondre correctement l'une des trois images générées à un échantillon audio.

Les résultats ont montré de fortes corrélations dans les proportions de ciel et de verdure entre les images générées et celles du monde réel, et une corrélation légèrement moindre dans les proportions des bâtiments. Et les participants humains ont obtenu une précision moyenne de 80 % dans la sélection des images générées correspondant aux échantillons audio sources.
« Traditionnellement, la capacité d'imaginer une scène à partir de sons est une capacité humaine unique, reflétant notre lien sensoriel profond avec l'environnement. Notre utilisation de techniques avancées d'IA soutenues par de grands modèles de langage (LLM) démontre que les machines ont le potentiel de se rapprocher de cet humain. expérience sensorielle », a déclaré Kang.
« Cela suggère que l'IA peut aller au-delà de la simple reconnaissance de l'environnement physique pour potentiellement enrichir notre compréhension des expériences subjectives humaines à différents endroits. »
En plus de se rapprocher des proportions du ciel, de la verdure et des bâtiments, les images générées conservaient souvent les styles architecturaux et les distances entre les objets de leurs homologues du monde réel, tout en reflétant avec précision si les paysages sonores avaient été enregistrés dans des conditions d'éclairage ensoleillées, nuageuses ou nocturnes. .
Les auteurs notent que les informations sur l'éclairage pourraient provenir de variations d'activité dans les paysages sonores. Par exemple, les bruits de la circulation ou le gazouillis des insectes nocturnes pourraient révéler l’heure de la journée. De telles observations permettent de mieux comprendre comment les facteurs multisensoriels contribuent à notre expérience d'un lieu.
« Lorsque vous fermez les yeux et écoutez, les sons autour de vous dessinent des images dans votre esprit », a déclaré Kang. « Par exemple, le bourdonnement lointain de la circulation se transforme en un paysage urbain animé, tandis que le doux bruissement des feuilles vous entraîne dans une forêt sereine. Chaque son tisse une tapisserie vivante de scènes, comme par magie, dans le théâtre de votre imagination. »
Les travaux de Kang se concentrent sur l'utilisation de l'IA géospatiale pour étudier l'interaction des humains avec leur environnement. Dans un autre article récent publié dans Communication en sciences humaines et socialeslui et ses co-auteurs ont examiné le potentiel de l'IA à capturer les caractéristiques qui confèrent aux villes leur identité unique.