Les outils de cartographie peuvent créer des images satellites à partir d'invites textuelles
La plupart des gens interagissent régulièrement avec des cartes, par exemple lorsqu'ils essaient de se rendre d'un point A à un point B, de suivre la météo ou de planifier un voyage. Mais au-delà de ces activités quotidiennes, les cartes sont également de plus en plus souvent associées à l'intelligence artificielle pour créer de puissants outils de modélisation urbaine, de systèmes de navigation, de prévision et de réponse aux catastrophes naturelles, de surveillance du changement climatique, de modélisation d'habitats virtuels et d'autres types de surveillance.
« Les cartes sont un produit fondamental dans notre vie, » a déclaré Aayush Dhakal, étudiant diplômé de la McKelvey School of Engineering de l'Université de Washington à Saint-Louis. « Ils nous permettent d’apprendre des modèles et de voir les distributions à travers une zone géospatiale. »
Dhakal et Srikumar Sastry, également étudiant diplômé de McKelvey Engineering, travaillent avec Nathan Jacobs, professeur d'informatique et d'ingénierie, pour développer des modèles qui utilisent l'imagerie satellite pour soutenir ces efforts. Le projet de Dhakal, Sat2Cap, permet aux utilisateurs de créer des cartes à partir de descriptions textuelles de forme libre. Sastry a développé GeoSynth, un modèle de synthèse d'images satellites basé sur une invite textuelle ou un emplacement géographique donné.
Dhakal et Sastry ont présenté leurs travaux lors de l'atelier EarthVision du 17 juin de cette année à Seattle, en conjonction avec la conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR 2024). EarthVision vise à faire progresser l'analyse des données de télédétection basée sur l'apprentissage automatique, en accordant une attention particulière aux défis et applications urgents, tels que la surveillance des catastrophes naturelles, de la croissance urbaine, de la déforestation et du changement climatique.
Cartographie de texte à partir d'images satellite
Créer une carte peut être un processus qui prend du temps. Un cartographe en herbe doit collecter toutes les données pertinentes pour la région d'intérêt, puis les tracer soigneusement pour produire une carte précise. Dhakal a développé Sat2Cap pour résoudre ce problème « fastidieux et non évolutif » processus de création de cartes. Le document a remporté le prix du meilleur article lors de l'atelier et est disponible sur le arXiv serveur de préimpression.
« Notre modèle nous permet de créer des cartes de tout concept exprimé à l'aide de texte sur une grande région géographique, » Dhakal a déclaré. « Nous avons formé de manière contrastée un modèle qui prend en entrée une image satellite sur un emplacement et apprend à prédire une représentation textuelle significative pour cet emplacement. »
La partie la plus délicate, explique Dhakal, est la collecte de données à grande échelle. En s’appuyant sur de nombreuses images satellites (Dhakal a utilisé 6 millions de points de données pour entraîner Sat2Cap), le modèle peut produire une carte indiquant les emplacements probables pour une requête textuelle donnée. Par exemple, supposons que le modèle dispose de nombreuses images des États-Unis. Si vous lui donnez l’invite textuelle, « parcs d'attractions, » le modèle produira une carte montrant les emplacements les plus probables contenant des parcs d'attractions à travers les États-Unis
« Nous décrivons ce processus comme une « cartographie zéro coup », où vous pouvez créer des cartes de concepts jamais vus auparavant, par opposition à une collecte de données laborieuse, » Dhakal a déclaré. « Les utilisateurs peuvent utiliser cet outil pour cartographier des concepts pour lesquels les données ne sont pas encore collectées ou disponibles. La possibilité d'interagir avec notre modèle en utilisant le « langage humain naturel » le rend également beaucoup plus convivial et flexible. »
Synthèse d'images satellites à haute résolution
L’intelligence artificielle générative a fait l’objet de beaucoup de battage médiatique ces derniers temps, mais quelles sont les capacités des modèles génératifs ?
« Générer des images satellites est beaucoup plus difficile que générer des images d'un seul sujet comme des chiens et des chats, » Sastry a déclaré. Avec GeoSynth, il a cherché à voir dans quelle mesure les modèles génératifs pouvaient fonctionner lorsqu'ils étaient formés sur des données de localisation géographique. L'article est également disponible sur le site arXiv serveur de préimpression.
« L'obstacle principal était de conditionner le modèle de diffusion à la localisation géographique pour apprendre la géographie de haut niveau d'une région, » Sastry a déclaré. « Par exemple, lorsqu'on lui demande de générer une image de Phoenix, le modèle doit générer une image ressemblant à un désert. En revanche, pour Des Moines, le modèle doit générer des images plus vertes et plus proches de celles d'une ferme. »
Le modèle GeoSynth obtenu affiche une capacité de génération d'images satellites sans prise de vue. À partir d'une invite de texte ou d'un emplacement géographique, le modèle peut produire des images satellites allant de villes inondées à des stations balnéaires insulaires, de scènes de destruction après un tremblement de terre à des civilisations arctiques. Notamment, ces images sont distinctes des types d'images vues dans l'ensemble de données d'entraînement.
« Imaginez un scénario dans lequel vous décrivez une scène et une disposition et soudain une image satellite réaliste apparaît, » Sastry a déclaré. « GeoSynth est capable de faire cela. Le modèle pourrait être utilisé pour planifier des villes, pour compléter des ensembles de données de télédétection existants ou comme outil génératif, similaire à DALLE-3 ou Midjourney. »