Les images de villes simulées aident l'intelligence artificielle à comprendre les paysages de rue réels

Les images de villes simulées aident l’intelligence artificielle à comprendre les paysages de rue réels

Résumé graphique. Crédit: Informatique d’ingénierie avancée (2023). DOI : 10.1016/j.aei.2023.102154

Les progrès récents en matière d’intelligence artificielle et d’apprentissage profond ont révolutionné de nombreux secteurs et pourraient bientôt contribuer à recréer également votre quartier. À partir d’images d’un paysage, l’analyse de modèles d’apprentissage profond peut aider les paysagistes urbains à visualiser des plans de réaménagement, améliorant ainsi le paysage ou évitant des erreurs coûteuses.

Cependant, pour y parvenir, les modèles doivent être capables d’identifier et de catégoriser correctement chaque élément d’une image donnée. Cette étape, appelée segmentation des instances, reste difficile pour les machines en raison du manque de données d’entraînement adaptées.

Bien qu’il soit relativement facile de collecter des images d’une ville, générer la « vérité terrain », c’est-à-dire les étiquettes qui indiquent au modèle si sa segmentation est correcte, implique une segmentation minutieuse de chaque image, souvent à la main.

Aujourd’hui, pour résoudre ce problème, des chercheurs de l’Université d’Osaka ont développé un moyen de former ces modèles gourmands en données à l’aide de la simulation informatique. Tout d’abord, un modèle de ville 3D réaliste est utilisé pour générer la vérité terrain de segmentation. Ensuite, un modèle image à image génère des images photoréalistes à partir des images de vérité terrain. Leur article, « Développement d’une méthode de génération d’ensembles de données synthétiques pour l’apprentissage en profondeur de paysages urbains réels à l’aide d’un modèle 3D d’une ville réaliste inexistante », a été publié dans Informatique d’ingénierie avancée.

Le résultat est un ensemble de données d’images réalistes similaires à celles d’une ville réelle, complétées par des étiquettes de vérité terrain générées avec précision qui ne nécessitent pas de segmentation manuelle.

« Les données synthétiques ont déjà été utilisées dans l’apprentissage profond », explique l’auteur principal Takuya Kikuchi. « Mais la plupart des systèmes paysagers s’appuient sur des modèles 3D de villes existantes, qui restent difficiles à construire. Nous simulons également la structure de la ville, mais nous le faisons de manière à générer des données de formation efficaces pour les modèles du monde réel. »

Une fois le modèle 3D d’une ville réaliste généré de manière procédurale, des images de segmentation de la ville sont créées à l’aide d’un moteur de jeu. Enfin, un réseau antagoniste génératif, qui est un réseau neuronal qui utilise la théorie des jeux pour apprendre à générer des images réalistes, est formé pour convertir des images de formes en images avec des textures de ville réalistes. Ce modèle d’image à image crée la rue correspondante. -afficher des images.

« Cela supprime le besoin d’ensembles de données de bâtiments réels, qui ne sont pas accessibles au public. De plus, plusieurs objets individuels peuvent être séparés, même s’ils se chevauchent dans l’image », explique l’auteur correspondant Tomohiro Fukuda. « Mais plus important encore, cette approche permet d’économiser les efforts humains et les coûts qui y sont associés, tout en générant de bonnes données de formation. »

Pour le prouver, un modèle de segmentation appelé « réseau neuronal convolutif basé sur une région de masque » a été formé sur les données simulées et un autre a été formé sur des données réelles. Les modèles ont fonctionné de manière similaire sur des instances de grands bâtiments distincts, même si le temps de production de l’ensemble de données a été réduit de 98 %.

Les chercheurs prévoient de voir si les améliorations apportées au modèle image à image augmentent les performances dans davantage de conditions. Pour l’instant, cette approche génère de grandes quantités de données avec un effort incroyablement faible. Les réalisations des chercheurs permettront de remédier aux pénuries actuelles et à venir de données de formation, de réduire les coûts associés à la préparation des ensembles de données et de contribuer à ouvrir la voie à une nouvelle ère d’aménagement paysager urbain assisté par l’apprentissage profond.