Processus de modélisation spatiale de l'Utah

Location AI : la nouvelle génération d’analyse géospatiale

Les problèmes du monde réel sont multidimensionnels et multiformes. Les données de localisation sont une dimension clé dont le volume et la disponibilité ont augmenté de façon exponentielle au cours de la dernière décennie. À la confluence du cloud computing, de l’analyse de données géospatiales et de l’apprentissage automatique, nous sommes en mesure de débloquer de nouveaux modèles et significations dans les structures de données géospatiales qui aident à améliorer la prise de décision, les performances et l’efficacité opérationnelle de l’entreprise.

La puissance de cette convergence est démontrée par l’exemple suivant. Des données géospatiales nettoyées et enrichies combinées à une ingénierie de caractéristiques géostatistiques offrent un impact positif substantiel sur la précision d’un modèle de prévision du prix du logement. La question que nous allons examiner est la suivante : Quel est le prix de vente prévisionnel d’une annonce de vente de maison ? Gardez toutefois à l’esprit que ce flux de travail peut être utilisé pour un large éventail de cas d’utilisation géospatiaux.

Processus de modélisation spatiale de l’Utah

Un régresseur d’arbres boostés par gradient léger avec un modèle d’arrêt précoce a été formé sans aucune donnée géospatiale sur 5 657 listes de maisons résidentielles pour fournir une base de comparaison. Cela a produit un RMSLE Validation croisée de 0,3530. Par exemple, ce modèle a prédit une augmentation de prix d’environ 21 000 $ par rapport à son prix réel.

Afin d’isoler l’impact des caractéristiques géospatiales, nous comparons les résultats de la modélisation avec le même plan que le modèle de base en utilisant les identifiants de localisation disponibles des données. L’activation des données spatiales dans le flux de travail de modélisation a entraîné une amélioration de 7,14 % de la validation croisée RMSLE par rapport à la référence et une augmentation de 12 000 USD du prix de prédiction par rapport au prix réel, soit environ 9 000 USD de moins que le modèle de référence.

En tant que pratique, les scientifiques des données spatiales tentent de transférer le raisonnement humain-spatial pour que les machines puissent en tirer des enseignements. Cinq facteurs clés hypothétiques qui contribuent aux prix des logements ont été utilisés pour enrichir les données d’inscription à l’aide de jointures spatiales :

  1. sélectionner des variables démographiques du US Census Bureau,
  2. scores de potentiel piétonnier de l’Environmental Protection Agency,
  3. distance d’autoroute,
  4. scores du district scolaire, et
  5. distance des loisirs, nommément des stations de ski.

Enrichissement géospatial en combinaison avec Fonctionnalité de voisinage spatial de Location AI révéler les structures de dépendance spatiale locales telles que l’autocorrélation spatiale qui existe entre le nombre de chambres, la superficie en pieds carrés des données d’inscription et la fonctionnalité enrichie pour le score de potentiel piétonnier. L’enrichissement des données spatiales a entraîné une amélioration de 8,73 % de la validation croisée RMSLE par rapport à la référence et une augmentation de 1 300 USD du prix par rapport au prix réel, soit environ 11 000 USD de moins que le modèle d’ensemble de données activé et environ 20 000 USD de moins que le modèle de référence.

Enrichissement des données géospatiales
Exemple d’enrichissement de données géospatiales
Exemple de prévision de prix
Exemple de prévision de prix

La modélisation prédictive spatiale est applicable à un large éventail d’industries en raison de la disponibilité générale des données spatiales. L’analyse et la compréhension de l’applicabilité de l’enrichissement des données spatiales à un scénario d’apprentissage automatique particulier ne doivent pas être une entreprise complexe. Pour en savoir plus sur les meilleures pratiques utilisées pour développer ce modèle de géolocalisation, lisez le livre blanc complet ici.

A lire également