Des étudiants aident la NASA à trouver des glissements de terrain en entraînant des ordinateurs à lire Reddit

Des étudiants aident la NASA à trouver des glissements de terrain en entraînant des ordinateurs à lire Reddit

Selon l’Organisation mondiale de la santé, les glissements de terrain sont plus répandus que tout autre événement géologique. Crédit : NASA

Des étudiants diplômés de l’Université de la Colombie-Britannique ont formé des ordinateurs pour « lire » des articles de presse sur les glissements de terrain sur Reddit afin de renforcer une base de données de la NASA, ce qui pourrait améliorer les prévisions sur le moment et l’endroit où ces catastrophes naturelles se produiront.

Pour leur projet de synthèse Master of Data Science in Computational Linguistics, Badr Jaidi et son équipe, le groupe Social Landslides, ont formé des ordinateurs pour extraire automatiquement des informations utiles des articles de presse pertinents sur les glissements de terrain qui ont été publiés sur Reddit. Dans ce Q&A, il explique comment cet outil pourrait finir par sauver des vies.

Pourquoi avons-nous besoin de cet outil ?

Selon l’Organisation mondiale de la santé, les glissements de terrain sont plus répandus que tout autre événement géologique. Ils sont si destructeurs, et nous n’avons pas beaucoup de données à leur sujet. Plus vous disposez de données précises sur les glissements de terrain, plus il est possible de prédire avec précision quels endroits présentent un risque plus élevé, ce qui pourrait finalement sauver des vies.

La NASA recueille ces informations dans une base de données publique appelée Cooperative Open Online Repository, ou COOLR, et les utilise pour prédire quand et où les glissements de terrain se produiront. Mais les gens ont dû soumettre manuellement des informations sur les glissements de terrain ou rechercher des articles de presse et des données un par un, ce qui est assez fastidieux. Notre outil automatise ce processus, complétant en quelques minutes ce qui aurait pu prendre des mois auparavant.

Cela libérerait des ressources pour des recherches plus importantes et signifierait également que nous obtenons plus de données, plus rapidement, améliorant potentiellement la recherche sur les glissements de terrain en général, ainsi que les prévisions de glissement de terrain de la NASA.

Comment ça marche?

Guidé par BGC Engineering Inc. et la NASA pour notre projet Capstone, notre équipe a conçu un outil qui scanne Reddit pour des articles de presse sur les glissements de terrain dans une période de temps donnée, puis extrait les informations pertinentes.

Tout d’abord, un modèle informatique détermine si l’article traite effectivement des glissements de terrain, plutôt que de dire une élection où quelqu’un gagne « par un glissement de terrain » ou, comme nous l’avons également constaté, des articles sur les Pokémon avec des techniques terrestres comme « le glissement de terrain ».

Ensuite, nous avons formé un modèle de traitement du langage naturel sur des données de glissement de terrain, en lui apprenant à reconnaître les informations que nous recherchions dans un article. Ce type de modèle peut comprendre le langage, y compris l’analyse de phrases. Donc, nous lui donnions un article de presse et demandions où un glissement de terrain aurait pu se produire. Le modèle prédirait la réponse en fonction de la langue impliquée, par exemple, « Le glissement de terrain s’est très probablement produit ici, selon cette phrase », et nous lui ferions savoir si c’était correct ou non.

De cette façon, l’ordinateur apprend quelles informations extraire automatiquement et avec précision, y compris quand un glissement de terrain s’est produit et où, ce qui l’a causé et combien de morts ont été impliqués.

Tout cela se produit assez rapidement : il renvoie l’équivalent d’un mois d’articles en 15 minutes environ, au lieu de les parcourir manuellement pour trouver ces informations. Les données peuvent ensuite être introduites dans COOLR. Cela nous a pris environ deux mois à construire. La NASA évalue actuellement si l’outil peut être exécuté tel quel ou s’il a besoin de quelques ajustements pour être utilisé.

L’outil pourrait-il être utilisé sur d’autres sites de médias sociaux ?

Nous avons utilisé Reddit car il est gratuit d’accéder à leur interface de programmation d’application (API). Par exemple, l’API de Twitter comporte de nombreuses restrictions et son accès est assez coûteux. De plus, la quantité de données serait énorme.

Nous voulions commencer petit et prouver que cela fonctionne avec Reddit. Mais il pourrait être étendu à de plus grandes plateformes et sources, à condition qu’elles aient des articles de presse. Vous pouvez même étendre l’outil pour l’utiliser pour d’autres catastrophes telles que les tremblements de terre, en utilisant la même méthodologie en entraînant les modèles avec des ensembles de données similaires.

Améliorer le modèle et ajouter plus de sources à partir desquelles les glissements de terrain peuvent être extraits autres que Reddit aiderait finalement la NASA à avoir plus de points de données, plus rapidement. Je garderai un œil dessus.


Fourni par l’Université de la Colombie-Britannique