Un nouvel outil de vision par ordinateur peut compter les bâtiments endommagés dans les zones de crise et estimer avec précision la taille des troupeaux d'oiseaux
Une équipe d'informaticiens de l'Université du Massachusetts à Amherst travaillant sur deux problèmes différents : comment détecter rapidement les bâtiments endommagés dans les zones de crise et comment estimer avec précision la taille des troupeaux d'oiseaux – a récemment annoncé un cadre d'IA capable de faire les deux. Le cadre, appelé DISCount, associe la vitesse et la puissance massive de traitement des données de l'intelligence artificielle à la fiabilité de l'analyse humaine pour fournir rapidement des estimations fiables capables d'identifier et de compter rapidement des caractéristiques spécifiques à partir de très grandes collections d'images.
La recherche, publiée dans Actes de la conférence AAAI sur l'intelligence artificiellea été récompensé par cette association avec un prix pour le meilleur article sur l'IA pour son impact social.
« DISCount est né de deux applications très différentes », explique Subhransu Maji, professeur agrégé d'information et d'informatique à l'UMass Amherst et l'un des auteurs de l'article. « Grâce au Centre de science des données de l'UMass Amherst, nous travaillons depuis des années avec la Croix-Rouge pour les aider à créer un outil de vision par ordinateur capable de compter avec précision les bâtiments endommagés lors d'événements tels que des tremblements de terre ou des guerres. En même temps, nous aidions les ornithologues. à l'Université d'État du Colorado et à l'Université d'Oklahoma intéressés à utiliser les données des radars météorologiques pour obtenir des estimations précises de la taille des troupeaux d'oiseaux.
Maji et ses co-auteurs, l'auteur principal Gustavo Pérez, qui a réalisé cette recherche dans le cadre de sa formation doctorale à l'UMass Amherst, et Dan Sheldon, professeur agrégé d'information et d'informatique à l'UMass Amherst, pensaient pouvoir résoudre les problèmes des bâtiments endommagés. et des problèmes de troupeaux d'oiseaux avec la vision par ordinateur, un type d'IA capable de scanner d'énormes archives d'images à la recherche de quelque chose de particulier – un oiseau, un tas de décombres – et de le compter.
Mais l’équipe se heurtait aux mêmes obstacles sur chaque projet. « Les modèles standards de vision par ordinateur n'étaient pas assez précis », explique Pérez. « Nous voulions créer des outils automatisés qui pourraient être utilisés par des experts non experts en IA, mais qui pourraient offrir un degré de fiabilité plus élevé. »
La réponse, dit Sheldon, a été de repenser fondamentalement les approches habituelles pour résoudre les problèmes de comptage.
« En général, soit des humains effectuent des décomptes manuels précis et fastidieux d'un très petit ensemble de données, soit la vision par ordinateur effectue des décomptes automatisés moins précis d'énormes ensembles de données », explique Sheldon. « Nous avons pensé : pourquoi ne pas faire les deux ? »
DISCount est un framework qui peut fonctionner avec n'importe quel modèle de vision par ordinateur d'IA déjà existant. Il fonctionne en utilisant l’IA pour analyser de très grands ensembles de données – par exemple toutes les images prises d’une région particulière au cours d’une décennie – afin de déterminer quel ensemble de données plus petit un chercheur humain devrait examiner.
Cet ensemble plus petit pourrait, par exemple, comprendre toutes les images de quelques jours critiques qui, selon le modèle de vision par ordinateur, montrent le mieux l'étendue des dommages aux bâtiments dans cette région. Le chercheur humain peut ensuite compter manuellement les bâtiments endommagés à partir d’un ensemble d’images beaucoup plus restreint et l’algorithme les utilisera pour extrapoler le nombre de bâtiments touchés dans l’ensemble de la région. Enfin, DISCount estimera la précision de l’estimation humaine.
« DISCount fonctionne bien mieux que l'échantillonnage aléatoire pour les tâches que nous avons envisagées », explique Pérez. « Et une partie de la beauté de notre cadre réside dans le fait qu'il est compatible avec n'importe quel modèle de vision par ordinateur, ce qui permet au chercheur de sélectionner la meilleure approche d'IA pour ses besoins. Parce qu'il donne également un intervalle de confiance, il donne aux chercheurs la possibilité de prendre des décisions éclairées. » jugements sur la qualité de leurs estimations.
« Rétrospectivement, nous avions une idée relativement simple », explique Sheldon. « Mais ce petit changement de mentalité, selon lequel nous n'avons pas eu à choisir entre l'intelligence humaine et artificielle, nous a permis de créer un outil plus rapide, plus complet et plus fiable que l'une ou l'autre approche seule. »