Le nouvel outil d'IA multimodal prend en charge les applications écologiques

Le nouvel outil d’IA multimodal prend en charge les applications écologiques

Avez-vous déjà vu une image d’un animal et s’est demandé: « Qu’est-ce que c’est? » Taxabind, un nouvel outil développé par des informaticiens de la McKelvey School of Engineering de l’Université de Washington à St. Louis, peut assurer cette curiosité et plus encore.

Taxabind répond à la nécessité d’approches plus robustes et unifiées des problèmes écologiques en combinant plusieurs modèles pour effectuer une classification des espèces (quel type d’ours est-ce?), La cartographie de la distribution (où sont les cardinaux?), Et d’autres tâches liées à l’écologie. L’outil peut également être utilisé comme point de départ pour des études plus importantes liées à la modélisation écologique, que les scientifiques pourraient utiliser pour prédire les changements dans les populations végétales et animales, les effets du changement climatique ou les impacts des activités humaines sur les écosystèmes.

Srikumar Sastry, l’auteur principal du projet, a présenté Taxabind le 2 au 3 mars à la conférence d’hiver IEEE / CVF sur les applications de la vision par ordinateur (WACV) à Tucson, AZ. La recherche est publiée sur le arxiv serveur de préimprimée.

« Avec Taxabind, nous déverrouillons le potentiel de multiples modalités dans le domaine écologique », a déclaré Sastry. « Contrairement aux modèles existants qui ne se concentrent sur une seule tâche à la fois, nous combinons six modalités – des images au niveau du terrain d’espèces, de l’emplacement géographique, des images satellites, du texte, de l’audio et d’autres caractéristiques environnementales – dans un cadre cohésif.

Sastry, un étudiant diplômé travaillant avec Nathan Jacobs, professeur d’informatique et d’ingénierie, a utilisé une technique innovante connue sous le nom de correctif multimodal pour distiller les informations de différentes modalités en une seule modalité de liaison. Sastry décrit cette modalité de liaison comme «l’ami mutuel» qui relie et maintient la synergie entre les cinq autres modalités.

Pour les taxabind, la modalité contraignante est des images au niveau du sol des espèces. L’outil capture des fonctionnalités uniques de chacune des cinq autres modalités et les condense dans la modalité de liaison, permettant à l’IA d’apprendre des images, du texte, du son, de la géographie et du contexte environnemental à la fois.

Lorsque l’équipe a évalué les performances de l’outil sur diverses tâches écologiques, Taxabind a démontré des capacités supérieures en classification zéro-tirs, qui est la capacité de classer une espèce qui n’est pas présente dans son ensemble de données de formation. La version de démonstration de l’outil a été formée sur environ 450 000 espèces et peut classer une image donnée par les espèces qu’elle montre, y compris les espèces invisibles auparavant.

« Pendant l’entraînement, nous avons seulement besoin de maintenir la synergie entre les images au niveau du sol et d’autres modalités », a déclaré Sastry. « Ce pont crée alors des synergies émergentes entre les modalités – par exemple, entre les images satellites et l’audio – lorsque le taxabind est appliqué aux tâches de récupération, même si ces modes n’ont pas été formés ensemble. »

Cette récupération intermodale était un autre domaine où Taxabind a surpassé les méthodes de pointe. Par exemple, la combinaison d’images satellites et d’images des espèces au niveau du sol a permis à Taxabind de récupérer les caractéristiques de l’habitat et les données climatiques liées aux emplacements des espèces. Il a également renvoyé des images satellites pertinentes basées sur des images d’espèces, prouvant la capacité de l’outil à relier les données écologiques à grains fins avec des informations environnementales réelles.

Les implications du taxabind s’étendent bien au-delà de la classification des espèces. Sastry note que les modèles sont à usage général et pourraient potentiellement être utilisés comme modèle fondamental pour d’autres applications liées à l’écologie et au climat, telles que la surveillance de la déforestation et la cartographie de l’habitat. Il envisage également les itérations futures de la technologie qui peuvent donner un sens aux entrées de texte en langage naturel pour répondre aux requêtes des utilisateurs.