Utiliser l'IA pour décoder les vocalisations des chiens

Utiliser l'IA pour décoder les vocalisations des chiens

Avez-vous déjà souhaité pouvoir comprendre ce que votre chien essaie de vous dire ? Des chercheurs de l'Université du Michigan explorent les possibilités de l'IA et développent des outils permettant d'identifier si l'aboiement d'un chien véhicule un caractère ludique ou agressif.

Les mêmes modèles peuvent également glaner d’autres informations à partir des vocalisations des animaux, comme l’âge, la race et le sexe de l’animal. Fruit d'une collaboration avec l'Institut national d'astrophysique, d'optique et d'électronique (INAOE) du Mexique à Puebla, l'étude révèle que les modèles d'IA initialement formés sur la parole humaine peuvent être utilisés comme point de départ pour former de nouveaux systèmes ciblant la communication animale.

Les résultats ont été présentés lors de la Conférence internationale conjointe sur la linguistique informatique, les ressources linguistiques et l'évaluation. L'étude est publiée sur le arXiv serveur de préimpression.

« En utilisant des modèles de traitement de la parole initialement formés sur la parole humaine, notre recherche ouvre une nouvelle fenêtre sur la manière dont nous pouvons exploiter ce que nous avons construit jusqu'à présent en matière de traitement de la parole pour commencer à comprendre les nuances des aboiements des chiens », a déclaré Rada Mihalcea, de Janice M. Jenkins. Professeur collégial d'informatique et d'ingénierie et directeur du laboratoire d'IA de l'UM.

« Il y a tellement de choses que nous ne savons pas encore sur les animaux qui partagent ce monde avec nous. Les progrès de l'IA peuvent être utilisés pour révolutionner notre compréhension de la communication animale, et nos résultats suggèrent que nous ne devrons peut-être pas repartir de zéro. »

L’un des principaux obstacles au développement de modèles d’IA capables d’analyser les vocalisations des animaux est le manque de données accessibles au public. Bien qu’il existe de nombreuses ressources et opportunités pour enregistrer la parole humaine, la collecte de telles données sur les animaux est plus difficile.

« Les vocalisations des animaux sont beaucoup plus difficiles à solliciter et à enregistrer », a déclaré Artem Abzaliev, auteur principal et doctorant en informatique et en ingénierie à l'UM. « Ils doivent être enregistrés passivement dans la nature ou, dans le cas d'animaux domestiques, avec l'autorisation des propriétaires. »

Utiliser l'IA pour décoder les vocalisations des chiens

En raison de cette pénurie de données exploitables, les techniques d’analyse des vocalisations des chiens se sont révélées difficiles à développer, et celles qui existent sont limitées par le manque de matériel de formation. Les chercheurs ont surmonté ces défis en réutilisant un modèle existant initialement conçu pour analyser la parole humaine.

Cette approche a permis aux chercheurs d'exploiter des modèles robustes qui constituent l'épine dorsale des diverses technologies vocales que nous utilisons aujourd'hui, notamment la traduction voix-texte et la traduction linguistique. Ces modèles sont formés pour distinguer les nuances du discours humain, comme le ton, la hauteur et l'accent, et convertir ces informations dans un format qu'un ordinateur peut utiliser pour identifier les mots prononcés, reconnaître la personne qui parle, et bien plus encore.

« Ces modèles sont capables d'apprendre et d'encoder les modèles incroyablement complexes du langage et de la parole humains », a déclaré Abzaliev. « Nous voulions voir si nous pouvions exploiter cette capacité à discerner et à interpréter les aboiements des chiens. »

Les chercheurs ont utilisé un ensemble de données de vocalisations de chiens enregistrées auprès de 74 chiens de race, d'âge et de sexe variés, dans divers contextes. Humberto Pérez-Espinosa, collaborateur de l'INAOE, a dirigé l'équipe qui a collecté l'ensemble de données. Abzaliev a ensuite utilisé les enregistrements pour modifier un modèle d'apprentissage automatique, un type d'algorithme informatique qui identifie des modèles dans de grands ensembles de données. L’équipe a choisi un modèle de représentation vocale appelé Wav2Vec2, initialement formé sur des données vocales humaines.

Avec ce modèle, les chercheurs ont pu générer des représentations des données acoustiques collectées auprès des chiens et interpréter ces représentations. Ils ont découvert que Wav2Vec2 avait non seulement réussi quatre tâches de classification ; il a également surpassé les autres modèles formés spécifiquement sur les données sur les aboiements des chiens, avec des chiffres de précision allant jusqu'à 70 %.

« C'est la première fois que des techniques optimisées pour la parole humaine sont utilisées pour aider au décodage de la communication animale », a déclaré Mihalcea. « Nos résultats montrent que les sons et les modèles dérivés de la parole humaine peuvent servir de base à l'analyse et à la compréhension des modèles acoustiques d'autres sons, tels que les vocalisations d'animaux. »

En plus d’établir des modèles de parole humaine comme outil utile pour analyser la communication animale – ce qui pourrait bénéficier aux biologistes, aux comportementalistes animaux et plus encore – cette recherche a des implications importantes pour le bien-être animal. Comprendre les nuances des vocalisations des chiens pourrait grandement améliorer la façon dont les humains interprètent et répondent aux besoins émotionnels et physiques des chiens, améliorant ainsi leurs soins et prévenant les situations potentiellement dangereuses, ont déclaré les chercheurs.