Une nouvelle et meilleure façon de créer des listes de mots

Une nouvelle et meilleure façon de créer des listes de mots

Une courte liste de mots germes (rouge, à gauche) est développée en une liste de mots plus longue (vert, à droite) en mappant les mots germes sur un réseau de colexification et en récupérant les nœuds voisins. Crédit : Complexity Science Hub

Les listes de mots sont à la base de tant de recherches dans tant de domaines. Les chercheurs du Complexity Science Hub ont maintenant développé un algorithme qui peut être appliqué à différentes langues et peut étendre les listes de mots bien mieux que les autres.

De nombreux projets commencent par la création d’une liste de mots, non seulement dans les entreprises lors de la création de cartes mentales, mais aussi dans tous les domaines de la recherche. Imaginez que vous vouliez savoir quels jours les gens sont particulièrement de bonne humeur en analysant les publications sur Twitter. Chercher simplement le mot « heureux » ne suffirait pas.

Au lieu de cela, vous devrez utiliser un algorithme qui détecte tous les tweets qui indiquent que quelqu’un est heureux. « Donc, la première étape consiste à créer une liste de tous les mots qui indiquent exactement cela. Toute la recherche tient ou tombe à cause de cela », explique Anna Di Natale, chercheuse au Complexity Science Hub à Vienne. Mais comment créer les listes de mots les plus précises et les plus complètes possibles ?

Un problème qui préoccupe beaucoup

Ce problème répandu ne concerne pas seulement les enquêteurs d’opinion qui veulent savoir comment les déclarations des politiciens sont reçues par le public. Les entreprises veulent également savoir comment leurs produits sont perçus grâce à l’analyse des sentiments.

Pour améliorer les choses, Di Natale a maintenant développé une nouvelle méthode, appelée LEXpander, qui surpasse les algorithmes précédents dans deux langues différentes : l’allemand et l’anglais. De plus, pour la toute première fois, elle a développé un moyen par lequel il est possible de comparer différents outils.

Performance améliorée

En comparaison avec quatre autres algorithmes d’expansion de listes de mots (WordNet, Empath 2.0, FastText et GloVe), LEXpander a obtenu des résultats nettement meilleurs, en particulier en allemand. Par exemple, les chercheurs ont découvert que LEXpander devinait 43 % des mots correctement lorsqu’il développait une liste de mots anglais pour une signification positive. Un modèle populaire existant, FastText, en comparaison, n’a raison que 28% du temps.

Indépendance vis-à-vis de la langue elle-même

La raison en est que cet outil fonctionne indépendamment de la langue. Elle ne repose pas sur une langue, mais sur un réseau dit de colexification. Ce concept linguistique reconnu repose sur des homonymes et des polysémies, des mots uniques qui ont deux ou plusieurs significations distinctes. Par exemple : le mot grec ancien φάρμακον (pharmacon) peut signifier médicament ou poison. Ce sont deux choses différentes, mais thématiquement proches. Mais il y en a d’autres qui ne suggèrent pas de parenté, comme la « banque » en tant qu’institution financière ou le terrain le long d’une rivière.

« Si vous les collectez dans de nombreuses langues – et ici nous avons analysé environ 19 langues différentes – vous pouvez voir des liens entre elles », explique Di Natale. Le réseau se forme lorsque ces colexifications se produisent dans plusieurs langues à travers différentes familles de langues, créant des connexions.

Cette indépendance par rapport à la langue elle-même permet à LEXpander d’obtenir de meilleurs résultats dans différentes langues. « Il existe de nombreuses méthodes développées pour l’anglais. Elles fonctionnent très bien et rapidement et tout le monde les utilise. Essayer de les appliquer à d’autres langues fonctionne, mais pas aussi bien que si vous aviez commencé à développer une méthode pour l’allemand ou l’italien », Di Natale explique.

Important pour les nouveaux sujets comme COVID

Pour de nombreux sujets, il existe déjà de bonnes listes de mots. Mais pour les nouveaux sujets, comme le COVID, de nouveaux sujets doivent être créés. Jusqu’à présent, ils étaient généralement créés à la main lors de brainstorming entre collègues, et plusieurs outils étaient utilisés pour aider. Mais jusqu’à présent, il n’y avait aucun moyen de les comparer.

Anna Di Natale et son équipe ont maintenant créé cette possibilité et ont également développé un nouvel outil plus performant que les autres. Cela peut être une pierre angulaire importante pour de nombreux projets de recherche futurs dans divers domaines.

Fourni par Complexity Science Hub Vienne