Cinq façons de modéliser du texte à l'aide de réseaux
La croissance explosive de l’IA « chatbots » Au cours des dernières années, leur capacité à générer du texte qui simule l’écriture humaine, souvent de manière très précise, a attiré l’attention sur la manière dont le texte est structuré.
Une façon utile d’analyser un texte est de le considérer comme un réseau, et les méthodes d’analyse de réseau qui sont familières aux mathématiciens et aux informaticiens peuvent être puissantes en linguistique.
La théorie des réseaux peut être utilisée de différentes manières pour modéliser la relation entre les mots d’un bloc de texte, en reliant les modèles analytiques à la cohérence et à certains aspects plus subjectifs de la qualité de l’écriture.
Davi Alves Oliveira et Hernane Borges de Barros Pereira de l'Université de l'État de Bahia, au Brésil, ont comparé cinq méthodes de représentation de phrases sous forme de réseaux, montrant que chacune d'entre elles présente une valeur pour des applications spécifiques. Cette analyse a été publiée dans La Revue européenne de physique B.
Leurs recherches portent sur une propriété du texte appelée cohésion, qui permet à un bloc de texte de fonctionner comme un tout, plutôt que comme un ensemble de phrases aléatoires. Sa cohésion repose en grande partie sur les relations entre les mots. « Imaginez un texte comme une carte, avec des mots comme des villes… [and] nous connectons les mots en fonction de la façon dont ils sont liés les uns aux autres, » explique Oliveira. « Cela nous permet d’explorer comment les utilisateurs de la langue choisissent stratégiquement les mots pour construire une structure cohérente. »
La théorie des réseaux repose sur des nœuds reliés par des arêtes qui définissent les relations entre eux. Oliveira et Pereira présentent cinq façons différentes de définir ces nœuds et arêtes dans un texte, puis utilisent des outils d'analyse de réseau pour mesurer la force et le modèle des connexions.
Dans certains modèles, les mots individuels sont remplacés en tant que nœuds par des lemmes ou des mots de base (donc « texte » représenterait les deux « des textes » et « textuel ») et/ou des mots de liaison comme « et » ou « le » supprimé ; les bords peuvent connecter des mots consécutifs ou des mots dans la même phrase.
« Ce [analysis] nous permet de voir comment les choix de mots s'influencent mutuellement et contribuent au sens et à la structure globale du texte, » ajoute Oliveira.
La cohérence, mais aussi des aspects plus subjectifs de la qualité de l'écriture comme la clarté et la fluidité, peuvent être liés aux modèles de réseau. Cela suggère que les analyses des chercheurs pourraient avoir des applications pratiques pour les professeurs de langues, les rédacteurs et les traducteurs.
