Des chercheurs apprennent à une IA à écrire de meilleures légendes de graphique

Les ensembles de données utilisés pour entraîner les algorithmes d’IA peuvent sous-représenter les personnes âgées. Crédit : Pixabay/CC0 Domaine public

Les légendes des graphiques qui expliquent les tendances et les modèles complexes sont importantes pour améliorer la capacité du lecteur à comprendre et à retenir les données présentées. Pour les personnes ayant une déficience visuelle, les informations contenues dans une légende constituent souvent leur seul moyen de comprendre le graphique.

Mais écrire des légendes efficaces et détaillées est un processus qui demande beaucoup de travail. Bien que les techniques de sous-titrage automatique puissent alléger ce fardeau, elles ont souvent du mal à décrire les caractéristiques cognitives qui fournissent un contexte supplémentaire.

Pour aider les gens à créer des légendes de graphiques de haute qualité, les chercheurs du MIT ont développé un ensemble de données pour améliorer les systèmes de sous-titrage automatique. À l’aide de cet outil, les chercheurs pourraient apprendre à un modèle d’apprentissage automatique à faire varier le niveau de complexité et le type de contenu inclus dans une légende de graphique en fonction des besoins des utilisateurs.

Les chercheurs ont découvert que les modèles d’apprentissage automatique entraînés pour le sous-titrage automatique avec leur ensemble de données généraient systématiquement des sous-titres précis, sémantiquement riches et décrivaient les tendances des données et les modèles complexes. Des analyses quantitatives et qualitatives ont révélé que leurs modèles sous-titraient les graphiques plus efficacement que les autres systèmes de sous-titrage automatique.

L’objectif de l’équipe est de fournir l’ensemble de données, appelé VisText, en tant qu’outil que les chercheurs peuvent utiliser lorsqu’ils travaillent sur le problème épineux du sous-titrage automatique des graphiques. Ces systèmes automatiques pourraient aider à fournir des sous-titres pour les graphiques en ligne non sous-titrés et à améliorer l’accessibilité pour les personnes ayant une déficience visuelle, explique la co-auteure principale Angie Boggust, étudiante diplômée en génie électrique et en informatique au MIT et membre du groupe de visualisation en informatique et Laboratoire d’Intelligence Artificielle (CSAIL).

« Nous avons essayé d’intégrer de nombreuses valeurs humaines dans notre ensemble de données afin que, lorsque nous et d’autres chercheurs construisons des systèmes de sous-titrage automatique des graphiques, nous ne nous retrouvions pas avec des modèles qui ne correspondent pas à ce que les gens veulent ou dont ils ont besoin », elle dit.

Boggust est rejoint sur l’article par le co-auteur principal et étudiant diplômé Benny J. Tang et l’auteur principal Arvind Satyanarayan, professeur agrégé d’informatique au MIT qui dirige le groupe de visualisation au CSAIL. La recherche sera présentée lors de la réunion annuelle de l’Association for Computational Linguistics.

Analyse centrée sur l’humain

Les chercheurs ont été inspirés pour développer VisText à partir de travaux antérieurs du groupe de visualisation qui ont exploré ce qui fait une bonne légende de graphique. Dans cette étude, les chercheurs ont découvert que les utilisateurs voyants et les utilisateurs aveugles ou malvoyants avaient des préférences différentes pour la complexité du contenu sémantique dans une légende.

Le groupe voulait intégrer cette analyse centrée sur l’humain dans la recherche sur le sous-titrage automatique. Pour ce faire, ils ont développé VisText, un ensemble de données de graphiques et de légendes associées qui pourraient être utilisés pour former des modèles d’apprentissage automatique afin de générer des légendes précises, sémantiquement riches et personnalisables.

Développer des systèmes de sous-titrage efficaces n’est pas une tâche facile. Les méthodes d’apprentissage automatique existantes tentent souvent de sous-titrer les graphiques comme elles le feraient pour une image, mais les personnes et les modèles interprètent les images naturelles différemment de la façon dont nous lisons les graphiques. D’autres techniques ignorent complètement le contenu visuel et sous-titrent un graphique à l’aide de sa table de données sous-jacente. Cependant, ces tableaux de données ne sont souvent pas disponibles après la publication des graphiques.

Compte tenu des inconvénients liés à l’utilisation d’images et de tableaux de données, VisText représente également les graphiques sous forme de graphiques de scène. Les graphiques de scène, qui peuvent être extraits d’une image de graphique, contiennent toutes les données du graphique, mais incluent également un contexte d’image supplémentaire.

« Un graphe scénique est comme le meilleur des deux mondes : il contient presque toutes les informations présentes dans une image tout en étant plus facile à extraire des images que des tableaux de données. Comme il s’agit également de texte, nous pouvons tirer parti des avancées des grands modèles de langage modernes pour le sous-titrage, », explique Tang.

Ils ont compilé un ensemble de données contenant plus de 12 000 graphiques, chacun représenté sous forme de tableau de données, d’image et de graphique de scène, ainsi que les légendes associées. Chaque graphique a deux légendes distinctes : une légende de bas niveau qui décrit la construction du graphique (comme ses plages d’axes) et une légende de niveau supérieur qui décrit les statistiques, les relations dans les données et les tendances complexes.

Les chercheurs ont généré des sous-titres de bas niveau à l’aide d’un système automatisé et ont collecté des sous-titres de niveau supérieur auprès de travailleurs humains.

« Nos sous-titres ont été éclairés par deux éléments clés de recherches antérieures : les directives existantes sur les descriptions accessibles des médias visuels et un modèle conceptuel de notre groupe pour catégoriser le contenu sémantique. Cela a permis de garantir que nos sous-titres comportaient des éléments graphiques de bas niveau importants tels que des axes, des échelles, et des unités pour les lecteurs malvoyants, tout en conservant la variabilité humaine dans la façon dont les sous-titres peuvent être écrits », explique Tang.

Traduire des graphiques

Une fois qu’ils ont rassemblé des images et des légendes de graphiques, les chercheurs ont utilisé VisText pour former cinq modèles d’apprentissage automatique pour le sous-titrage automatique. Ils voulaient voir comment chaque représentation (image, tableau de données et graphique de scène) et les combinaisons des représentations affectaient la qualité de la légende.

« Vous pouvez penser à un modèle de sous-titrage de graphique comme un modèle de traduction linguistique. Mais au lieu de dire, traduisez ce texte allemand en anglais, nous disons traduire cette » langue de graphique « en anglais », explique Boggust.

Leurs résultats ont montré que les modèles entraînés avec des graphes scéniques fonctionnaient aussi bien ou mieux que ceux entraînés à l’aide de tables de données. Étant donné que les graphiques de scène sont plus faciles à extraire des graphiques existants, les chercheurs affirment qu’ils pourraient constituer une représentation plus utile.

Ils ont également formé des modèles avec des légendes de bas niveau et de haut niveau séparément. Cette technique, connue sous le nom de réglage sémantique des préfixes, leur a permis d’apprendre au modèle à faire varier la complexité du contenu de la légende.

De plus, ils ont procédé à un examen qualitatif des sous-titres produits par leur méthode la plus performante et ont classé six types d’erreurs courantes. Par exemple, une erreur directionnelle se produit si un modèle indique qu’une tendance est à la baisse alors qu’elle est en fait à la hausse.

Cette évaluation qualitative fine et robuste était importante pour comprendre comment le modèle faisait ses erreurs. Par exemple, en utilisant des méthodes quantitatives, une erreur directionnelle peut entraîner la même pénalité qu’une erreur de répétition, où le modèle répète le même mot ou la même phrase. Mais une erreur directionnelle pourrait être plus trompeuse pour un utilisateur qu’une erreur de répétition. L’analyse qualitative les a aidés à comprendre ces types de subtilités, dit Boggust.

Ces types d’erreurs exposent également les limites des modèles actuels et soulèvent des considérations éthiques que les chercheurs doivent prendre en compte lorsqu’ils travaillent au développement de systèmes de sous-titrage automatique, ajoute-t-elle.

Il a été démontré que les modèles d’apprentissage automatique génératif, tels que ceux qui alimentent ChatGPT, hallucinent ou donnent des informations incorrectes qui peuvent être trompeuses. Bien qu’il y ait un avantage évident à utiliser ces modèles pour le sous-titrage automatique des graphiques existants, cela pourrait entraîner la propagation de fausses informations si les graphiques sont mal sous-titrés.

« Cela signifie peut-être que nous ne nous contentons pas de sous-titrer tout ce qui est en vue avec l’IA. Au lieu de cela, nous fournissons peut-être ces systèmes de sous-titrage automatique comme outils de paternité que les gens peuvent modifier. Il est important de réfléchir à ces implications éthiques tout au long du processus de recherche, pas seulement au la fin quand on a un modèle à déployer », dit-elle.

Boggust, Tang et leurs collègues souhaitent continuer à optimiser les modèles afin de réduire certaines erreurs courantes. Ils souhaitent également étendre l’ensemble de données VisText pour inclure plus de graphiques et des graphiques plus complexes, tels que ceux avec des barres empilées ou plusieurs lignes, et ils aimeraient également avoir un aperçu de ce que ces modèles de sous-titrage automatique apprennent réellement sur les données de graphique.