ChartNet, l'interprétation des graphiques dans les modèles d'intelligence artificielle

La collecte et la visualisation de données, des rapports financiers aux tableaux de bord de production, est une activité devenue fondamentale pour la compétitivité d’une entreprise. Traduire des graphiques en décisions nécessite la collaboration d’analystes spécialisés, mais dans de nombreux contextes, il est urgent d’automatiser cette phase à l’aide de modèles d’intelligence artificielle.
L’utilisation de modèles visuo-linguistiques (VLM) capables de recevoir une image en entrée et de renvoyer une analyse verbale pourrait réduire les délais et les coûts d’analyse. Cependant, les grands LLM ont tendance à commettre des erreurs lorsqu’ils doivent combiner la perception visuelle avec des données numériques et linguistiques. Même en investissant dans des systèmes pionniers, l’automatisation basée sur l’IA pourrait fournir des réponses incomplètes ou imprécises, car la tâche nécessite une intégration entre des données de nature différente que les modèles actuels ne maîtrisent pas.

Si l’IA ne parvient pas à reconnaître un pic dans un graphique de ventes ou une tendance saisonnière dans un graphique linéaire, l’automatisation risque de générer des interprétations trompeuses.

Intelligence économique et ensembles de données pour un réglage précis

La Business Intelligence (BI) désigne l’ensemble des processus, technologies et compétences utilisés pour collecter, agréger et analyser des données dans le but de soutenir des décisions éclairées. L’objectif de la BI est la collecte et la présentation claire des données pour faciliter les processus de prise de décision, permettant aux organisations d’extraire rapidement de la valeur et des informations à partir des données collectées.

L’interprétation des données visuelles sur lesquelles opère la BI constitue, à l’heure actuelle, une limitation importante pour l’utilisation de l’intelligence artificielle. Le manque d’ensembles de données spécifiques adaptés à la formation de modèles linguistiques-visuels est l’un des principaux obstacles à l’amélioration des performances des graphiques. Les grandes entreprises peuvent combler cette lacune en créant des ensembles de données internes, mais pour les PME, il s’agit d’un investissement coûteux et injustifié.

Il existe quelques jeux de données, comme FigureQA, PlotQA, ChartQA ou TinyChart, mais ils contiennent des exemples qui ne couvrent que certains modes de représentation et à une échelle très limitée. Pour un environnement de business intelligence qui aspire à interpréter automatiquement des graphiques complexes, ces lacunes empêchent les modèles d’apprendre des relations profondes et réduisent la précision des analyses.

Qu’est-ce que ChartNet

ChartNet est la réponse développée par des chercheurs du MIT-IBM Computing Research Lab au manque de données de formation spécialisées dans l’interprétation des données graphiques. L’ensemble de données collecte plus de 1,5 million de graphiques synthétiques et réels conçus pour apprendre aux modèles à comprendre et à raisonner sur les graphiques.

Chaque élément ChartNet contient le code de génération du graphique, l’image du graphique, le tableau avec les données numériques, un résumé en langage naturel et une série de questions avec des réponses basées sur le raisonnement. L’inclusion de ces éléments permet aux modèles d’établir des correspondances précises entre les modalités.

L’ensemble de données couvre 24 types de graphiques différents et utilise six bibliothèques de tracés, offrant une plus grande variété de représentations que celles disponibles dans les ensembles de données précédents.

Le document relatif à cet ensemble de données distingue différents sous-ensembles qui composent ChartNet. Il y a d’abord les principales données synthétiques. Pour générer ce noyau, les chercheurs sont partis d’environ 150 000 images de TinyChart et ont reconstruit le code de chacune d’elles, en le faisant varier de manière itérative pour obtenir plus de 1,5 million de graphiques différents. Cette procédure, basée sur la technique de augmentation de codevous permet de couvrir vingt-quatre types de graphiques et six bibliothèques de traçage, variant les couleurs, les types et les thèmes.

Celles-ci sont accompagnées de données annotées par des experts. Environ 96 643 graphiques synthétiques ont été examinés et vérifiés par des professionnels qui ont vérifié l’exactitude sémantique et fourni des annotations de haute qualité.

La collection comprend également environ 30 000 exemples tirés de sources telles que la Banque mondiale et le Pew Research Center et des sous-ensembles dédiés à l’échouement et à la sécurité. Les images ont été sélectionnées pour leur lisibilité et pour le respect des règles de droit d’auteur, de manière à permettre de tester la capacité des modèles à généraliser même sur des données non synthétiques. Un autre segment contient 7 000 échantillons de formation et 600 échantillons de test avec des invites contradictoires sur des sujets sensibles, conçus pour vérifier et augmenter la robustesse des modèles.

Cette différenciation vous permet d’utiliser ChartNet à la fois pour entraîner des modèles généraux et pour affiner des tâches spécifiques, comme la détection de points clés dans un graphique ou l’analyse de graphiques sur des sujets sensibles.

Comment fonctionne ChartNet

Pour évaluer l’efficacité de l’ensemble de données, les chercheurs ont formé plusieurs modèles visuo-linguistiques, notamment les modèles Granite Vision d’IBM et d’autres modèles open source, sur ChartNet et les ont comparés à des modèles commerciaux plus vastes. La principale conclusion est que les modèles de petite et moyenne taille, lorsqu’ils sont formés avec ChartNet, surpassent systématiquement les modèles commerciaux beaucoup plus grands dans des tâches telles que la reconstruction de graphiques, l’exploration de données, la génération de résumés textuels et la réponse aux questions.

La recherche montre qu’un ensemble de données de haute qualité compte bien plus que la taille du modèle. Dans certaines expériences, des modèles comportant seulement quelques milliards de paramètres ont égalé ou dépassé les performances de modèles propriétaires très coûteux comportant des centaines de milliards de paramètres.

Le réglage fin sur ChartNet produit des améliorations substantielles à toutes les échelles de modèle. Même les modèles ultra-compacts, initialement incapables de reconstruire un graphique, acquièrent des compétences fonctionnelles après formation. Les modèles plus grands permettent d’améliorer considérablement l’alignement visuel et la génération de code et présentent une grande précision dans l’extraction des données.

Un exemple d’application concret est la famille de modèles Granite Vision d’IBM. La petite version 4B offre des performances de pointe dans l’extraction structurée de documents (graphiques, tableaux et paires clé-valeur), avec une très faible consommation de ressources. Le modèle prend également en charge des instructions dédiées pour transformer un graphique en tableau CSV ou pour générer une description naturelle.

ChartNet dans les automatisations d’entreprise

ChartNet est open source et représente une opportunité concrète d’améliorer les processus décisionnels avec des investissements réduits. Il peut être utilisé pour affiner des modèles ouverts et disponibles gratuitement, réduisant ainsi les barrières à l’entrée. La possibilité de former des modèles plus petits mais précis vous permet de mettre en œuvre des solutions d’analyse graphique sans recourir à des fournisseurs externes et sans trop peser sur votre budget.

L’ensemble de données offre également de la flexibilité : vous pouvez partir des configurations génériques ChartNet puis ajouter vos propres données, par exemple des graphiques de bilan d’entreprise ou des rapports de production, créant ainsi un modèle qui s’adapte parfaitement au contexte spécifique dans lequel il fonctionnera. Avoir de vrais graphiques dans l’ensemble de données et des annotations humaines de haute qualité permet d’empêcher le modèle d’apprendre des modèles incorrects ou de déduire de fausses corrélations lors de l’analyse de données critiques.

Les chaînes de raisonnement incluses dans ChartNet aident les modèles à expliquer les étapes par lesquelles ils arrivent à une conclusion. Cette capacité est précieuse pour le reporting et la conformité réglementaire, car elle permet aux auditeurs de vérifier comment le modèle est arrivé à un certain résultat.

Avec des réglementations telles que la loi sur l’IA de l’Union européenne et l’attention croissante accordée à la gouvernance des données, la transparence de la prise de décision automatisée devient une variable concurrentielle.

La business intelligence de demain

Cependant, l’interprétation d’un graphique par une intelligence artificielle reste un processus non déterministe ; cela implique que l’automatisation peut être un catalyseur des processus de prise de décision, sans toutefois pouvoir les remplacer complètement dans de nombreux domaines. Dans certains domaines particulièrement spécialisés, tels que la bioinformatique, des travaux supplémentaires de collecte de données sont également nécessaires pour ajouter des exemples spécifiques à l’ensemble de données.

L’automatisation et la simplification de la business intelligence sont l’une des pièces manquantes dans la digitalisation des entreprises. ChartNet propose une solution pragmatique pour apprendre à des modèles de taille modeste à comprendre des graphiques complexes. Cela signifie avoir la possibilité d’innover et d’automatiser un processus difficile à des coûts abordables, en réduisant la dépendance à l’égard de solutions propriétaires et en améliorant l’efficacité de l’analyse des données.

Des ajustements spécialisés pourraient devenir la base d’un nouvel écosystème d’outils d’IA légers qui résolvent des problèmes spécifiques. Chaque étape de l’évolution de l’intelligence artificielle modifie la manière dont nous appliquons ses capacités dans la pratique. Choisir la bonne combinaison d’outils pour rationaliser les processus reste une tâche complexe, nécessitant des connaissances spécifiques dans un domaine, la maîtrise des technologies d’IA et une expérience en conception d’automatisation. Alimenté par l’IA.