Microsoft dévoile un logiciel qui permet aux LLM de travailler avec des feuilles de calcul
Une équipe de programmeurs et de spécialistes de l'IA de Microsoft a développé un outil d'IA appelé SpreadsheetLLM qui applique des capacités de modèle de langage à grande échelle aux feuilles de calcul. Dans leur étude, désormais publiée sur le site arXiv serveur de préimpression, le groupe a développé SheetCompressor, un cadre d'encodage qui compresse efficacement les feuilles de calcul pour une utilisation par les grands modèles linguistiques (LLM).
Les LLM tels que ChatGPT sont bien connus, mais à mesure que de plus en plus de personnes les utilisent, leurs lacunes en matière de compétences deviennent de plus en plus apparentes. L'une d'entre elles est la capacité de ces modèles à comprendre les feuilles de calcul. En raison de leur organisation et de leurs capacités uniques, les feuilles de calcul restent un mystère pour les LLM, ce qui empêche leur utilisation comme outil pour les entreprises.
Dans cette nouvelle étude, l’équipe de Microsoft a créé un outil qui réorganise une feuille de calcul dans un format que les étudiants en master peuvent utiliser comme source de données. Et, comme le souligne l’équipe, il est basé sur un concept appelé SheetCompressor, un outil de programmation qui permet la gestion et l’analyse des données par l’IA pour obtenir des informations dans des feuilles de calcul.
Pour mettre en œuvre SheetCompressor, les chercheurs l’ont divisé en trois fonctions principales : la compression, la traduction et l’agrégation de formats de données. La première a été mise en œuvre en ajoutant ce que l’équipe décrit comme des ancres dans une feuille de calcul pour aider un LLM à comprendre ce que fait la feuille de calcul.
Une fois en place, les lignes et les colonnes sont remplacées par un tableau squelettisé. Des modules de traduction sont ensuite utilisés pour supprimer les cellules vides ou les valeurs répétitives. L'application d'une traduction d'index inversée sans perte au format JSON permet l'agrégation des formats de données.
L'équipe a également ajouté d'autres modules pour gérer des situations uniques, telles que des cellules adjacentes avec des formats numériques similaires. Le résultat est un outil qui permet aux étudiants en master d'utiliser des feuilles de calcul comme source de données de diverses manières.
L'équipe de recherche suggère que SpreadsheetLLM ouvre la voie à l'utilisation de la technologie LLM pour révolutionner la façon dont les feuilles de calcul sont utilisées ; de l'automatisation de la saisie des données à leur analyse, en passant par la présentation d'informations complexes de manière accessible à des personnes d'horizons divers. Et cela, suggèrent-ils en outre, rendra les feuilles de calcul et les données qu'elles contiennent beaucoup plus accessibles et utiles.