Des chercheurs introduisent l'IA générative pour analyser des données tabulaires complexes
Un nouvel outil permet aux utilisateurs de bases de données d’effectuer plus facilement des analyses statistiques complexes de données tabulaires sans avoir besoin de savoir ce qui se passe en coulisses.
GenSQL, un système d’IA générative pour les bases de données, pourrait aider les utilisateurs à faire des prédictions, à détecter des anomalies, à deviner des valeurs manquantes, à corriger des erreurs ou à générer des données synthétiques en quelques frappes.
Par exemple, si le système était utilisé pour analyser les données médicales d’un patient qui a toujours eu une pression artérielle élevée, il pourrait détecter une mesure de pression artérielle qui est basse pour ce patient particulier, mais qui serait autrement dans la plage normale.
GenSQL intègre automatiquement un ensemble de données tabulaires et un modèle d’IA probabiliste génératif, qui peut tenir compte de l’incertitude et ajuster sa prise de décision en fonction de nouvelles données.
De plus, GenSQL peut être utilisé pour produire et analyser des données synthétiques qui reproduisent les données réelles d'une base de données. Cela peut être particulièrement utile dans les situations où les données sensibles ne peuvent pas être partagées, comme les dossiers médicaux des patients, ou lorsque les données réelles sont rares.
Ce nouvel outil est construit sur SQL, un langage de programmation pour la création et la manipulation de bases de données qui a été introduit à la fin des années 1970 et est utilisé par des millions de développeurs dans le monde entier.
« Historiquement, SQL a enseigné au monde des affaires ce qu'un ordinateur pouvait faire. Ils n'avaient pas besoin d'écrire des programmes personnalisés, ils devaient simplement poser des questions à une base de données dans un langage de haut niveau.
« Nous pensons que, lorsque nous passerons de la simple interrogation de données à l'interrogation de modèles et de données, nous aurons besoin d'un langage analogue qui enseigne aux gens les questions cohérentes que vous pouvez poser à un ordinateur qui a un modèle probabiliste des données », explique Vikash Mansinghka, auteur principal d'un article présentant GenSQL et chercheur principal et responsable du projet de calcul probabiliste au département des sciences du cerveau et cognitives du MIT.
La recherche est publiée dans la revue Actes de l'ACM sur les langages de programmation.
Lorsque les chercheurs ont comparé GenSQL aux approches populaires basées sur l’IA pour l’analyse des données, ils ont constaté que ce logiciel était non seulement plus rapide, mais produisait également des résultats plus précis. Il est important de noter que les modèles probabilistes utilisés par GenSQL sont explicables, de sorte que les utilisateurs peuvent les lire et les modifier.
« En examinant les données et en essayant de trouver des modèles significatifs en utilisant simplement quelques règles statistiques simples, on risque de passer à côté d'interactions importantes. Vous voulez vraiment capturer les corrélations et les dépendances des variables, ce qui peut être assez compliqué, dans un modèle.
« Avec GenSQL, nous souhaitons permettre à un large ensemble d'utilisateurs d'interroger leurs données et leur modèle sans avoir à connaître tous les détails », ajoute l'auteur principal Mathieu Huot, chercheur au Département des sciences du cerveau et cognitives et membre du projet de calcul probabiliste.
Ils sont rejoints sur le papier par Matin Ghavami et Alexander Lew, étudiants diplômés du MIT ; Cameron Freer, chercheur scientifique ; Ulrich Schaechtel et Zane Shelby de Digital Garage ; Martin Rinard, professeur au MIT au département de génie électrique et d'informatique et membre du laboratoire d'informatique et d'intelligence artificielle (CSAIL) ; et Feras Saad, professeur adjoint à l'université Carnegie Mellon.
La recherche a récemment été présentée lors de la conférence ACM sur la conception et la mise en œuvre des langages de programmation (PLDI 2024).
Combinaison de modèles et de bases de données
SQL, qui signifie « langage de requête structuré », est un langage de programmation permettant de stocker et de manipuler des informations dans une base de données. Dans SQL, les utilisateurs peuvent poser des questions sur les données à l'aide de mots-clés, par exemple en additionnant, en filtrant ou en regroupant des enregistrements de base de données.
Cependant, l'interrogation d'un modèle peut fournir des informations plus approfondies, car les modèles peuvent saisir ce que les données impliquent pour un individu. Par exemple, une développeuse qui se demande si elle est sous-payée est probablement plus intéressée par ce que les données salariales signifient pour elle individuellement que par les tendances issues des enregistrements de la base de données.
Les chercheurs ont remarqué que SQL ne fournissait pas un moyen efficace d’intégrer des modèles d’IA probabilistes, mais en même temps, les approches qui utilisent des modèles probabilistes pour faire des inférences ne prenaient pas en charge les requêtes de base de données complexes.
Ils ont créé GenSQL pour combler cette lacune, permettant à quelqu'un d'interroger à la fois un ensemble de données et un modèle probabiliste à l'aide d'un langage de programmation formel simple mais puissant.
Un utilisateur GenSQL télécharge ses données et son modèle probabiliste, que le système intègre automatiquement. Il peut ensuite exécuter des requêtes sur des données qui reçoivent également des données du modèle probabiliste exécuté en arrière-plan. Cela permet non seulement des requêtes plus complexes, mais peut également fournir des réponses plus précises.
Par exemple, une requête dans GenSQL pourrait ressembler à ceci : « Quelle est la probabilité qu'un développeur de Seattle connaisse le langage de programmation Rust ? » Le simple fait d'examiner une corrélation entre des colonnes d'une base de données peut passer à côté de dépendances subtiles. L'intégration d'un modèle probabiliste peut capturer des interactions plus complexes.
De plus, les modèles probabilistes utilisés par GenSQL sont vérifiables, ce qui permet aux utilisateurs de voir quelles données le modèle utilise pour la prise de décision. De plus, ces modèles fournissent des mesures d'incertitude calibrées avec chaque réponse.
Par exemple, avec cette incertitude calibrée, si l’on interroge le modèle sur les résultats prévus de différents traitements contre le cancer pour un patient issu d’un groupe minoritaire sous-représenté dans l’ensemble de données, GenSQL indiquerait à l’utilisateur qu’il est incertain et à quel point il l’est, plutôt que de préconiser avec trop de confiance le mauvais traitement.
Des résultats plus rapides et plus précis
Pour évaluer GenSQL, les chercheurs ont comparé leur système à des méthodes de référence courantes qui utilisent des réseaux neuronaux. GenSQL était entre 1,7 et 6,8 fois plus rapide que ces approches, exécutant la plupart des requêtes en quelques millisecondes tout en fournissant des résultats plus précis.
Ils ont également appliqué GenSQL dans deux études de cas : l’une dans laquelle le système a identifié des données d’essais cliniques mal étiquetées et l’autre dans laquelle il a généré des données synthétiques précises qui ont capturé des relations complexes en génomique.
Les chercheurs souhaitent ensuite appliquer GenSQL à plus grande échelle pour réaliser des modélisations à grande échelle de populations humaines. Avec GenSQL, ils peuvent générer des données synthétiques pour tirer des conclusions sur des éléments tels que la santé et le salaire, tout en contrôlant les informations utilisées dans l'analyse.
Ils souhaitent également rendre GenSQL plus facile à utiliser et plus puissant en ajoutant de nouvelles optimisations et automatisations au système. À long terme, les chercheurs souhaitent permettre aux utilisateurs d'effectuer des requêtes en langage naturel dans GenSQL. Leur objectif est de développer à terme un expert en IA de type ChatGPT avec lequel on pourrait discuter de n'importe quelle base de données et qui baserait ses réponses sur des requêtes GenSQL.