L'algorithme d'apprentissage automatique permet des prédictions plus rapides et plus précises sur de petits ensembles de données tabulaires

L’algorithme d’apprentissage automatique permet des prédictions plus rapides et plus précises sur de petits ensembles de données tabulaires

Combler les lacunes des ensembles de données ou identifier les valeurs aberrantes : tel est le domaine de l’algorithme d’apprentissage automatique TabPFN, développé par une équipe dirigée par le professeur Frank Hutter de l’Université de Fribourg. Cette intelligence artificielle (IA) utilise des méthodes d’apprentissage inspirées de grands modèles de langage. TabPFN apprend les relations causales à partir de données synthétiques et est donc plus susceptible de faire des prédictions correctes que les algorithmes standards utilisés jusqu’à présent.

Les résultats ont été publiés dans la revue Nature. Outre l’Université de Fribourg, le Centre médical universitaire de Fribourg, la Charité de médecine universitaire de Berlin, la startup fribourgeoise PriorLabs et l’Institut ELLIS de Tübingen ont été impliqués.

Les ensembles de données, qu’il s’agisse des effets de certains médicaments ou des trajectoires de particules dans les accélérateurs du CERN, sont rarement complets ou exempts d’erreurs. Par conséquent, une partie importante de l’analyse des données scientifiques consiste à reconnaître les valeurs aberrantes en tant que telles ou à prédire des estimations significatives pour les valeurs manquantes. Les algorithmes existants, tels que XGBoost, fonctionnent bien avec de grands ensembles de données, mais sont souvent peu fiables avec des volumes de données plus petits.

Avec le modèle TabPFN, Hutter et son équipe résolvent ce problème en entraînant l’algorithme sur des ensembles de données créés artificiellement et modélisés sur des scénarios réels. Pour ce faire, les scientifiques créent des tableaux de données dans lesquels les entrées des différentes colonnes du tableau sont liées de manière causale. TabPFN a été formé avec 100 millions de ces ensembles de données synthétiques. Cette formation apprend au modèle à évaluer diverses relations causales possibles et à les utiliser pour ses prédictions.

Le modèle surpasse particulièrement les autres algorithmes pour les petites tables comportant moins de 10 000 lignes, de nombreuses valeurs aberrantes ou un grand nombre de valeurs manquantes. Par exemple, TabPFN ne nécessite que 50 % des données pour obtenir la même précision que le meilleur modèle précédent. De plus, TabPFN est plus efficace que les algorithmes précédents pour gérer de nouveaux types de données. Au lieu de démarrer un nouveau processus d’apprentissage pour chaque ensemble de données, le modèle peut être adapté à des ensembles de données similaires.

Ce processus est similaire à l’adaptation de modèles de langage à poids ouverts comme Llama, développé par Meta. Le modèle permet également de dériver la densité de probabilité d’un ensemble de données et d’en générer de nouvelles données ayant des propriétés similaires.

« La possibilité d’utiliser TabPFN pour calculer de manière fiable et rapide des prédictions à partir de données tabulaires est bénéfique pour de nombreuses disciplines, de la biomédecine à l’économie et à la physique », explique Hutter. « TabPFN fournit de meilleurs résultats plus rapidement et, comme il nécessite peu de ressources et de données, il est idéal pour les petites entreprises et les petites équipes. »

Le code et les instructions sur la façon de l’utiliser peuvent être trouvés ici. Dans la prochaine étape, les chercheurs développeront davantage l’IA afin qu’elle puisse faire les meilleures prédictions possibles, même avec des ensembles de données plus importants.