La plate-forme peut rendre l'apprentissage automatique plus transparent et accessible

La plate-forme peut rendre l'apprentissage automatique plus transparent et accessible

Ce qui a commencé comme un doctorat. Le projet est devenu un site Web avec 120 000 visiteurs uniques chaque année. Avec la plateforme OpenML, le chercheur Jan Van Rijn contribue à l'ouverture de la science, visant à rendre l'apprentissage automatique plus transparent, accessible et juste.

De la recherche climatique à la science du comportement: l'apprentissage automatique (ML) joue un rôle de plus en plus important dans la science. Les chercheurs l'utilisent pour découvrir des modèles dans de grands ensembles de données, faire des prédictions ou simuler des processus complexes. Mais malgré cette croissance, les résultats de la ML peuvent toujours être difficiles à évaluer ou à reproduire.

« Il n'y a aucun moyen standard de partager des données, des modèles et des résultats », explique Jan van Rijn. « C'est dommage, car si nous voulons être pris au sérieux en tant que champ, nous devons nous assurer que notre travail est vérifiable et reproductible. »

Qu'est-ce que l'apprentissage automatique?

L'apprentissage automatique est un moyen pour les ordinateurs d'apprendre des exemples, comme un programme de messagerie qui reconnaît le spam basé sur des milliers de messages précédents. Le système apprend à repérer les modèles seuls, sans que chaque règle soit programmée manuellement. Dans un sens, cela fonctionne comme l'apprentissage humain, juste à une échelle beaucoup plus grande. Les applications sont partout: de la reconnaissance faciale et des diagnostics médicaux aux recommandations Netflix.

Un espace de travail partagé pour l'apprentissage automatique

Pour rendre l'apprentissage automatique plus transparent, Van Rijn a fondé OpenML il y a plus de dix ans: un espace de travail numérique partagé où les chercheurs et les étudiants peuvent télécharger leurs ensembles de données, algorithmes et expériences. Tout le monde peut parcourir, contribuer et apprendre des approches des autres. La plate-forme correspond parfaitement aux principes de la science ouverte: la science accessible, vérifiable et réutilisable.

Et il y a clairement un besoin pour cela. OpenML est maintenant utilisé dans le monde entier et a déjà contribué à environ 1 500 publications scientifiques. Van Rijn et ses collègues chercheurs ont récemment regardé en arrière sur dix ans d'OpenML dans une publication dans le Journa Motifs. Ils ont identifié trois principales façons dont les chercheurs utilisent la plate-forme: améliorer les algorithmes, pour obtenir des informations de niveau supérieur grâce à la méta-apprentissage et à l'enseignement.

« OpenML est souvent utilisé dans les cours sur l'apprentissage automatique et la recherche reproductible », dit-il.

«  Ce n'est pas que les chercheurs ne veulent pas partager leur code ''

Les pratiques ouvertes sont encore loin des standard. « En science, il existe de nombreuses cultures de recherche différentes », explique Van Rijn. « Cela apporte de précieuses perspectives, mais cela signifie également qu'il y a un manque de normes partagées. La création et l'application d'une norme commune prend beaucoup de temps et d'efforts. Ce n'est pas que les chercheurs ne veulent pas partager leur code – c'est juste plus de travail. Même avec une plate-forme comme la nôtre. »

Pourtant, Van Rijn s'en tient à sa mission. « L'objectif est quelque chose comme Wikipedia pour l'apprentissage automatique – mais pas seulement avec du texte. Aussi avec les données, les modèles et les expériences. Tout ce dont vous avez besoin pour comprendre, reproduire et construire sur la recherche. »

OpenML est plus qu'une simple plateforme

Il voit la science ouverte devenir progressivement établie. « Nos publications sont citées plus souvent, ce qui aide. Mais il doit également y avoir un soutien structurel – des universités et des bailleurs de fonds. Par exemple, en faisant de la condition de partager ouvertement votre code et vos données. »

Donc OpenML est plus qu'une simple plate-forme. C'est un pas vers une culture scientifique construite sur la collaboration, la transparence et la réutilisation. « Il existe d'autres plateformes comme la nôtre », explique Van Rijn. « Notre objectif est de décomposer ces silos et de les connecter. Afin que le partage de la recherche devienne encore plus facile – pour tout le monde. »