L'IA et les nouvelles normes promettent de rendre les données scientifiques plus utiles en les rendant réutilisables et accessibles

L’IA et les nouvelles normes promettent de rendre les données scientifiques plus utiles en les rendant réutilisables et accessibles

Crédit : Pixabay/CC0 Domaine public

Chaque fois qu’un scientifique mène une expérience, ou qu’un spécialiste des sciences sociales fait une enquête, ou qu’un chercheur en sciences humaines analyse un texte, ils génèrent des données. La science repose sur des données. Sans elles, nous n’aurions pas les images époustouflantes du télescope spatial James Webb, les vaccins contre les maladies ou l’arbre évolutif qui retrace les lignées de toute vie.

Cette bourse génère une quantité inimaginable de données. Alors, comment les chercheurs peuvent-ils en assurer le suivi ? Et comment s’assurent-ils qu’il est accessible à la fois aux humains et aux machines ?

Pour améliorer et faire progresser la science, les scientifiques doivent être capables de reproduire les données des autres ou de combiner des données provenant de plusieurs sources pour apprendre quelque chose de nouveau.

Tout type de partage nécessite une gestion. Si votre voisin a besoin d’emprunter un outil ou un ingrédient, vous devez savoir si vous l’avez et où vous le rangez. Les données de recherche peuvent se trouver sur l’ordinateur portable d’un étudiant diplômé, enfouies dans la collection USB d’un professeur ou enregistrées de manière plus permanente dans un référentiel de données en ligne.

Je suis un informaticien qui étudie d’autres scientifiques. Plus précisément, j’étudie la façon dont les scientifiques pensent les données de recherche et la manière dont ils interagissent avec leurs propres données et celles des autres. J’enseigne également aux étudiants comment gérer leurs propres données ou celles des autres de manière à faire progresser les connaissances.

Gestion des données de recherche

La gestion des données de recherche est un domaine d’études axé sur la découverte et la réutilisation des données. En tant que domaine, il englobe les services de données de recherche, les ressources et la cyberinfrastructure. Par exemple, un type d’infrastructure, le référentiel de données, offre aux chercheurs un endroit où déposer leurs données en vue d’un stockage à long terme afin que d’autres puissent les retrouver. En bref, la gestion des données de recherche englobe le cycle de vie des données, du berceau à la tombe jusqu’à la réincarnation dans la prochaine étude.

Une bonne gestion des données de recherche permet également aux scientifiques d’utiliser les données déjà disponibles plutôt que de se remémorer des données qui existent déjà, ce qui permet d’économiser du temps et des ressources.

Face à la politisation croissante de la science, de nombreuses organisations scientifiques nationales et internationales ont renforcé leurs normes en matière de responsabilité et de transparence. Les agences fédérales et d’autres grands bailleurs de fonds de la recherche, comme les National Institutes of Health, donnent désormais la priorité à la gestion des données de recherche et exigent que les chercheurs disposent d’un plan de gestion des données avant de pouvoir recevoir des fonds.

Les scientifiques et les gestionnaires de données peuvent travailler ensemble pour reconcevoir les systèmes utilisés par les scientifiques pour faciliter la découverte et la préservation des données. En particulier, l’intégration de l’IA peut rendre ces données plus accessibles et réutilisables.

Gestion des données artificiellement intelligente

Bon nombre de ces nouvelles normes en matière de gestion des données de recherche découlent également d’une utilisation accrue de l’IA, notamment de l’apprentissage automatique, dans les domaines axés sur les données. L’IA rend hautement souhaitable que toutes les données soient exploitables par les machines, c’est-à-dire utilisables par les machines sans intervention humaine. Désormais, les chercheurs peuvent considérer les machines non seulement comme des outils, mais aussi comme des réutilisateurs et des collaborateurs de données autonomes potentiels.

La clé des données exploitables par la machine réside dans les métadonnées. Les métadonnées sont les descriptions que les scientifiques définissent pour leurs données et peuvent inclure des éléments tels que le créateur, la date, la couverture et le sujet. Des métadonnées minimales sont peu utiles, mais des métadonnées normalisées correctes et complètes rendent les données plus utiles à la fois pour les personnes et les machines.

Il faut un cadre de gestionnaires de données de recherche et de bibliothécaires pour faire des données exploitables par la machine une réalité. Ces professionnels de l’information travaillent à faciliter la communication entre les scientifiques et les systèmes en garantissant la qualité, l’exhaustivité et la cohérence des données partagées.

Les principes de données FAIR, créés par un groupe de chercheurs appelé FORCE11 en 2016 et utilisés dans le monde entier, fournissent des conseils sur la manière de permettre la réutilisation des données par les machines et les humains. Les données FAIR sont trouvables, accessibles, interopérables et réutilisables, ce qui signifie qu’elles disposent de métadonnées robustes et complètes.

Dans le passé, j’ai étudié comment les scientifiques découvrent et réutilisent les données. J’ai découvert que les scientifiques ont tendance à utiliser des raccourcis mentaux lorsqu’ils recherchent des données : par exemple, ils peuvent revenir à des sources familières et fiables ou rechercher certains termes clés qu’ils ont déjà utilisés. Idéalement, mon équipe pourrait construire ce processus décisionnel d’experts et supprimer autant de biais que possible pour améliorer l’IA. L’automatisation de ces raccourcis mentaux devrait réduire la tâche fastidieuse de localiser les bonnes données.

Plans de gestion des données

Mais il reste encore un élément de la gestion des données de recherche que l’IA ne peut pas prendre en charge. Les plans de gestion des données décrivent quoi, où, quand, pourquoi et qui gère les données de recherche. Les scientifiques les remplissent et décrivent les rôles et les activités de gestion des données de recherche pendant et longtemps après la fin de la recherche. Ils répondent à des questions telles que « Qui est responsable de la conservation à long terme », « Où vivront les données », « Comment puis-je assurer la sécurité de mes données » et « Qui paie pour tout cela ? »

Les propositions de subventions pour presque toutes les agences de financement dans les pays nécessitent désormais des plans de gestion des données. Ces plans signalent aux scientifiques que leurs données sont suffisamment précieuses et importantes pour être partagées par la communauté. En outre, les plans aident les agences de financement à garder un œil sur la recherche et à enquêter sur toute mauvaise conduite potentielle. Mais surtout, ils aident les scientifiques à s’assurer que leurs données restent accessibles pendant de nombreuses années.

Rendre toutes les données de recherche aussi JUSTES et ouvertes que possible améliorera le processus scientifique. Et l’accès à davantage de données ouvre la possibilité de discussions plus éclairées sur la manière de promouvoir le développement économique, d’améliorer la gestion des ressources naturelles, d’améliorer la santé publique et de développer de manière responsable et éthique des technologies qui amélioreront la vie. Toute intelligence, artificielle ou non, bénéficiera d’une meilleure organisation, accès et utilisation des données de recherche.