Une approche simple permet une publication directe des résultats scientifiques lisibles par la machine

Une approche simple permet une publication directe des résultats scientifiques lisibles par la machine

Par Sandra Niemeyer, Leibniz Informationszentrum Technik und naturwissenschaften / tib – Leibniz Information Center for Science and Technology

Malgré des progrès significatifs dans les technologies numériques, les résultats scientifiques modernes sont toujours communiqués à l’aide de méthodes archaïques. En près de 400 ans, la littérature scientifique est passée d’articles imprimés physiquement aux PDF, mais ces documents électroniques sont toujours basés sur du texte et donc non lisibles par machine. Cela signifie que votre ordinateur ne peut pas interpréter les informations qu’ils contiennent sans assistance humaine.

Avec des millions d’articles scientifiques publiés chaque année, la nécessité de la récupération et du traitement des informations assistées par machine se développe rapidement. La plupart des efforts pour répondre à ce besoin ont tenté de former des machines à interpréter des informations textuelles à l’aide d’approches d’intelligence artificielle (IA), généralement avec un succès limité.

Récemment, une équipe de recherche du TIB – Leibniz Information Center for Science and Technology a proposé de s’attaquer au problème avec un état d’esprit différent. Plutôt que d’essayer d’enseigner aux machines notre langue, pourquoi ne pas produire de la science dans une langue qu’ils comprennent déjà?

Dans un article publié dans Données scientifiquesl’équipe présente Reborn Articles, une approche open source qui permet aux chercheurs de produire des résultats scientifiques dans un format lisible par machine.

Le Dr Markus Stocker, premier auteur et chef des infrastructures de connaissances en laboratoire du TIB, a expliqué: « De nombreux scientifiques utilisent déjà des outils d’analyse de données qui produisent des résultats de résultats.

« Ne serait-il pas plus efficace si nous pouvions publier des résultats d’une manière qui préserve leur structure originale? C’est ce que les articles renaiss permettent. »

Comment fonctionnent les articles renaissants

L’approche des articles Reborn fonctionne avec des outils d’analyse de données communs comme R et Python, et permet aux chercheurs de produire des résultats qui peuvent être facilement lus par les humains et les machines. Cela signifie que d’autres chercheurs peuvent reproduire les analyses elles-mêmes et même télécharger les données de l’article Reborn en tant que fichiers Excel ou CSV, qui sont également lisibles par la machine.

Cela peut sembler trivial, mais les principales alternatives pour la réutilisation des données publiées sont de copier et de coller les valeurs individuelles à partir d’articles PDF à la main, qui prend du temps et sujets aux erreurs, ou utilisent des outils basés sur l’IA, qui sont inexacts.

Surmonter la fixation actuelle sur l’extraction d’informations basée sur l’IA a été un défi lors de l’explication du fonctionnement de l’approche. En tant que co-auteur et chercheur postdoctoral du TIB, le Dr Lauren Snyder, les outils d’extraction basés sur l’IA sont un sujet brûlant. Il semble que chaque domaine de la science cherche des moyens d’utiliser de grands modèles de langage et d’autres approches liées à l’extraction. Bien qu’elles soient des outils puissants dans certaines situations, je me demande si la fixation sur eux ne nous rend pas un mauvais service.

« Imaginez rénover votre maison et essayer de s’attaquer à chaque emploi avec des outils de forage. Cela n’a tout simplement pas de sens. Je crains que cette fixation sur l’extraction d’informations nous amènera à manquer des opportunités pour développer des outils qui peuvent lutter contre certaines tâches plus efficacement. J’espère que notre travail inspirera d’autres à commencer à penser au-delà des approches grand public. »

Le Dr Stocker a ajouté: «Les gens ont souligné les inefficacités de la façon dont nous produisons les connaissances scientifiques depuis au moins un quart de siècle. Au cours de ce temps, l’extraction basée sur l’IA n’a pas résolu le problème et si nous continuons avec la mentalité que l’extraction est tout ce que nous pouvons faire, au milieu du siècle, nous pourrions toujours se débattre avec les mêmes problèmes.

« Si à la place, nous avions commencé à utiliser des technologies existantes depuis longtemps pour nous assurer que les connaissances scientifiques sont produites et lisibles par la machine publiée, nous aurions aujourd’hui de vastes bases de données de connaissances organisées. Bien que nous soyons un peu en retard au jeu, chaque fois est un bon moment pour commencer par des approches perturbatrices. »

Fourni par Leibniz Informationszentrum Technik und naturwissenschaften / tib – Leibniz Information Center for Science and Technology