Un nouveau modèle d'IA modulaire
Des chercheurs de l’EPFL ont développé un nouveau modèle d’apprentissage automatique modulaire unique pour une prise de décision flexible. Il est capable de saisir n'importe quel mode de texte, vidéo, image, son et série chronologique, puis de produire n'importe quel nombre ou combinaison de prédictions.
Nous avons tous entendu parler des grands modèles de langage, ou LLM, des modèles d'apprentissage profond à grande échelle formés sur d'énormes quantités de texte qui constituent la base des chatbots comme ChatGPT d'OpenAI. Les modèles multimodaux (MM) de nouvelle génération peuvent apprendre à partir d’entrées autres que le texte, notamment la vidéo, les images et le son.
La création de modèles MM à plus petite échelle pose des défis importants, notamment celui de la robustesse face aux informations manquantes non aléatoires. Il s'agit d'informations qu'un modèle ne possède pas, souvent en raison d'une disponibilité biaisée des ressources. Il est donc essentiel de s’assurer que le modèle n’apprenne pas les modèles d’absences biaisées lors de ses prédictions.
MultiModN inverse la situation
En réponse à ce problème, des chercheurs des laboratoires Machine Learning for Education (ML4ED) et Machine Learning and Optimization (MLO) de la Faculté d'informatique et de communication de l'EPFL ont développé et testé exactement le contraire d'un grand modèle de langage.
Dirigé par le professeur Mary-Anne Hartley, responsable du laboratoire pour les technologies intelligentes de santé mondiale hébergé conjointement au MLO et à la Yale School of Medicine, et par le professeur Tanja Käser, responsable du ML4ED, MultiModN est un modèle multimodal modulaire unique. Il a été présenté récemment lors de la conférence NeurIPS2023, et un article sur la technologie est publié sur le arXiv serveur de préimpression.
Comme les modèles multimodaux existants, MultiModN peut apprendre du texte, des images, de la vidéo et du son. Contrairement aux MM existants, il est composé d'un nombre illimité de modules plus petits, autonomes et spécifiques à une entrée qui peuvent être sélectionnés en fonction des informations disponibles, puis enchaînés ensemble dans une séquence de n'importe quel nombre, combinaison ou type d'entrée. . Il peut ensuite générer n’importe quel nombre ou combinaison de prédictions.
« Nous avons évalué MultiModN sur dix tâches du monde réel, notamment l'aide au diagnostic médical, la prévision des performances académiques et les prévisions météorologiques. Grâce à ces expériences, nous pensons que MultiModN est la première approche de modélisation multimodale intrinsèquement interprétable et résistante au MNAR », a expliqué Vinitra Swamy, un doctorat. étudiant avec ML4ED et MLO et co-premier auteur du projet.
Un premier cas d’usage : la prise de décision médicale
Le premier cas d’utilisation de MultiModN sera celui d’un système d’aide à la décision clinique pour le personnel médical dans les contextes à faibles ressources. Dans le domaine des soins de santé, les données cliniques sont souvent manquantes, peut-être en raison de contraintes de ressources (un patient ne peut pas se permettre le test) ou d'une abondance de ressources (le test est redondant en raison d'un test de qualité supérieure qui a été effectué). MultiModN est capable d'apprendre de ces données du monde réel sans adopter leurs biais, ainsi que d'adapter les prédictions à n'importe quelle combinaison ou nombre d'entrées.
« Le manque de données est une caractéristique des données dans les contextes à faibles ressources et lorsque les modèles apprennent ces modèles de manque, ils peuvent encoder des biais dans leurs prédictions. Le besoin de flexibilité face à des ressources disponibles de manière imprévisible est ce qui a inspiré MultiModN », a expliqué Hartley, qui est également médecin.
Du laboratoire à la vraie vie
La publication ne constitue cependant que la première étape vers la mise en œuvre. Hartley a travaillé avec des collègues du CHUV et de l'Inselspital de l'hôpital universitaire de Berne à Berne pour mener des études cliniques axées sur le diagnostic de la pneumonie et de la tuberculose dans des contextes à faibles ressources. Ils recrutent des milliers de patients en Afrique du Sud, en Tanzanie, en Namibie et au Bénin. .
Les équipes de recherche ont entrepris une vaste initiative de formation, apprenant à plus de 100 médecins à collecter systématiquement des données multimodales, notamment des images et des vidéos échographiques, afin que MultiModN puisse être formé à être sensible aux données réelles provenant de régions à faibles ressources.
« Nous collectons exactement le type de données multimodales complexes pour lesquelles MultiModN est conçu », a déclaré le Dr Noémie Boillat-Blanco, médecin infectiologue au CHUV. « Nous sommes ravis de voir un modèle qui apprécie la complexité des ressources manquantes dans nos contextes et l'absence systématique d'évaluations cliniques de routine », a ajouté le Dr Kristina Keitel de l'Inselspital de l'hôpital universitaire de Berne.
Le développement et la formation de MultiModN s'inscrivent dans la continuité des efforts de l'EPFL pour adapter les outils de machine learning à la réalité et pour le bien public. Cela intervient peu de temps après le lancement de Meditron, le LLM open source le plus performant au monde également conçu pour aider à guider la prise de décision clinique.