Comment entraîner l'IA lorsque vous ne disposez pas de suffisamment de données

Comment entraîner l'IA lorsque vous ne disposez pas de suffisamment de données

L’intelligence artificielle excelle dans le tri des informations et la détection de modèles ou de tendances. Mais ces algorithmes d’apprentissage automatique doivent d’abord être entraînés avec de grandes quantités de données.

Alors que les chercheurs explorent les applications potentielles de l'IA, ils ont découvert des scénarios dans lesquels l'IA pourrait être vraiment utile, comme l'analyse de données d'images radiographiques pour rechercher des preuves de conditions rares ou la détection d'une espèce de poisson rare capturée sur un bateau de pêche commerciale. suffisamment de données pour entraîner avec précision les algorithmes.

Jenq-Neng Hwang, professeur d'électricité, d'informatique et d'ingénierie à l'Université de Washington, est spécialisé dans ces questions. Par exemple, Hwang et son équipe ont développé une méthode qui apprend à l’IA à surveiller le nombre de poses distinctes qu’un bébé peut réaliser tout au long de la journée. Il existe des ensembles de données de formation limités sur les bébés, ce qui signifie que les chercheurs ont dû créer un pipeline unique pour rendre leur algorithme précis et utile.

L'équipe a récemment présenté ces travaux à la conférence d'hiver IEEE/CVF sur les applications de la vision par ordinateur 2024. La recherche est disponible sur le arXiv serveur de préimpression.

UW News a parlé avec Hwang des détails du projet et d'autres domaines tout aussi difficiles auxquels l'équipe s'attaque.

Pourquoi est-il important de développer un algorithme pour suivre les poses de bébé ?

Nous avons entamé une collaboration avec l'École de médecine de l'UW et le laboratoire d'IA de l'Institut coréen de recherche en électronique et télécommunications. L'objectif du projet était d'essayer d'aider les familles ayant des antécédents d'autisme à savoir si leurs bébés étaient également susceptibles d'être autistes. Les bébés de moins de 9 mois n’ont pas encore vraiment de compétences linguistiques, il est donc difficile de savoir s’ils sont autistes ou non.

Les chercheurs ont développé un test, appelé Alberta Infant Motor Scale, qui catégorise les différentes poses que les bébés peuvent faire : si un bébé peut faire cela, il obtient deux points ; et s’ils y parviennent, ils obtiennent trois points ; et ainsi de suite. Ensuite, vous additionnez tous les points et si le bébé dépasse un certain seuil, il n'est probablement pas autiste.

Mais pour faire ce test, il faut qu’un médecin observe toutes les différentes poses. Cela devient un processus très fastidieux car parfois après trois ou quatre heures, on n'a toujours pas vu un bébé faire une pose précise. Peut-être que le bébé pouvait le faire, mais à ce moment-là, il ne voulait pas. Une solution pourrait être d’utiliser l’IA. Les parents ont souvent un babyphone à la maison. Le babyphone pourrait utiliser l’IA pour suivre de manière continue et cohérente les différentes poses qu’un bébé fait au cours d’une journée.

Pourquoi l’IA est-elle un bon choix pour cette tâche ?

Mon parcours étudie le traitement d'images traditionnel et la vision par ordinateur. Nous essayions d'apprendre aux ordinateurs à comprendre les poses humaines à partir de photos ou de vidéos, mais le problème est qu'il existe de nombreuses variantes. Par exemple, même la même personne portant des tenues différentes constitue une tâche difficile pour le traitement d'image traditionnel consistant à identifier correctement le coude de cette personne sur chaque photo.

Mais l’IA rend les choses tellement plus faciles. Ces modèles peuvent apprendre. Par exemple, vous pouvez entraîner un modèle d’apprentissage automatique avec une variété de séquences capturées par des mouvements montrant tous les types de personnes. Ces séquences pourraient être annotées avec les poses 3D correspondantes. Ce modèle pourrait alors apprendre à produire un modèle 3D de la pose d'une personne sur une séquence qu'il n'a jamais vue auparavant.

Mais dans ce cas, il n'y a pas beaucoup de séquences de bébés capturées en mouvement qui comportent également des annotations de pose 3D que vous pourriez utiliser pour entraîner votre modèle d'apprentissage automatique. Qu'as-tu fait à la place ?

Nous n'avons pas beaucoup d'annotations de pose 3D de vidéos de bébé pour entraîner le modèle d'apprentissage automatique pour des raisons de confidentialité. Il est également difficile de créer un ensemble de données dans lequel un bébé exécute toutes les poses possibles dont nous aurions besoin. Nos ensembles de données sont trop petits, ce qui signifie qu'un modèle formé avec eux ne permettrait pas d'estimer des poses fiables.

Mais nous disposons de nombreuses séquences de mouvements 3D annotées de personnes en général. Nous avons donc développé ce pipeline.

Nous avons d’abord utilisé la grande quantité de séquences de mouvements 3D de personnes ordinaires pour former un modèle d’IA génératif de pose 3D générique, similaire au modèle utilisé dans ChatGPT et d’autres types GPT-4 de grands modèles de langage.

Nous avons ensuite affiné notre modèle générique avec notre ensemble de données très limité de séquences de mouvements annotées du bébé. Le modèle générique peut alors s'adapter au petit ensemble de données et produire des résultats de haute qualité.

Existe-t-il d'autres tâches comme celle-ci : bon pour l'IA, mais il n'y a pas beaucoup de données pour entraîner un algorithme ?

Il existe de nombreux types de scénarios dans lesquels nous ne disposons pas de suffisamment d'informations pour entraîner le modèle. Un exemple est une maladie rare diagnostiquée par rayons X. La maladie est si rare que nous ne disposons pas de suffisamment d’images radiographiques de patients atteints de la maladie pour former un modèle. Mais nous avons beaucoup de radiographies de patients en bonne santé. Ainsi, nous pouvons à nouveau utiliser l’IA générative pour générer l’image radiologique synthétique correspondante sans maladie, qui peut ensuite être comparée à l’image malade pour identifier les régions pathologiques pour un diagnostic plus approfondi.

La conduite autonome est un autre exemple. Il y a tellement d’événements réels que vous ne pouvez pas créer. Par exemple, disons que vous êtes en train de conduire et que quelques feuilles soufflent devant la voiture. Si vous utilisez la conduite autonome, la voiture pourrait penser que quelque chose ne va pas et freiner brusquement, car elle n’a jamais vu ce scénario auparavant. Cela pourrait entraîner un accident.

Nous appelons ces événements « à longue traîne », ce qui signifie qu’il est peu probable qu’ils se produisent. Mais dans la vie quotidienne, nous voyons toujours des choses aléatoires comme celle-ci. Tant que nous n’aurons pas trouvé comment former les systèmes de conduite autonome pour gérer ce type d’événements, la conduite autonome ne pourra pas être utile. Notre équipe travaille sur ce problème en combinant les données d'une caméra ordinaire avec les informations radar. La caméra et le radar vérifient en permanence les décisions de chacun, ce qui peut aider un algorithme d'apprentissage automatique à comprendre ce qui se passe.

Les co-auteurs supplémentaires de l'article sur les poses de bébé sont Zhuoran Zhou, assistant de recherche de l'UW au département de génie électrique et informatique ; Zhongyu Jiang et Cheng-Yen Yang, doctorants de l'UW dans le département de génie électrique et informatique ; Wenhao Chai, étudiant à la maîtrise de l'UW étudiant le génie électrique et informatique ; et Lei Li, doctorant à l'Université de Copenhague.