Les chercheurs créent un ensemble de données pour résoudre le problème de reconnaissance d’objets dans l’apprentissage automatique

Les chercheurs créent un ensemble de données pour résoudre le problème de reconnaissance d’objets dans l’apprentissage automatique

Quand une pomme n’est-elle pas une pomme ? Si vous êtes un ordinateur, la réponse est quand il a été réduit de moitié.

Bien que des progrès significatifs aient été réalisés dans le domaine de la vision par ordinateur ces dernières années, apprendre à un ordinateur à identifier des objets lorsqu’ils changent de forme reste difficile à atteindre dans le domaine, en particulier avec les systèmes d’intelligence artificielle (IA). Aujourd’hui, des chercheurs en informatique de l’Université du Maryland s’attaquent au problème en utilisant des objets que nous modifions quotidiennement : les fruits et légumes.

Leur produit est Chop & Learn, un ensemble de données qui apprend aux systèmes d’apprentissage automatique à reconnaître les produits sous diverses formes, même lorsqu’ils sont pelés, tranchés ou coupés en morceaux.

Le projet a été présenté plus tôt ce mois-ci lors de la Conférence internationale 2023 sur la vision par ordinateur à Paris.

« Vous et moi pouvons visualiser à quoi ressembleraient des tranches de pomme ou d’orange par rapport à un fruit entier, mais les modèles d’apprentissage automatique nécessitent beaucoup de données pour apprendre à interpréter cela », a déclaré Nirat Saini, doctorant en cinquième année en informatique et responsable du projet. auteur du papier. « Nous devions trouver une méthode pour aider l’ordinateur à imaginer des scénarios invisibles de la même manière que les humains. »

Pour développer les ensembles de données, Saini et ses collègues doctorants en informatique Hanyu Wang et Archana Swaminathan se sont filmés en train de couper 20 types de fruits et légumes dans sept styles à l’aide de caméras vidéo installées sous quatre angles.

La variété des angles, des personnes et des styles de préparation des aliments est nécessaire pour obtenir un ensemble de données complet, a déclaré Saini.

« Quelqu’un peut éplucher sa pomme ou sa pomme de terre avant de la couper, alors que d’autres ne le font pas. L’ordinateur va le reconnaître différemment », a-t-elle déclaré.

Outre Saini, Wang et Swaminathan, l’équipe Chop & Learn comprend les doctorants en informatique Vinoj Jayasundara et Bo He ; Kamal Gupta Ph.D. ’23, maintenant chez Tesla Optimus ; et leur conseiller Abhinav Shrivastava, professeur adjoint d’informatique.

« Être capable de reconnaître des objets lorsqu’ils subissent différentes transformations est crucial pour construire des systèmes de compréhension vidéo à long terme », a déclaré Shrivastava, qui a également un poste à l’Institut d’études informatiques avancées de l’Université du Maryland. « Nous pensons que notre ensemble de données est un bon début pour réaliser de réels progrès sur le nœud fondamental de ce problème. »

À court terme, a déclaré Shrivastava, l’ensemble de données Chop & Learn contribuera à l’avancement des tâches d’image et de vidéo telles que la reconstruction 3D, la génération de vidéos, ainsi que la synthèse et l’analyse de vidéos à long terme.

Ces avancées pourraient un jour avoir un impact plus large sur des applications telles que les dispositifs de sécurité des véhicules sans conducteur ou aider les responsables à identifier les menaces pour la sécurité publique, a-t-il déclaré.

Et même si ce n’est pas l’objectif immédiat, a déclaré Shrivastava, Chop & Learn pourrait contribuer au développement d’un chef robotique qui pourrait transformer les produits en repas sains dans votre cuisine sur commande.