Un nouveau logiciel permet aux non-spécialistes de former intuitivement des machines à l'aide de gestes

Dans chaque image du jeu de données personnalisé HuTics, les mains des utilisateurs sont visualisées en bleu et l’objet en vert. HuTics est utilisé pour former un modèle d’apprentissage automatique. Crédit : ©2022 Yatani et Zhou

De nombreux systèmes informatiques avec lesquels les gens interagissent quotidiennement nécessitent des connaissances sur certains aspects du monde, ou modèles, pour fonctionner. Ces systèmes doivent être entraînés et doivent souvent apprendre à reconnaître des objets à partir de données vidéo ou d’images. Ces données contiennent fréquemment du contenu superflu qui réduit la précision des modèles. Ainsi, les chercheurs ont trouvé un moyen d’intégrer des gestes naturels de la main dans le processus d’enseignement. De cette façon, les utilisateurs peuvent plus facilement enseigner aux machines les objets, et les machines peuvent également apprendre plus efficacement.

Vous avez probablement déjà entendu le terme apprentissage automatique, mais connaissez-vous l’enseignement automatique ? L’apprentissage automatique est ce qui se passe dans les coulisses lorsqu’un ordinateur utilise des données d’entrée pour former des modèles qui peuvent ensuite être utilisés pour exécuter des fonctions utiles. Mais l’apprentissage automatique est la partie un peu moins explorée du processus, qui traite de la façon dont l’ordinateur obtient ses données d’entrée pour commencer.

Dans le cas des systèmes visuels, par exemple ceux qui peuvent reconnaître des objets, les gens doivent montrer des objets à un ordinateur pour qu’il puisse en savoir plus sur eux. Mais il y a des inconvénients à la façon dont cela est généralement fait que les chercheurs du Laboratoire des systèmes intelligents interactifs de l’Université de Tokyo ont cherché à améliorer.

« Dans un scénario typique de formation d’objets, les gens peuvent tenir un objet devant une caméra et le déplacer afin qu’un ordinateur puisse l’analyser sous tous les angles pour construire un modèle », a déclaré l’étudiant diplômé Zhongyi Zhou.

« Cependant, les machines n’ont pas notre capacité évoluée à isoler les objets de leur environnement, de sorte que les modèles qu’elles créent peuvent inclure par inadvertance des informations inutiles provenant des arrière-plans des images de formation. Cela signifie souvent que les utilisateurs doivent passer du temps à affiner les modèles générés, ce qui peut être plutôt un tâche technique et chronophage. Nous avons pensé qu’il devait y avoir une meilleure façon de faire cela, qui soit meilleure pour les utilisateurs et les ordinateurs, et avec notre nouveau système, LookHere, je pense que nous l’avons trouvé.

Zhou, en collaboration avec le professeur agrégé Koji Yatani, a créé LookHere pour résoudre deux problèmes fondamentaux de l’enseignement automatique : premièrement, le problème de l’efficacité de l’enseignement, visant à minimiser le temps des utilisateurs, et les connaissances techniques requises. Et deuxièmement, l’efficacité de l’apprentissage – comment garantir de meilleures données d’apprentissage pour les machines à partir desquelles créer des modèles.

LookHere y parvient en faisant quelque chose de nouveau et étonnamment intuitif. Il intègre les gestes de la main des utilisateurs dans la façon dont une image est traitée avant que la machine ne l’intègre dans son modèle, connu sous le nom de HuTics. Par exemple, un utilisateur peut pointer ou présenter un objet à la caméra d’une manière qui met l’accent sur son importance par rapport aux autres éléments de la scène. C’est exactement ainsi que les gens peuvent se montrer des objets. Et en éliminant les détails superflus, grâce à l’accent mis sur ce qui est réellement important dans l’image, l’ordinateur obtient de meilleures données d’entrée pour ses modèles.

« L’idée est assez simple, mais la mise en œuvre a été très difficile », a déclaré Zhou. « Tout le monde est différent et il n’y a pas d’ensemble standard de gestes de la main. Ainsi, nous avons d’abord collecté 2 040 exemples de vidéos de 170 personnes présentant des objets à la caméra dans HuTics. Ces actifs ont été annotés pour marquer ce qui faisait partie de l’objet et quelles parties du l’image n’étaient que les mains de la personne.

« LookHere a été formé avec HuTics et, par rapport à d’autres approches de reconnaissance d’objets, peut mieux déterminer quelles parties d’une image entrante doivent être utilisées pour créer ses modèles. Pour s’assurer qu’elle est aussi accessible que possible, les utilisateurs peuvent utiliser leur smartphone pour travailler avec LookHere et le traitement proprement dit est effectué sur des serveurs distants. Nous avons également publié notre code source et notre ensemble de données afin que d’autres puissent s’en servir s’ils le souhaitent.

En tenant compte de la réduction de la demande de temps des utilisateurs que LookHere offre aux gens, Zhou et Yatani ont découvert qu’il peut créer des modèles jusqu’à 14 fois plus rapidement que certains systèmes existants. À l’heure actuelle, LookHere traite des machines d’enseignement sur les objets physiques et utilise exclusivement des données visuelles pour l’entrée. Mais en théorie, le concept peut être élargi pour utiliser d’autres types de données d’entrée telles que des données sonores ou scientifiques. Et les modèles fabriqués à partir de ces données bénéficieraient également d’améliorations similaires en termes de précision.

La recherche a été publiée dans le cadre de Le 35e symposium annuel ACM sur les logiciels et technologies d’interface utilisateur.

Fourni par l’Université de Tokyo