Des chercheurs apprennent à l'IA à repérer ce que vous dessinez
Une nouvelle façon d'enseigner l'intelligence artificielle (IA) à comprendre les dessins au trait humains, même s'ils proviennent de non-artistes, a été développée par une équipe de l'Université de Surrey et de l'Université de Stanford.
Le nouveau modèle se rapproche des niveaux de performance humains dans la reconnaissance des croquis de scène.
Le Dr Yulia Gryaditskaya, chargée de cours au Centre de traitement de la vision, de la parole et du signal (CVSSP) de Surrey et au Surrey Institute for People-Centered AI (PAI), a déclaré : « Le croquis est un langage puissant de communication visuelle. Il est parfois encore plus expressif et flexible que la langue parlée.
« Le développement d'outils permettant de comprendre les croquis est une étape vers une interaction homme-machine plus puissante et des flux de conception plus efficaces. Les exemples incluent la possibilité de rechercher ou de créer des images en esquissant quelque chose. »
Des personnes de tous âges et de tous horizons utilisent les dessins pour explorer de nouvelles idées et communiquer. Pourtant, les systèmes d’IA ont toujours eu du mal à comprendre les croquis.
Il faut apprendre à l’IA à comprendre les images. Habituellement, cela implique un processus fastidieux de collecte d’étiquettes pour chaque pixel de l’image. L’IA apprend ensuite de ces étiquettes.
Au lieu de cela, l’équipe a enseigné l’IA en utilisant une combinaison de croquis et de descriptions écrites. Il a appris à regrouper les pixels, en les comparant à l'une des catégories d'une description.
L’IA qui en a résulté a montré une compréhension beaucoup plus riche et plus humaine de ces dessins que les approches précédentes. Il a correctement identifié et étiqueté les cerfs-volants, les arbres, les girafes et autres objets avec une précision de 85 %. Cela a surpassé les autres modèles reposant sur des pixels étiquetés.
En plus d'identifier les objets dans une scène complexe, il pouvait identifier quels traits de stylo étaient destinés à représenter chaque objet. La nouvelle méthode fonctionne bien avec des croquis informels dessinés par des non-artistes, ainsi qu'avec des dessins d'objets sur lesquels elle n'a pas été explicitement formée.
Le professeur Judith Fan, professeur adjoint de psychologie à l'université de Stanford, a déclaré : « Le dessin et l'écriture font partie des activités les plus typiquement humaines et sont depuis longtemps utiles pour capturer les observations et les idées des gens.
« Ce travail représente un progrès passionnant vers des systèmes d'IA qui comprennent l'essence des idées que les gens tentent de transmettre, qu'ils utilisent des images ou du texte. »
La recherche fait partie de l'Institute for People-Centered AI de Surrey, et en particulier de son programme SketchX. Grâce à l'IA, SketchX cherche à comprendre la façon dont nous voyons le monde à travers la façon dont nous le dessinons.
Le professeur Yi-Zhe Song, codirecteur de l'Institut pour l'IA centrée sur les personnes et responsable de SketchX, a déclaré : « Cette recherche est un excellent exemple de la façon dont l'IA peut améliorer les activités humaines fondamentales comme le dessin. précision, cette technologie a un immense potentiel pour renforcer la créativité naturelle des gens, quelle que soit leur capacité artistique. »
L'étude est publiée sur le arXiv serveur de préimpression, et l'article sera présenté à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR 2024), qui s'est tenue à Seattle du 17 au 21 juin 2024.