Des chercheurs utilisent l'IA pour identifier des matériaux similaires dans des images

Notre ensemble de données synthétiques. Nous montrons des échantillons de notre jeu de données d’entraînement synthétique. En haut : trois exemples d’images rendues. En bas : les cartes d’identification de matériau correspondantes, les identifiants sont mappés sur des couleurs aléatoires. Crédit : https://prafullsharma.net/materialistic/materialistic_camera_ready.pdf

Un robot manipulant des objets tout en travaillant, par exemple, dans une cuisine, bénéficiera de la compréhension des éléments qui sont composés des mêmes matériaux. Avec cette connaissance, le robot saura exercer une force similaire s’il ramasse une petite noisette de beurre dans un coin ombragé du comptoir ou un bâton entier à l’intérieur du réfrigérateur bien éclairé.

L’identification d’objets dans une scène qui sont composés du même matériau, connue sous le nom de sélection de matériaux, est un problème particulièrement difficile pour les machines car l’apparence d’un matériau peut varier considérablement en fonction de la forme de l’objet ou des conditions d’éclairage.

Les scientifiques du MIT et d’Adobe Research ont franchi une étape vers la résolution de ce défi. Ils ont développé une technique qui permet d’identifier tous les pixels d’une image représentant un matériau donné, qui est représenté dans un pixel sélectionné par l’utilisateur.

La méthode est précise même lorsque les objets ont des formes et des tailles variables, et le modèle d’apprentissage automatique qu’ils ont développé n’est pas trompé par des ombres ou des conditions d’éclairage qui peuvent faire apparaître le même matériau différemment.

Bien qu’ils aient formé leur modèle en utilisant uniquement des données « synthétiques », qui sont créées par un ordinateur qui modifie les scènes 3D pour produire de nombreuses images variées, le système fonctionne efficacement sur de vraies scènes intérieures et extérieures qu’il n’a jamais vues auparavant. L’approche peut également être utilisée pour les vidéos ; une fois que l’utilisateur a identifié un pixel dans la première image, le modèle peut identifier des objets fabriqués à partir du même matériau tout au long du reste de la vidéo.

En plus des applications en compréhension de scène pour la robotique, cette méthode pourrait être utilisée pour l’édition d’images ou intégrée dans des systèmes informatiques qui déduisent les paramètres des matériaux dans les images. Il pourrait également être utilisé pour les systèmes de recommandation Web basés sur le matériel. (Peut-être qu’un acheteur recherche des vêtements fabriqués à partir d’un type de tissu particulier, par exemple.)

« Savoir avec quel matériau vous interagissez est souvent très important. Bien que deux objets puissent se ressembler, ils peuvent avoir des propriétés matérielles différentes. Notre méthode peut faciliter la sélection de tous les autres pixels d’une image qui sont fabriqués à partir du même matériau », déclare Prafull Sharma, étudiant diplômé en génie électrique et en informatique et auteur principal d’un article sur cette technique.

Les co-auteurs de Sharma incluent Julien Philip et Michael Gharbi, chercheurs chez Adobe Research ; et les auteurs principaux William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d’informatique et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL); Frédo Durand, professeur de génie électrique et d’informatique et membre du CSAIL ; et Valentin Deschaintre, chercheur chez Adobe Research. La recherche sera présentée à la conférence SIGGRAPH 2023.

Une nouvelle approche

Les méthodes existantes de sélection de matériaux ont du mal à identifier avec précision tous les pixels représentant le même matériau. Par exemple, certaines méthodes se concentrent sur des objets entiers, mais un objet peut être composé de plusieurs matériaux, comme une chaise avec des bras en bois et un siège en cuir. D’autres méthodes peuvent utiliser un ensemble prédéterminé de matériaux, mais ceux-ci ont souvent des étiquettes larges comme « bois », malgré le fait qu’il existe des milliers de variétés de bois.

Au lieu de cela, Sharma et ses collaborateurs ont développé une approche d’apprentissage automatique qui évalue dynamiquement tous les pixels d’une image pour déterminer les similitudes matérielles entre un pixel sélectionné par l’utilisateur et toutes les autres régions de l’image. Si une image contient une table et deux chaises, et que les pieds et le plateau de la chaise sont faits du même type de bois, leur modèle pourrait identifier avec précision ces régions similaires.

Avant que les chercheurs puissent développer une méthode d’IA pour apprendre à sélectionner des matériaux similaires, ils ont dû surmonter quelques obstacles. Premièrement, aucun ensemble de données existant ne contenait de matériaux suffisamment étiquetés pour former leur modèle d’apprentissage automatique. Les chercheurs ont rendu leur propre ensemble de données synthétiques de scènes d’intérieur, qui comprenait 50 000 images et plus de 16 000 matériaux appliqués au hasard sur chaque objet.

« Nous voulions un ensemble de données où chaque type de matériau est marqué indépendamment », explique Sharma.

Ensemble de données synthétiques en main, ils ont formé un modèle d’apprentissage automatique pour identifier des matériaux similaires dans des images réelles, mais cela a échoué. Les chercheurs ont réalisé que le changement de distribution était à blâmer. Cela se produit lorsqu’un modèle est formé sur des données synthétiques, mais il échoue lorsqu’il est testé sur des données du monde réel qui peuvent être très différentes de l’ensemble de formation.

Pour résoudre ce problème, ils ont construit leur modèle sur un modèle de vision par ordinateur pré-entraîné, qui a vu des millions d’images réelles. Ils ont utilisé les connaissances antérieures de ce modèle en tirant parti des caractéristiques visuelles qu’il avait déjà apprises.

« Dans l’apprentissage automatique, lorsque vous utilisez un réseau de neurones, il s’agit généralement d’apprendre la représentation et le processus de résolution de la tâche ensemble. Nous avons démêlé cela. Le modèle pré-entraîné nous donne la représentation, puis notre réseau de neurones se concentre uniquement sur la résolution de la tâche. tâche », dit-il.

Résolution de similarité

Le modèle des chercheurs transforme les caractéristiques visuelles génériques et pré-formées en caractéristiques spécifiques au matériau, et il le fait d’une manière qui est robuste aux formes d’objets ou aux conditions d’éclairage variées.

Le modèle peut ensuite calculer un score de similarité matérielle pour chaque pixel de l’image. Lorsqu’un utilisateur clique sur un pixel, le modèle détermine à quel point chaque autre pixel est proche de la requête. Il produit une carte où chaque pixel est classé sur une échelle de 0 à 1 pour la similarité.

« L’utilisateur clique simplement sur un pixel, puis le modèle sélectionne automatiquement toutes les régions qui ont le même matériau », dit-il.

Étant donné que le modèle génère un score de similarité pour chaque pixel, l’utilisateur peut affiner les résultats en définissant un seuil, tel que 90 % de similarité, et recevoir une carte de l’image avec ces régions mises en surbrillance. La méthode fonctionne également pour la sélection d’images croisées – l’utilisateur peut sélectionner un pixel dans une image et trouver le même matériau dans une image séparée.

Au cours des expériences, les chercheurs ont découvert que leur modèle pouvait prédire les régions d’une image contenant le même matériau avec plus de précision que d’autres méthodes. Lorsqu’ils ont mesuré la qualité de la prédiction par rapport à la vérité terrain, c’est-à-dire les zones réelles de l’image qui sont composées du même matériau, leur modèle correspondait avec une précision d’environ 92 %.

À l’avenir, ils souhaitent améliorer le modèle afin qu’il puisse mieux capturer les détails fins des objets dans une image, ce qui augmenterait la précision de leur approche.

« Les matériaux riches contribuent à la fonctionnalité et à la beauté du monde dans lequel nous vivons. Mais les algorithmes de vision par ordinateur négligent généralement les matériaux et se concentrent plutôt sur les objets. Cet article apporte une contribution importante à la reconnaissance des matériaux dans les images et les vidéos dans un large éventail de conditions difficiles. « , explique Kavita Bala, doyen du Cornell Bowers College of Computing and Information Science et professeur d’informatique, qui n’a pas participé à ce travail. « Cette technologie peut être très utile pour les consommateurs finaux et les concepteurs. Par exemple, un propriétaire peut imaginer à quel point des choix coûteux comme le rembourrage d’un canapé ou le changement de la moquette dans une pièce peuvent apparaître, et peut être plus confiant dans ses choix de conception. sur la base de ces visualisations. »