Le nouvel outil Meta AI puissant peut identifier des éléments individuels dans les images

Le nouvel outil Meta AI puissant peut identifier des éléments individuels dans les images

Notre objectif est de construire un modèle de base pour la segmentation en introduisant trois composants interconnectés : une tâche de segmentation rapide, un modèle de segmentation (SAM) qui alimente l’annotation des données et permet un transfert instantané vers une gamme de tâches via une ingénierie rapide, et un moteur de données pour collecte SA-1B, notre ensemble de données de plus d’un milliard de masques. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2304.02643

Meta a fait un grand bond en avant cette semaine avec le dévoilement d’un modèle capable de détecter et d’isoler des objets dans une image même s’il ne les a jamais vus auparavant. La technologie est présentée et décrite dans un article sur le arXiv serveur de pré-impression.

L’outil d’IA représente une avancée majeure dans l’un des défis les plus difficiles de la technologie : permettre aux ordinateurs de détecter et de comprendre les éléments d’une image inédite et de les isoler pour l’interaction de l’utilisateur.

Cela rappelle un concept que l’ancien président de la Commission de sécurité nationale sur l’intelligence artificielle, Robert O. Work, a décrit un jour : « Ce que l’IA et l’apprentissage automatique vous permettent de faire, c’est de trouver l’aiguille dans la botte de foin. »

Dans ce cas, le modèle SAM (Segment Anything Model) de Meta recherche les pixels associés dans une image et identifie les composants communs qui composent tous les éléments de l’image.

« SAM a appris une notion générale de ce que sont les objets, et il peut générer des masques pour n’importe quel objet dans n’importe quelle image ou n’importe quelle vidéo, y compris même des objets et des types d’images qu’il n’avait pas rencontrés pendant la formation », a annoncé Meta AI dans un article de blog mercredi. .

La tâche de reconnaissance est appelée segmentation. Nous le faisons quotidiennement sans réfléchir un instant. On reconnaît des objets sur nos bureaux tels que des smartphones, des câbles, un écran d’ordinateur, une lampe, une barre chocolatée fondante, une tasse de café.

Mais sans programmation préalable, un ordinateur doit s’efforcer de distinguer tous les composants jusqu’au dernier pixel d’une image bidimensionnelle, et c’est plus compliqué lorsqu’il y a des éléments qui se chevauchent, des ombres ou une forme irrégulière ou cloisonnée.

Les approches antérieures de segmentation nécessitaient généralement une intervention humaine pour définir un masque. La segmentation automatisée antérieure permettait la détection d’objets mais, selon Meta AI, cela nécessitait « des milliers, voire des dizaines de milliers d’exemples » d’objets ainsi que « des ressources informatiques et une expertise technique pour former le modèle de segmentation ».

SAM intègre les deux approches dans un système entièrement automatisé. Il emploie plus d’un milliard de masques qui lui permettent de reconnaître de nouveaux types d’objets.

« Cette capacité à généraliser signifie que, dans l’ensemble, les praticiens n’auront plus besoin de collecter leurs propres données de segmentation et d’affiner un modèle pour leur cas d’utilisation », a déclaré le blog Meta.

Un critique a appelé SAM « l’outil ‘Magic Wand’ de Photoshop sur les stéroïdes. »

SAM peut être activé par des clics de l’utilisateur ou des invites textuelles. Les méta-chercheurs envisagent une utilisation ultérieure de SAM dans le domaine AR/VR. Lorsque les utilisateurs se concentrent sur un objet, il peut être délimité, défini et « levé » dans une image 3D et incorporé dans un film, un jeu ou une présentation.

Un modèle de travail gratuit est disponible en ligne. Les utilisateurs peuvent choisir parmi une galerie d’images ou télécharger leurs propres photos. Ils peuvent ensuite appuyer n’importe où sur l’écran ou dessiner un rectangle autour d’un élément d’intérêt et regarder SAM définir, par exemple, le contour d’un nez, d’un visage ou d’un corps entier. Une autre option demande à SAM d’identifier chaque objet dans une image.

Bien que SAM n’ait pas encore été appliqué à Facebook, une technologie similaire a été appliquée à des processus familiers tels que le marquage de photos, la modération et le marquage de contenu non autorisé, et la génération de publications recommandées sur Facebook et Instagram.