Quelle est la qualité de la compréhension visuelle de Google Bard ?  Une étude empirique sur les défis ouverts

Quelle est la qualité de la compréhension visuelle de Google Bard ? Une étude empirique sur les défis ouverts

par Beijing Zhongke Journal Publishing Co.

Bard, le chatbot IA de Google, basé sur les modèles LaMDA et ultérieurs PaLM, a été lancé avec un succès modéré en mars 2023 avant de se développer à l’échelle mondiale en mai. Il s’agit d’une IA générative qui accepte les invites et effectue des tâches basées sur du texte, comme fournir des réponses et des résumés, et créer diverses formes de contenu textuel.

Le 13 juillet 2023, Google Bard a annoncé une mise à jour majeure permettant de fournir des images en entrée avec des invites textuelles. Il a été affirmé que Bard pouvait analyser le contenu visuel et fournir une description (par exemple, des légendes d’images) ou répondre à des questions en utilisant des informations visuelles.

Notamment, bien que d’autres modèles tels que GPT4 prétendent avoir la capacité d’accepter et de comprendre les entrées visuelles sous forme d’invites, ils ne sont pas accessibles au public pour l’expérimentation. Par conséquent, l’accès à Bard offre une première opportunité à la communauté de la vision par ordinateur d’évaluer sa solidité et sa robustesse afin de comprendre les forces et les limites existantes. Dans cette étude, l’objectif des chercheurs est d’analyser la capacité de Bard à résoudre certains des problèmes de longue date de la vision par ordinateur en matière de compréhension d’images.

Cette étude, publiée dans Recherche sur l’intelligence artificielle, identifie plusieurs scénarios intéressants basés sur des problèmes de vision par ordinateur pour l’évaluation qualitative de Bard. Étant donné que l’accès à Bard basé sur l’API n’est toujours pas disponible, les évaluations des chercheurs ne comprennent pas de résultats quantitatifs sur des références à grande échelle.

Au lieu de cela, l’objectif est d’identifier un certain nombre de scénarios perspicaces et d’invites visuelles et textuelles correspondantes qui servent à évaluer non seulement les capacités de compréhension visuelle de Bard, mais également les futurs grands modèles multimodaux tels que GPT4. Leur motivation à se concentrer particulièrement sur Bard est sa meilleure performance parmi tous les modèles conversationnels multimodaux open et fermés (y compris Bing-Chat déployé le 18 juillet 2023), comme démontré via LLaVA-Bench.

Pour évaluer les capacités de Bard, telles que la perception visuelle et la compréhension contextuelle, conditionnées par les invites textuelles données, les chercheurs ont conçu une gamme de scénarios de tâches en langage visuel.

Par la suite, ils se penchent sur plusieurs exemples illustratifs tirés de ces études empiriques, englobant un total de 15 scénarios de questions-réponses visuelles (VQA) impliquant des tâches telles que la détection et la localisation d’objets, l’analyse des attributs d’objets, leur nombre, leurs moyens et la reconnaissance fine dans images naturelles. Ils expérimentent également des cas difficiles tels que l’identification d’objets camouflés et divers domaines tels que les images médicales, sous-marines et de télédétection. Ils expliquent les scénarios ci-dessous.

Le scénario n°1 concerne les attributs d’objet. Cela suggère que Bard semble avoir des difficultés à identifier les attributs qui nécessitent une compréhension approfondie de chaque objet et de ses propriétés. Le scénario n°2 est la présence d’un objet. Cela suggère que la compréhension de base de Bard du contenu visuel reste limitée. Les chercheurs notent en outre que Bard est actuellement adapté aux images sans aucun être humain et supprime toutes les entrées visuelles contenant des visages ou des personnes humaines.

Le scénario n°3 est la localisation d’un objet. Cela suggère que la capacité de Bard à localiser le contexte visuel peut être encore améliorée. Le scénario n°4 est le raisonnement relationnel. Cela indique qu’il est possible d’améliorer la capacité de Bard à raisonner les relations. Le scénario n°5 est l’abordabilité. Cela implique que Bard doit encore mieux capturer la sémantique visuelle strictement basée sur le guidage textuel et associer plus efficacement cette sémantique aux objets reconnus dans une scène.

Le scénario n°6 est un échantillon contradictoire. Tous les résultats de Bard démontrent qu’il ne parvient pas à comprendre les échantillons contradictoires. Le scénario n°7 concerne les conditions pluvieuses. Les résultats indiquent que Bard ne fonctionne pas bien lorsque l’image présente des conditions pluvieuses. Le scénario n°8 est la compréhension des sentiments. Lorsque les chercheurs interrogent Bard, celui-ci répond une réponse incorrecte.

Le scénario n°9 est une reconnaissance fine. Cette tâche implique l’identification de sous-catégories spécifiques au sein d’une classe d’objets donnée, ce qui est plus complexe que la reconnaissance générale d’objets en raison de variations intra-classes accrues, de différences subtiles entre classes et de la nécessité d’une connaissance spécialisée du domaine. Bard donne à la fois de bonnes et de mauvaises réponses.

Le scénario n°10 consiste à identifier un objet camouflé. Cela suggère que la capacité de Bard à analyser les motifs camouflés et les textures similaires pourrait être encore améliorée. Le scénario n°11 est le comptage d’objets. Les chercheurs notent que Bard excelle dans la description d’une scène et ne semble pas être apte à comprendre le contenu de haut niveau dans des scénarios difficiles.

Le scénario n°12 consiste à détecter des défauts industriels. Les chercheurs observent que Bard a du mal à identifier ces défauts inaperçus dans un scénario aussi difficile, fournissant ainsi des réponses incorrectes aux utilisateurs. Le scénario n°13 consiste à reconnaître le caractère optique. Bard a du mal dans divers scénarios de reconnaissance de texte, le modèle a du mal à comprendre le texte dans des images naturelles. Le scénario n°14 analyse des données médicales. Aucun contenu significatif n’a été généré lors de l’expérience.

Le scénario n°15 consiste à interpréter des données de télédétection. Les résultats des chercheurs suggèrent que Bard a tendance à comprendre les scènes visuelles de manière holistique, mais il est confronté à des défis pour discerner des modèles visuels à granularité fine, en particulier lors de la détermination du nombre précis d’objets tels que les bâtiments commerciaux dans ce cas.

L’émergence du Bard de Google dans le domaine de l’IA conversationnelle a suscité un intérêt considérable en raison de son succès remarquable. S’appuyant sur cette dynamique, cette étude vise à évaluer de manière exhaustive les performances de Bard dans divers scénarios de tâches, notamment des images générales, camouflées, médicales, sous-marines et de télédétection. L’enquête montre que même si Bard excelle dans de nombreux domaines, il reste néanmoins confronté à des défis dans certains scénarios basés sur la vision.

Cette découverte met en évidence l’immense potentiel de Bard dans diverses applications et souligne la vaste marge de croissance et d’amélioration des tâches liées à la vision. Les connaissances empiriques de cette étude devraient être précieuses pour le développement futur de modèles, en particulier pour combler l’écart en matière de performances visuelles. En abordant les limites observées dans les scénarios de vision, les chercheurs prévoient que les modèles ultérieurs seront dotés de capacités de compréhension visuelle plus fortes, conduisant à terme à l’avancement de l’IA conversationnelle vers de nouveaux sommets.

Fourni par Beijing Zhongke Journal Publishing Co.