Les capacités visuelles des modèles linguistiques manquent de profondeur
Un trio d'informaticiens de l'Université d'Auburn, aux États-Unis, en collaboration avec un collègue de l'Université d'Alberta, au Canada, a découvert que les affirmations de compétences visuelles par les grands modèles de langage (LLM) avec capacités de vision (VLM) peuvent surestimer ces capacités.
Pooyan Rahmanzadehgervi, Logan Bolton, Anh Totti Nguyen et Mohammad Reza Taesiri ont testé quatre des VLM les plus populaires (GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet et Claude-3.5 Sonnet) sur leurs capacités visuelles. La recherche est publiée sur le site arXiv serveur de préimpression.
Au cours de l'année écoulée, de nouveaux modèles de langage ont évolué, notamment la capacité à accepter des entrées visuelles. Mais ces capacités ont soulevé des questions sur la nature de la capacité visuelle en général.
Comme pour les animaux, tout système visuel créé par l’homme doit être composé de deux éléments principaux, une caméra et un cerveau pour traiter les données capturées par la caméra. Dans cette nouvelle étude, les chercheurs ont découvert que même si la caméra utilisée pour capturer la visualisation est très développée, le traitement des données qu’elle produit en est encore à ses débuts.
C’est une chose de demander à un modèle linguistique d’identifier un bâtiment tel que le Taj Mahal, c’en est une autre de lui poser des questions sur la nature des choses qui sont sur l’image. Par exemple, demander au modèle linguistique de vous dire combien d’enfants debout devant le Taj Mahal se tiennent la main est délicat, car le modèle linguistique n’a pas appris à compter – il a appris à reconnaître des choses comme se tenir la main.
Ainsi, à moins qu’on lui ait montré des images du même nombre d’enfants se tenant la main que celui montré sur l’image, il n’aura aucun moyen de donner une réponse correcte.
Les chercheurs ont démontré ce manque de capacité de traitement en demandant à quatre LLM populaires de faire des choses très simples à faire pour les gens, comme compter combien de cercles dans une image se chevauchent ou combien d'anneaux sont interconnectés.
Sans surprise, les quatre étudiants en master ont obtenu de mauvais résultats. Ils n’ont obtenu de bons résultats que lorsqu’ils avaient été entraînés avec des images montrant quelque chose de familier. Ils ont eu du mal à déterminer combien d’anneaux s’emboîtaient lorsqu’il y en avait plus de cinq, par exemple, car à part les anneaux olympiques, ils n’avaient jamais vu de tels exemples.
Les travaux de l’équipe sur cette initiative montrent que les grands modèles linguistiques ont encore un long chemin à parcourir avant d’être capables de traiter les informations visuelles d’une manière comparable à celle des humains.