Un cadre pour évaluer l'efficacité de l'IA générative

Un cadre pour évaluer l’efficacité de l’IA générative

Au cours de la dernière année, les grands modèles linguistiques (LLM) ont pris de l’importance grâce à une suite de fonctionnalités en constante expansion, notamment la génération de texte, la production d’images et, plus récemment, l’analyse d’images hautement descriptives. L’intégration de l’intelligence artificielle (IA) dans l’analyse d’images représente un changement significatif dans la façon dont les gens comprennent et interagissent avec les données visuelles, une tâche qui reposait historiquement sur la vision pour voir et les connaissances pour contextualiser.

Aujourd’hui, les nouveaux outils d’IA présentent un paradigme qui permet à de plus en plus de personnes d’interagir avec des images en générant des descriptions qui pourraient non seulement aider les malvoyants, mais pourraient également informer le public profane sur le contenu d’une figure scientifique.

Professeur agrégé Chris Callison-Burch, professeur adjoint Andrew Head et Ph.D. La candidate Alyssa Hwang du Département d’informatique et des sciences de l’information de l’École d’ingénierie et de sciences appliquées de l’Université de Pennsylvanie a développé un cadre pour évaluer l’efficacité des fonctionnalités d’IA basées sur la vision en effectuant une batterie de tests sur ChatGPT-Vision d’OpenAI. de sa sortie plus tôt ce mois-ci.

L’équipe a principalement évalué la compétence du LLM dans l’identification d’images scientifiques et a documenté ses résultats dans un document de recherche, qui apparaît sur le serveur de pré-impression. arXiv.

Hwang partage certaines de ses observations avec Penn Today, offrant un aperçu de l’avenir des technologies basées sur l’IA et de la promesse qu’elles représentent pour l’interprétation d’images complexes.

Que fait l’IA et comment l’équipe l’a testée

Hwang dit que les LLM basés sur la vision comme GPT-Vision sont capables d’analyser des images et de recevoir des images et du texte en entrée pour répondre à un large éventail de demandes en utilisant ces données. L’ensemble de photos de test de l’équipe comprenait des diagrammes, des graphiques, des tableaux et des captures d’écran de code, d’équations mathématiques et des pages complètes de texte dans le but d’évaluer dans quelle mesure le LLM pouvait les décrire.

Les images scientifiques contiennent des informations complexes, explique Hwang, c’est pourquoi l’équipe a sélectionné 21 images parmi un ensemble diversifié d’articles scientifiques. « Nous avons donné la priorité à l’étendue de notre analyse qualitative, basée sur les méthodes existantes en sciences sociales, et nous avons découvert de nombreux modèles intéressants », dit-elle.

Exemples testés

Un aperçu de l’avenir de l’interprétation visuelle des données

Les chercheurs ont analysé un collage de photos de 12 plats étiquetés avec le nom de leur recette. Lorsqu’ils ont remarqué que GPT-Vision intégrait de manière transparente ces étiquettes dans ses descriptions, ils ont essayé de les remplacer par quelque chose de complètement différent pour voir comment le LLM réagirait.

Un aperçu de l’avenir de l’interprétation visuelle des données

« De manière surprenante et amusante », dit Hwang, « GPT-Vision a quand même essayé d’incorporer ces fausses nouvelles étiquettes. »

Hwang dit cependant que le LLM a fait bien mieux lorsqu’on lui a demandé de déterminer si l’étiquette était exacte avant de continuer, ce qui montre qu’il a suffisamment de connaissances pour faire une inférence basée sur ses capacités de vision, des facteurs qui, selon elle, constituent une direction prometteuse pour des recherches majeures. travail.

Elle note également que, lorsqu’il décrit une page entière, le LLM semble résumer les paragraphes qu’il contient, mais que ces « résumés » étaient généralement incomplets et désordonnés et pouvaient mal citer l’auteur ou extraire de grandes quantités de texte directement de la source, ce qui pourrait entraîner des problèmes lors de la redistribution de tout ce qu’il écrit.

« Avec les ajustements appropriés, cependant, je suis convaincu que GPT-Vision peut apprendre à résumer correctement, à citer intégralement et à éviter de surutiliser le texte source », a déclaré Hwang.

Le cadre de l’équipe

Les chercheurs de la communauté du traitement du langage naturel se sont appuyés sur des mesures automatiques pour évaluer de larges pans du paysage des données, mais cette tâche est désormais plus difficile, explique Hwang.

« Dans ce que nous appelons » l’évaluation humaine « , nous demandions également l’avis de personnes réelles, ce qui était possible à petite échelle car nos tâches et nos données étaient plus petites et plus simples », explique-t-elle.

« Maintenant que l’IA générative est devenue si habile à produire des textes longs et sophistiqués, les mesures automatiques deviennent beaucoup plus difficiles à intégrer. Nous ne nous demandons plus : « Cette phrase est-elle grammaticalement correcte ? à demander : « Cette histoire est-elle intéressante ? C’est difficile à définir et à mesurer. »

Les travaux antérieurs de Hwang sur Alexa d’Amazon l’ont familiarisée avec les techniques des sciences sociales et de la recherche sur les interactions homme-machine, y compris la théorie fondée, une méthode d’analyse qualitative qui aide les chercheurs à identifier des modèles à partir de grandes quantités de texte.

Traditionnellement utilisé pour analyser des documents tels que les transcriptions d’entretiens, Hwang et d’autres chercheurs peuvent appliquer les mêmes principes au texte généré automatiquement.

« Notre processus semble très familier à ce que les gens faisaient déjà naturellement : rassembler les réponses de GPT-Vision à un ensemble d’images, lire en profondeur les modèles, générer progressivement davantage de réponses à mesure que nous en apprenions davantage sur les données et utiliser les modèles que nous avons trouvés pour former nos conclusions finales », déclare Hwang.

« Nous avons cherché à formaliser le traitement par essais et erreurs avec des méthodes basées sur la recherche, ce qui peut aider les chercheurs et le grand public à se familiariser davantage avec les nouveaux modèles d’IA générative au fur et à mesure de leur sortie », explique-t-elle.

Applications et risques

La capacité de l’IA à décrire des images pourrait être un excellent outil d’accessibilité pour les lecteurs aveugles ou malvoyants, explique Hwang, en générant automatiquement un texte alternatif pour les images existantes ou en aidant les auteurs à rédiger leur propre texte avant de publier leur travail.

« Décrire des images peut également aider les lecteurs voyants souffrant de troubles du traitement de l’information, comme des problèmes de mémoire à long ou à court terme, de séquençage visuel ou de compréhension visuo-spatiale », dit-elle.

 » Au-delà de l’accessibilité, les descriptions d’images peuvent être une source de commodité ou d’enrichissement. Un lecteur électronique pourrait décrire les photographies d’un article d’actualité pendant que l’auditeur se promène, par exemple. On pourrait demander à un modèle de description d’image plus de détails ou des éclaircissements tout en lire un manuel. Des outils comme celui-ci peuvent nous aider tous à accéder à plus d’informations.

Hwang explique que, faisant preuve d’une certaine prudence dans l’adoption de ces technologies sans tester leurs limites, les chercheurs ont discuté du risque en termes de scénarios à enjeux élevés ou faibles. Elle dit que dans le contexte de la médecine et de la cuisine, elle pense que les inexactitudes présentent le plus grand risque lorsque l’utilisateur ne peut pas vérifier ce que dit le modèle.

Le livre blanc GPT-Vision, publié par OpenAI, déconseille d’utiliser l’outil pour lire la posologie d’un traitement médical, par exemple, mais Hwang affirme qu’un tel risque est plus grand pour les personnes souffrant de perte de vision, de troubles du traitement de l’information ou de difficultés de langage. ceux qui bénéficieront le plus de ces avancées techniques.

« Nous pouvons également supposer au départ que certains aspects de la cuisine présentent peu de risques car nous pouvons souvent improviser selon nos préférences, mais que se passe-t-il si GPT-Vision me dit par erreur que le pot à épices dans ma main est de la cannelle au lieu du paprika ? Même si c’est ne me fait pas nécessairement mal, mes flocons d’avoine seront assez étranges », dit Hwang.

Impressions globales et prochaines étapes

Hwang est généralement impressionné par l’état de l’IA générative et pense qu’il existe des opportunités de travail futur, notamment en renforçant les incohérences et en utilisant ces outils de manière créative et inclusive.

« Les chercheurs ont besoin de réponses à des questions subjectives », dit-elle. « Qu’est-ce qui rend une description bonne ? Qu’est-ce qui la rend utile ? Est-ce ennuyeux ? J’espère donc que les chercheurs en IA générative continueront à consulter les commentaires des utilisateurs au fur et à mesure de leurs itérations. »

Le travail de Hwang avec GPT-Vision a été inspiré par l’idée de lire à haute voix le contenu d’un article scientifique dans lequel les chiffres et les formules seraient expliqués intuitivement. Pour son prochain projet, elle prévoit d’utiliser des modèles d’IA pour améliorer la manière dont les livres audio fournissent des informations aux auditeurs.

« Au lieu de sauter par incréments de 15 secondes », dit-elle, « nous pourrions peut-être procéder phrase par phrase ou paragraphe par paragraphe. Peut-être pourrions-nous « avancer rapidement » dans un livre audio en résumant en temps réel. Grâce à l’IA, il y a peut-être des moyens de « traduire » des équations mathématiques en langage naturel pour aider les gens à écouter des manuels et des documents de recherche. Ce sont toutes des applications passionnantes qui semblent à portée de main et je suis heureux de faire partie du processus.