L’IA avancée peut-elle résoudre des énigmes visuelles et effectuer un raisonnement abstrait ?

L’IA avancée peut-elle résoudre des énigmes visuelles et effectuer un raisonnement abstrait ?

L’intelligence artificielle a appris à maîtriser le langage, à générer de l’art et même à battre les grands maîtres aux échecs. Mais peut-il déchiffrer le code du raisonnement abstrait, ces énigmes visuelles délicates qui laissent les humains perplexes ?

Des chercheurs de l'Institut des sciences de l'information (ISI) de l'USC Viterbi School of Engineering mettent à l'épreuve les capacités cognitives de l'IA, poussant les grands modèles de langage multimodaux (MLLM) à résoudre des problèmes visuels autrefois réservés aux tests de QI humain. Le résultat ? Un aperçu du chemin parcouru par l’IA et des points sur lesquels elle trébuche encore.

Kian Ahrabian et Zhivar Sourati, assistants de recherche de l'USC Viterbi ISI, ont récemment étudié si les MLLM pouvaient effectuer un raisonnement abstrait non verbal, des tâches qui nécessitent à la fois une perception visuelle et un raisonnement logique, et ont présenté leurs résultats à la Conférence sur la modélisation du langage (COLM 2024) à Philadelphie, Pennsylvanie, le 7 octobre. –9, 2024. L’œuvre est également disponible sur le arXiv serveur de préimpression.

Jay Pujara, professeur agrégé de recherche en informatique à l'école d'ingénierie de l'USC Viterbi et auteur du journal, a déclaré : « Chaque jour, nous sommes bombardés de nouveaux titres sur ce que l'IA peut (et ne peut pas) faire, qui sont souvent très controversés. Nous avons encore une compréhension très limitée de ce que les nouveaux modèles d'IA peuvent faire, et tant que nous n'aurons pas compris ces limites, nous ne pourrons pas rendre l'IA meilleure, plus sûre et plus utile. Cet article aide à combler une partie manquante de l'histoire. L’IA est en difficulté. »

Le défi : l’IA peut-elle voir et penser ?

« Nous voulions voir si cette nouvelle génération de grands modèles, capables de traiter des images, pouvait raisonner toute seule », a expliqué Ahrabian. « Par exemple, si vous voyez un cercle jaune se transformer en triangle bleu, le modèle peut-il appliquer le même motif dans un scénario différent ? »

Pour répondre à cette question, l'équipe a testé 24 MLLM différents sur des puzzles basés sur les matrices progressives de Raven, un test bien connu de raisonnement abstrait. Ils ont constaté que les modèles open source rencontraient de sérieuses difficultés. « Ils étaient vraiment méchants. Ils n'ont rien pu en tirer », a déclaré clairement Ahrabian.

En revanche, les modèles à source fermée, tels que GPT-4V (modèles développés par des entreprises privées et non accessibles au public pour modification), ont obtenu de meilleurs résultats. Ces modèles sont généralement entraînés avec des ressources plus avancées, notamment des ensembles de données plus volumineux et des systèmes informatiques plus puissants, ce qui leur confère un avantage notable. « Nous avons constaté des résultats non triviaux avec des modèles à source fermée », a ajouté Ahrabian. « Plus précisément, GPT-4V était relativement bon en raisonnement, mais il est loin d'être parfait. »

Là où l'IA trébuche

Une partie essentielle de l’étude consistait à analyser les points où ces modèles échouaient. L’un des problèmes clés était la capacité de l’IA à traiter avec précision les informations visuelles. « Nous voulions savoir si les modèles pouvaient voir les détails, comme les couleurs ou les lignes qui entrent en collision, et si c'était là qu'ils se trompaient », a déclaré Ahrabian.

Pour isoler le problème, les chercheurs ont fourni des descriptions textuelles détaillées des images, garantissant que les modèles disposaient de toutes les informations nécessaires dans un format différent. « Même lorsque nous supprimions l'élément visuel et leur donnions simplement du texte, de nombreux modèles ne parvenaient toujours pas à raisonner efficacement. « , a expliqué Sourati.

Cela a révélé une idée cruciale : le problème ne concernait pas seulement le traitement visuel, mais aussi le raisonnement lui-même. Désormais, l'équipe avait une vision plus claire de ce qui ne fonctionnait pas, ce qui lui permettait d'affiner son orientation et d'orienter les améliorations futures.

La voie à suivre : améliorer le raisonnement de l’IA

Une méthode prometteuse explorée par les chercheurs était la « chaîne de pensée », où l'IA est incitée à réfléchir étape par étape à travers des tâches de raisonnement. Cette approche a conduit à des améliorations significatives dans certains cas. « En guidant les modèles avec des indices, nous avons pu constater une amélioration des performances allant jusqu'à 100 % », a noté Ahrabian.

Malgré les défis restants, les chercheurs sont optimistes. Les résultats de l'étude mettent en évidence à la fois les limites actuelles de l'IA et les possibilités passionnantes d'avancées futures. À mesure que ces modèles continuent de se développer, les recherches de l'USC pourraient ouvrir la voie à une IA qui non seulement comprend mais raisonne, brouillant ainsi la frontière entre l'intelligence artificielle et la cognition humaine.