Un banc d'essai pour évaluer les capacités de raisonnement physique des agents de l'IA

Une illustration montrant la configuration de généralisation locale et large dans le banc d’essai Phy-Q et le score Phy-Q obtenu par différents agents d’IA et humains. Crédit : Xue et al

Les humains sont naturellement capables de raisonner sur les comportements de différents objets physiques dans leur environnement. Ces capacités de raisonnement physique sont extrêmement précieuses pour résoudre les problèmes quotidiens, car elles peuvent nous aider à choisir des actions plus efficaces pour atteindre des objectifs spécifiques.

Certains informaticiens ont tenté de reproduire ces capacités de raisonnement dans des agents d’intelligence artificielle (IA), afin d’améliorer leurs performances sur des tâches spécifiques. Jusqu’à présent, cependant, une approche fiable pour entraîner et évaluer les capacités de raisonnement physique des algorithmes d’IA faisait défaut.

Cheng Xue, Vimukthini Pinto, Chathura Gamage et leurs collègues, une équipe de chercheurs de l’Université nationale australienne, ont récemment présenté Phy-Q, un nouveau banc d’essai conçu pour combler cette lacune dans la littérature. Leur banc d’essai, présenté dans un article de Intelligence des machines naturellescomprend une série de scénarios qui évaluent spécifiquement les capacités de raisonnement physique d’un agent d’IA.

« Le raisonnement physique est une capacité importante pour les agents d’IA d’opérer dans le monde réel et nous avons réalisé qu’il n’y a pas de bancs d’essai complets et de mesure pour évaluer l’intelligence de raisonnement physique des agents d’IA », a déclaré Pinto à Tech Xplore. « Nos principaux objectifs étaient d’introduire un banc d’essai convivial pour les agents ainsi qu’une mesure de l’intelligence de raisonnement physique, d’évaluer les agents d’IA de pointe avec les humains pour leurs capacités de raisonnement physique et de fournir des conseils aux agents de l’AIBIRDS. compétition, une compétition de longue date pour le raisonnement physique tenue à l’IJCAI et organisée par le professeur Jochen Renz.

Le banc d’essai Phy-Q est composé de 15 scénarios de raisonnement physique différents qui s’inspirent de situations dans lesquelles les nourrissons acquièrent des capacités de raisonnement physique et d’instances du monde réel dans lesquelles les robots pourraient avoir besoin d’utiliser ces capacités. Pour chaque scénario, les chercheurs ont créé plusieurs soi-disant « modèles de tâches », des modules qui leur permettent de mesurer la généralisabilité des compétences d’un agent d’IA dans des contextes locaux et plus larges. Leur banc d’essai comprend un total de 75 modèles de tâches.

Un banc d'essai pour évaluer les capacités de raisonnement physique des agents de l'IA — Captures d’écran d’exemples de tâches dans Phy-Q représentant les 15 scénarios physiques. La fronde avec des oiseaux est située à gauche de la tâche. Le but de l’agent est de tuer tous les cochons verts en tirant sur les oiseaux avec la fronde. Les objets brun foncé sont des plates-formes statiques. Les objets avec d’autres couleurs sont dynamiques et soumis à la physique de l’environnement. Crédit : Xue et al

« Grâce à la généralisation locale, nous évaluons la capacité d’un agent à généraliser dans un modèle de tâche donné et grâce à une généralisation large, nous évaluons la capacité d’un agent à généraliser entre différents modèles de tâche dans un scénario donné », a expliqué Gamage. « De plus, en combinant les performances de généralisation large dans les 15 scénarios physiques, nous mesurons le Phy-Q, le quotient de raisonnement physique, une mesure inspirée du QI humain. »

Les chercheurs ont démontré l’efficacité de leur banc d’essai en l’utilisant pour exécuter une série d’évaluations d’agents d’IA. Les résultats de ces tests suggèrent que les capacités de raisonnement physique des agents de l’IA sont encore beaucoup moins évoluées que les capacités humaines, il y a donc encore une marge d’amélioration significative dans ce domaine.

« D’après cette étude, nous avons vu que les capacités de raisonnement physique des systèmes d’IA sont bien en deçà du niveau des capacités humaines », a déclaré Xue. « De plus, notre évaluation montre que les agents ayant une bonne capacité de généralisation locale ont du mal à apprendre les règles de raisonnement physique sous-jacentes et ne parviennent pas à généraliser largement. Nous invitons maintenant d’autres chercheurs à utiliser le banc d’essai Phy-Q pour développer leurs systèmes d’IA à raisonnement physique.

Le banc d’essai Phy-Q pourrait bientôt être utilisé par des chercheurs du monde entier pour évaluer systématiquement les capacités de raisonnement physique de leur modèle d’IA dans une série de scénarios physiques. Cela pourrait à son tour aider les développeurs à identifier les forces et les faiblesses de leur modèle, afin qu’ils puissent les améliorer en conséquence.

Dans leurs prochaines études, les auteurs prévoient de combiner leur banc d’essai de raisonnement physique avec des approches d’apprentissage en monde ouvert. Ce dernier est un domaine de recherche émergent qui se concentre sur l’amélioration de la capacité des agents et des robots de l’IA à s’adapter à de nouvelles situations.

« Dans le monde réel, nous rencontrons constamment de nouvelles situations auxquelles nous n’avons jamais été confrontés auparavant et en tant qu’humains, nous sommes compétents pour nous adapter avec succès à ces nouvelles situations », ont ajouté les auteurs. « De même, pour un agent qui opère dans le monde réel, en plus des capacités de raisonnement physique, il est crucial d’avoir des capacités pour détecter et s’adapter à de nouvelles situations. Par conséquent, nos recherches futures se concentreront sur la promotion du développement d’agents d’IA qui peuvent effectuer des tâches de raisonnement physique dans différentes situations nouvelles. »