La recherche montre que les humains sont encore meilleurs que l’IA pour lire la salle
Il s’avère que les humains sont meilleurs que les modèles d’IA actuels pour décrire et interpréter les interactions sociales dans une scène en mouvement – une compétence nécessaire pour les voitures autonomes, les robots d’assistance et d’autres technologies qui reposent sur les systèmes d’IA pour naviguer dans le monde réel.
La recherche, dirigée par des scientifiques de l’Université Johns Hopkins, constate que les systèmes d’intelligence artificielle échouent à comprendre la dynamique sociale et le contexte nécessaires à l’interaction avec les gens et suggère que le problème peut être enraciné dans l’infrastructure des systèmes d’IA.
« L’IA pour une voiture autonome, par exemple, devrait reconnaître les intentions, les objectifs et les actions des chauffeurs et des piétons humains. Vous voudriez qu’il sache de quelle façon un piéton est sur le point de commencer à marcher, ou si deux personnes sont en conversation contre Cognitive Science à la rue Hopkins University.
« Chaque fois que vous voulez qu’une IA interagisse avec les humains, vous voulez qu’il puisse reconnaître ce que les gens font. Je pense que cela met en lumière le fait que ces systèmes ne peuvent pas pour le moment. »
Kathy Garcia, une étudiante doctorale travaillant dans le laboratoire d’ISIK au moment de la recherche et co-auteur, a présenté les résultats de la recherche à la Conférence internationale sur les représentations d’apprentissage le 24 avril. L’étude est également publiée dans la revue Psyarxiv.
Pour déterminer comment les modèles d’IA se mesurent par rapport à la perception humaine, les chercheurs ont demandé aux participants humains de regarder des clips vidéo de trois secondes et des caractéristiques de taux importantes pour comprendre les interactions sociales sur une échelle de un à cinq. Les clips comprenaient des personnes interagissant les uns avec les autres, effectuant des activités côte à côte ou menant des activités indépendantes par elles-mêmes.
Les chercheurs ont ensuite demandé à plus de 350 modèles de langue, de vidéo et d’image de l’IA pour prédire comment les humains jugeraient les vidéos et comment leur cerveau réagirait à la regard. Pour les grands modèles de langage, les chercheurs ont fait évaluer les AIS, les légendes courtes et rédigées humaines.
Les participants, pour la plupart, ont convenu les uns avec les autres sur toutes les questions; Les modèles d’IA, quelle que soit la taille ou les données sur lesquels ils ont été formés, ne l’ont pas fait. Les modèles vidéo n’ont pas pu décrire avec précision ce que les gens faisaient dans les vidéos.
Même les modèles d’image qui ont reçu une série de cadres fixes à analyser ne pouvaient pas prédire de manière fiable si les gens communiquaient. Les modèles de langage étaient meilleurs pour prédire le comportement humain, tandis que les modèles vidéo étaient meilleurs pour prédire l’activité neuronale dans le cerveau.
Les résultats contrastent fortement avec le succès de l’IA dans la lecture d’images fixes, ont déclaré les chercheurs.
« Il ne suffit pas de voir une image et de reconnaître des objets et des visages. Ce fut la première étape, qui nous a pris un long chemin dans l’IA. Mais la vie réelle n’est pas statique. Nous avons besoin d’IA pour comprendre l’histoire qui se déroule dans une scène. Comprendre les relations, le contexte et la dynamique des interactions sociales, a déclaré Garcia.
Les chercheurs pensent que c’est dû au fait que les réseaux de neurones de l’IA ont été inspirés par l’infrastructure de la partie du cerveau qui traite des images statiques, qui est différente du domaine du cerveau qui traite les scènes sociales dynamiques.
« Il y a beaucoup de nuances, mais le gros point à retenir n’est pas que les modèles d’IA ne peuvent correspondre aux réponses du cerveau humain et du comportement aux scènes à tous les niveaux, comme ils le font pour des scènes statiques », a déclaré Isik. « Je pense qu’il y a quelque chose de fondamental dans la façon dont les humains traitent les scènes qui manquent ces modèles. »