Pour créer un meilleur assistant d'IA, commencez par modéliser le comportement irrationnel des humains

Pour créer des systèmes d’IA capables de collaborer efficacement avec les humains, il est utile de disposer dès le départ d’un bon modèle de comportement humain. Mais les humains ont tendance à se comporter de manière sous-optimale lorsqu’ils prennent des décisions.

Cette irrationalité, particulièrement difficile à modéliser, se résume souvent à des contraintes informatiques. Un être humain ne peut pas passer des décennies à réfléchir à la solution idéale à un problème donné.

Des chercheurs du MIT et de l'Université de Washington ont développé un moyen de modéliser le comportement d'un agent, qu'il soit humain ou machine, qui tient compte des contraintes informatiques inconnues susceptibles d'entraver les capacités de résolution de problèmes de l'agent.

Leur modèle peut automatiquement déduire les contraintes informatiques d'un agent en voyant seulement quelques traces de ses actions précédentes. Le résultat, appelé « budget d’inférence » d’un agent, peut être utilisé pour prédire le comportement futur de cet agent.

Dans un nouvel article, les chercheurs démontrent comment leur méthode peut être utilisée pour déduire les objectifs de navigation d'une personne à partir d'itinéraires antérieurs et pour prédire les mouvements ultérieurs des joueurs lors de matchs d'échecs. Leur technique correspond ou surpasse une autre méthode populaire de modélisation de ce type de prise de décision.

À terme, ces travaux pourraient aider les scientifiques à enseigner aux systèmes d’IA comment se comportent les humains, ce qui pourrait permettre à ces systèmes de mieux répondre à leurs collaborateurs humains. Être capable de comprendre le comportement d'un humain, puis de déduire ses objectifs à partir de ce comportement, pourrait rendre un assistant IA beaucoup plus utile, déclare Athul Paul Jacob, étudiant diplômé en génie électrique et informatique (EECS) et auteur principal de l'article sur cette technique.

« Si nous savons qu'un humain est sur le point de commettre une erreur, après avoir vu comment il s'est comporté auparavant, l'agent IA pourrait intervenir et proposer une meilleure façon de le faire. Ou l'agent pourrait s'adapter aux faiblesses de ses collaborateurs humains. » Être capable de modéliser le comportement humain est une étape importante vers la création d'un agent d'IA qui peut réellement aider cet humain « , dit-il.

Jacob a écrit l'article avec Abhishek Gupta, professeur adjoint à l'Université de Washington, et l'auteur principal Jacob Andreas, professeur agrégé à l'EECS et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL). La recherche sera présentée lors de la Conférence internationale sur les représentations de l'apprentissage (ICLR 2024), qui se tiendra à Vienne, en Autriche, du 7 au 11 mai.

Comportement de modélisation

Les chercheurs construisent des modèles informatiques du comportement humain depuis des décennies. De nombreuses approches antérieures tentent de prendre en compte une prise de décision sous-optimale en ajoutant du bruit au modèle. Au lieu que l’agent choisisse toujours la bonne option, le modèle pourrait lui demander de faire le bon choix dans 95 % des cas.

Cependant, ces méthodes peuvent ne pas tenir compte du fait que les humains ne se comportent pas toujours de la même manière de manière sous-optimale.

D'autres au MIT ont également étudié des moyens plus efficaces de planifier et de déduire des objectifs face à une prise de décision sous-optimale.

Pour construire leur modèle, Jacob et ses collaborateurs se sont inspirés d'études antérieures sur les joueurs d'échecs. Ils ont remarqué que les joueurs prenaient moins de temps à réfléchir avant d'agir lorsqu'ils effectuaient des mouvements simples et que les joueurs les plus forts avaient tendance à passer plus de temps à planifier que les plus faibles dans les matchs difficiles.

« En fin de compte, nous avons constaté que la profondeur de la planification, ou la durée pendant laquelle quelqu'un réfléchit au problème, est un très bon indicateur du comportement des humains », explique Jacob.

Ils ont construit un cadre permettant de déduire la profondeur de la planification d'un agent à partir d'actions antérieures et d'utiliser ces informations pour modéliser le processus de prise de décision de l'agent.

La première étape de leur méthode consiste à exécuter un algorithme pendant une durée définie pour résoudre le problème étudié. Par exemple, s’ils étudient une partie d’échecs, ils peuvent laisser l’algorithme du jeu d’échecs s’exécuter pendant un certain nombre d’étapes. À la fin, les chercheurs peuvent voir les décisions prises par l’algorithme à chaque étape.

Leur modèle compare ces décisions aux comportements d’un agent résolvant le même problème. Il alignera les décisions de l'agent sur celles de l'algorithme et identifiera l'étape à laquelle l'agent a arrêté la planification.

À partir de là, le modèle peut déterminer le budget d'inférence de l'agent, ou la durée pendant laquelle cet agent planifiera ce problème. Il peut utiliser le budget d'inférence pour prédire comment cet agent réagirait lors de la résolution d'un problème similaire.

Une solution interprétable

Cette méthode peut être très efficace car les chercheurs peuvent accéder à l’ensemble des décisions prises par l’algorithme de résolution de problèmes sans effectuer de travail supplémentaire. Ce cadre pourrait également être appliqué à tout problème pouvant être résolu avec une classe particulière d’algorithmes.

« Pour moi, la chose la plus frappante a été le fait que ce budget d'inférence est très interprétable. Il dit que des problèmes plus difficiles nécessitent plus de planification ou qu'être un acteur fort signifie planifier sur plus longtemps. Lorsque nous avons commencé à le faire, nous n'avons pas Je pense que notre algorithme serait capable de détecter ces comportements naturellement », explique Jacob.

Les chercheurs ont testé leur approche dans trois tâches de modélisation différentes : déduire des objectifs de navigation à partir d'itinéraires précédents, deviner l'intention de communication d'une personne à partir de ses signaux verbaux et prédire les mouvements ultérieurs lors de matchs d'échecs entre humains.

Leur méthode correspondait ou surpassait une alternative populaire dans chaque expérience. De plus, les chercheurs ont constaté que leur modèle de comportement humain correspondait bien aux mesures des compétences des joueurs (dans les parties d’échecs) et de la difficulté des tâches.

À l’avenir, les chercheurs souhaitent utiliser cette approche pour modéliser le processus de planification dans d’autres domaines, tels que l’apprentissage par renforcement (une méthode d’essais et d’erreurs couramment utilisée en robotique). À long terme, ils ont l’intention de continuer à s’appuyer sur ce travail pour atteindre l’objectif plus large de développer des collaborateurs en IA plus efficaces.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.