Les chercheurs développent une référence automatisée pour les planificateurs de tâches basés sur le langage

Si on vous demande de « Placez une pomme refroidie au micro-ondes, » comment réagirait un robot ? Au départ, le robot devrait localiser une pomme, la ramasser, trouver le réfrigérateur, ouvrir sa porte et placer la pomme à l'intérieur. Par la suite, il fermerait la porte du réfrigérateur, la rouvrirait pour récupérer la pomme refroidie, reprendrait la pomme et fermerait la porte. Ensuite, le robot devra localiser le micro-ondes, ouvrir sa porte, placer la pomme à l'intérieur, puis fermer la porte du micro-ondes.

L'évaluation de la qualité de l'exécution de ces étapes illustre l'essence même de l'analyse comparative des technologies d'IA en matière de planification des tâches. Il mesure l’efficacité avec laquelle un robot peut répondre aux commandes et respecter les procédures spécifiées.

Une équipe de recherche de l’Institut de recherche en électronique et télécommunications (ETRI) a développé une technologie qui évalue automatiquement les performances des plans de tâches générés par les grands modèles linguistiques (LLM) et ouvre la voie à une évaluation rapide et objective des IA de planification de tâches.

ETRI a annoncé le développement de LoTa-Benchmark (LoTa-Bench), qui permet l'évaluation automatique des planificateurs de tâches basés sur le langage. Un planificateur de tâches basé sur un langage comprend l'instruction verbale d'un utilisateur humain, planifie une séquence d'opérations et exécute de manière autonome les opérations désignées pour atteindre l'objectif de l'instruction.

L'équipe de recherche a publié un article lors de la Conférence internationale sur les représentations d'apprentissage (ICLR) et a partagé les résultats de l'évaluation d'un total de 33 grands modèles de langage via GitHub.

ETRI développe un benchmark automatisé pour les planificateurs de tâches basés sur le langage

Récemment, les LLM ont démontré des performances remarquables non seulement dans le traitement du langage, la conversation, la résolution de problèmes mathématiques et la preuve logique, mais également dans la compréhension des commandes humaines, la sélection autonome de sous-tâches et leur exécution séquentielle pour atteindre les objectifs. Par conséquent, de nombreux efforts ont été déployés pour appliquer de grands modèles de langage aux applications robotiques et à la mise en œuvre de services.

Auparavant, l'absence de technologie de référence capable d'évaluer automatiquement les performances de planification des tâches nécessitait des évaluations manuelles, qui demandaient beaucoup de travail. Par exemple, dans les recherches existantes, y compris SayCan de Google, la méthode adoptée impliquait plusieurs individus observant directement les résultats des tâches en cours d'exécution, puis votant sur leur succès ou leur échec.

Cette approche nécessitait non seulement beaucoup de temps et d'efforts pour l'évaluation des performances, ce qui la rendait lourde, mais introduisait également le problème du jugement subjectif influençant les résultats.

La technologie LoTa-Bench développée par ETRI automatise le processus d'évaluation en exécutant réellement des plans de tâches générés par de grands modèles de langage basés sur des commandes utilisateur et compare automatiquement les résultats aux résultats escomptés des commandes pour déterminer si les plans ont réussi ou non. Cette approche réduit considérablement le temps et les coûts d’évaluation et garantit que les résultats de l’évaluation sont objectifs.

ETRI a révélé des résultats de référence pour différents grands modèles de langage, indiquant que le GPT-3 d'OpenAI a atteint un taux de réussite de 21,36 %, le GPT-4 de 40,38 %, le modèle LLaMA 2-70B de Meta de 18,27 % et le modèle MPT-30B de MosaicML de 18,75 %. .

Il a été noté que les modèles plus grands ont tendance à avoir des capacités supérieures de planification des tâches. Un taux de réussite de 20 % implique que sur 100 instructions, 20 plans ont réussi à atteindre l'objectif des instructions.

Dans LoTa-Bench, l'évaluation des performances est effectuée dans des environnements de simulation virtuelle développés par l'Allen Institute for AI (AI2-THOR) et le Massachusetts Institute of Technology (MIT's VirtualHome) destinés à la recherche et au développement de la robotique et de l'intelligence des agents incarnés. L'évaluation a utilisé l'ensemble de données ALFRED qui comprenait des instructions sur les tâches ménagères quotidiennes telles que « Placer une pomme refroidie au micro-ondes » etc.

En tirant parti des avantages de la technologie LoTa-Bench pour une vérification facile et rapide des nouvelles méthodes de planification des tâches, l'équipe de recherche a découvert deux stratégies pour améliorer les performances de la planification des tâches grâce à une formation basée sur les données : la sélection d'exemples en contexte et la replanification basée sur les commentaires. Ils ont également confirmé qu’un réglage fin améliore efficacement les performances de la planification des tâches basée sur la langue.

Minsu Jang, chercheur principal au laboratoire de robotique sociale de l'ETRI, a déclaré : « LoTa-Bench marque la première étape dans le développement de l'IA de planification de tâches. Nous prévoyons de rechercher et de développer des technologies capables de prédire les échecs de tâches dans des situations incertaines ou d'améliorer l'intelligence de génération de tâches en demandant et en recevant de l'aide humaine. Cette technologie est essentielle pour réaliser l’ère d’un robot par foyer. »

Jaehong Kim, directeur de la section de recherche en robotique sociale de l'ETRI, a annoncé : « ETRI se consacre à l'avancement de l'intelligence robotique en utilisant des modèles de base pour réaliser des robots capables de générer et d'exécuter divers plans de mission dans le monde réel. »

En publiant le logiciel en open source, les chercheurs de l'ETRI prévoient que les entreprises et les établissements d'enseignement pourront utiliser librement cette technologie, accélérant ainsi l'avancement des technologies associées.