Un agent conversationnel incarné qui fusionne de grands modèles de langage et une assistance spécifique à un domaine

Le système FurChat. Crédit : Cherakara et al.

Les grands modèles linguistiques (LLM) sont des techniques avancées d’apprentissage en profondeur qui peuvent interagir avec les humains en temps réel et répondre à des invites sur un large éventail de sujets. Ces modèles ont gagné en popularité après la sortie de ChatGPT, un modèle créé par OpenAI qui a surpris de nombreux utilisateurs par sa capacité à générer des réponses humaines à leurs questions.

Bien que les LLM soient de plus en plus répandus, la plupart d’entre eux sont génériques plutôt que peaufinés pour fournir des réponses sur des sujets spécifiques. En revanche, les chatbots et robots introduits dans certains aéroports, centres commerciaux et espaces publics sont souvent basés sur d’autres types de modèles de traitement du langage naturel (NLP).

Des chercheurs de l’Université Heriot-Watt et d’Alana AI ont récemment créé FurChat, un nouvel agent conversationnel incarné basé sur des LLM conçu pour offrir des informations dans des contextes spécifiques. Cet agent, présenté dans un article pré-publié sur arXivpeut avoir des conversations orales engageantes avec les utilisateurs via le robot Furhat, un buste robotique humanoïde.

« Nous voulions étudier plusieurs aspects de l’IA incarnée pour l’interaction naturelle avec les humains », a déclaré à Tech Xplore Oliver Lemon, l’un des chercheurs qui ont mené l’étude. « En particulier, nous souhaitions combiner le type de conversation générale de type « domaine ouvert » que vous pouvez avoir avec des LLM comme ChatGPT avec des sources d’informations plus utiles et spécifiques, dans ce cas, par exemple, des informations sur un bâtiment et une organisation (c’est-à-dire, le National Robotarium du Royaume-Uni). Nous avons également construit un système similaire d’information sur un hôpital (l’hôpital Broca à Paris pour le projet SPRING), à l’aide d’un robot ARI et en français. »

L’objectif clé des travaux récents de l’équipe était d’appliquer les conversations spécifiques au contexte des LLM. De plus, Lemon et ses collègues espéraient tester la capacité de ces modèles à générer des expressions faciales appropriées alignées avec ce à quoi un robot ou un avatar communique ou répond à un moment donné. un temps donné.

« FurChat combine un grand modèle de langage (LLM) tel que ChatGPT ou l’une des nombreuses alternatives open source (par exemple, LAMA) avec un robot animé doté de la fonction vocale », a déclaré Lemon. « C’est le premier système que nous connaissons combinant des LLM pour des conversations générales et des sources d’informations spécifiques (par exemple, des documents sur une organisation) avec des animations automatiques expressives de robots. »

Les réponses données par l’agent conversationnel incarné de l’équipe et ses expressions faciales sont générées par le modèle GPT 3.5. Celles-ci sont ensuite transmises oralement et physiquement par le robot Furhat.

Le système FurChat. Crédit : Cherakara et al.
Utilisateur interagissant avec le système FurChat. Crédit : Cherakara et al.

Pour évaluer les performances de FurChat, les chercheurs ont réalisé un test avec des utilisateurs humains, leur demandant de partager leurs retours après avoir interagi avec l’agent. Ils ont spécifiquement installé le robot au UK National Robotarium en Écosse, où il a interagi avec les visiteurs et leur a offert des informations sur l’installation, ses efforts de recherche, les événements à venir, etc.

« Nous étudions comment utiliser et développer davantage les récentes avancées de l’IA dans les LLM pour créer des systèmes plus utiles, utilisables et convaincants pour la collaboration entre les humains, les robots et les systèmes d’IA en général », a expliqué Lemon. « Ces systèmes doivent être factuellement précis, par exemple en expliquant comment les informations qu’ils présentent proviennent de documents ou d’images spécifiques.

« Nous travaillons sur ces fonctionnalités pour garantir des systèmes d’IA et de robots plus fiables et explicables. Dans le même temps, nous travaillons sur des systèmes qui combinent vision et langage pour les agents incarnés qui peuvent travailler avec les humains. Cela aura une importance croissante dans le futur. les années à venir, à mesure que davantage de systèmes de collaboration homme-IA seront développés. »

Un agent conversationnel incarné qui fusionne de grands modèles de langage et une assistance spécifique à un domaine — Utilisateur interagissant avec le système FurChat. Crédit : Cherakara et al.

Lors de la première expérience réelle de l’équipe, le système FurChat s’est avéré efficace pour communiquer avec les utilisateurs de manière fluide et informative. À l’avenir, cette étude pourrait encourager l’introduction d’agents d’IA incarnés similaires basés sur LLM dans les espaces publics ou dans les musées, festivals et autres lieux.

« Nous travaillons désormais à étendre les agents conversationnels incarnés aux conversations dites ‘multipartites’, où l’interaction implique plusieurs humains, par exemple lors d’une visite à l’hôpital avec un proche », a ajouté Lemon. « Ensuite, nous prévoyons d’étendre leur utilisation à des scénarios dans lesquels des équipes de robots et d’humains collaborent pour résoudre des problèmes du monde réel. »