Le système de dialogue d'IA japonais accessible au public peut parler et écouter simultanément
Comment développez-vous un système d'IA qui imite parfaitement la façon dont les humains parlent? Les chercheurs de l'Université Nagoya au Japon ont fait un pas en avant significatif pour y parvenir. Ils ont créé J-Moshi, le premier système d'IA accessible au public spécialement conçu pour les modèles de conversation japonais.
J-Moshi capture le flux naturel de la conversation japonaise, qui a souvent de courtes réponses verbales appelées « Aizuchi » que les orateurs japonais utilisent pendant la conversation pour montrer qu'ils écoutent activement et engagent. Des réponses telles que « sou Deu ne » (c'est vrai) et « Naruhodo » (je vois) sont plus souvent utilisées que des réponses similaires en anglais.
L'IA traditionnelle a du mal à utiliser Aizuchi car elle ne peut pas parler et écouter en même temps. Cette capacité est particulièrement importante pour le dialogue d'IA japonais à consonance naturelle. Par conséquent, J-Moshi est devenu très populaire auprès des orateurs japonais qui reconnaissent et apprécient ses modèles de conversation naturels.

Construire un modèle de moshi japonais
L'équipe de développement, dirigée par des chercheurs du Higashinaka Laboratory de la Graduate School of Informatics, a construit J-Moshi en adaptant le modèle Moshi en langue anglaise créé par le laboratoire à but non lucratif Kyutai. Le processus a pris environ quatre mois et a impliqué la formation du système à l'aide de plusieurs ensembles de données vocaux japonais. La recherche est publiée sur le arxiv serveur de préimprimée.
Le plus grand ensemble de données a été obtenu auprès de J-Chat, le plus grand ensemble de données de dialogue japonais accessible au public créé et publié par l'Université de Tokyo. Il contient environ 67 000 heures d'audio des podcasts et YouTube. De plus, l'équipe a utilisé des ensembles de données de dialogue plus petits mais de meilleure qualité, certains collectés dans le laboratoire et d'autres datant de 20 à 30 ans. Pour augmenter leurs données de formation, les chercheurs ont également converti les conversations de chat écrites en discours artificiels avec des programmes de texte vocale qu'ils ont développés à cette fin.
En janvier 2024, J-Moshi a attiré une attention significative lorsque des vidéos de démonstration sont devenues virales sur les réseaux sociaux. Au-delà de sa nouveauté technique, il a des applications pratiques possibles dans l'apprentissage des langues. Par exemple, aider les locuteurs non natifs à pratiquer et à comprendre les modèles de conversation japonais naturels.
L'équipe de recherche explore également les applications commerciales dans les centres d'appels, les établissements de soins de santé et le service client. Ils notent que l'adaptation du système à des domaines ou des industries spécialisés est difficile en raison de la disponibilité limitée des données vocales japonaises par rapport aux ressources disponibles pour l'anglais.
Le chef de l'équipe de recherche, le professeur Ryuichiro Higashinaka, apporte une perspective unique à la recherche universitaire d'IA, ayant passé 19 ans en tant que chercheur d'entreprise chez NTT Corporation avant de rejoindre l'Université Nagoya il y a cinq ans.
Pendant son mandat de l'industrie, il a travaillé sur les systèmes de dialogue de consommateurs et les agents vocaux, y compris un projet pour réaliser une fonction de réponse aux questions pour Shabette Concier, un service d'agent vocal de NTT Docomo. Pour poursuivre les recherches sur les modèles de communication humaine, il a créé son propre laboratoire à la Graduate School of Informatics de l'Université Nagoya en 2020.
Son laboratoire de 20 membres relève désormais des défis qui arborent la recherche théorique et les applications pratiques, de la compréhension du timing conversationnel en japonais au déploiement de guides d'IA dans des espaces publics comme les aquariums.
« Une technologie comme J-Moshi peut être appliquée aux systèmes qui fonctionnent avec des opérateurs humains. Par exemple, nos robots de guidage à l'Aquarium Nifrel à Osaka peuvent gérer les interactions de routine indépendamment et facilement connecter les visiteurs aux opérateurs humains pour des questions complexes ou lorsque une assistance spécialisée est nécessaire », a déclaré le professeur Higashinaka. « Notre travail fait partie d'un projet National Cabinet Office Moonshot qui vise à améliorer la qualité des services grâce à des systèmes de collaboration avancés de l'IA-humaine. »

Opportunités et défis pour les interactions humaines-robot
Le professeur Higashinaka a expliqué les défis uniques auxquels la recherche sur l'IA japonaise est confrontée: « Le Japon souffre d'une pénurie de ressources vocales, limitant la capacité des chercheurs à former des systèmes de dialogue d'IA. Des problèmes de confidentialité doivent également être pris en compte. »
Cette pénurie de données a forcé des solutions créatives, telles que l'utilisation de programmes informatiques pour séparer les voix mixtes dans les enregistrements de podcast dans des pistes de haut-parleurs individuelles nécessaires à la formation.
Actuellement, les systèmes de dialogue ont des difficultés avec des situations sociales complexes, en particulier lorsque les relations interpersonnelles et les environnements physiques doivent être pris en compte. Les obstacles visuels tels que les masques ou les chapeaux peuvent également altérer leurs performances car des repères visuels importants comme les expressions faciales sont couverts. Les tests à Nifrel Aquarium d'Osaka ont montré que parfois l'IA ne peut pas gérer les questions des utilisateurs et a besoin d'opérateurs humains pour intervenir et reprendre la conversation.
Alors que J-Moshi représente une réalisation significative dans la capture des modèles de conversation japonais naturels avec des interventions de parole et d'Aizuchi, ces limites signifient actuellement qu'elle a actuellement besoin de systèmes de sauvegarde humains pour la plupart des applications pratiques. Les chercheurs s'efforcent d'améliorer ces systèmes de sauvegarde humaine pour atténuer ces défis. Il inclut des méthodes de résumé de dialogue et de systèmes de détection de panne de dialogue qui alerte les opérateurs de problèmes potentiels afin qu'ils puissent répondre rapidement.
Les recherches plus larges du laboratoire s'étendent au-delà de J-Moshi et comprennent plusieurs méthodes pour l'interaction humaine-robot. En collaboration avec des collègues travaillant sur des robots humanoïdes réalistes, ils développent des systèmes de robots qui coordonnent la parole, les gestes et le mouvement pour la communication naturelle.
Ces robots, y compris ceux fabriqués par Unitree Robotics, représentent les dernières avancées de l'IA sous forme physique, où les systèmes de dialogue doivent naviguer non seulement des nuances conversationnelles mais aussi une présence physique et une conscience spatiale. L'équipe présente régulièrement son travail pendant les jours d'ouverture du campus universitaire, où le public peut découvrir comment les systèmes de dialogue IA évoluent de première main.
Leur article sur J-Moshi a été accepté pour publication dans Interspeech, la plus grande conférence internationale dans le domaine de la technologie de la parole et de la recherche. Le professeur Higashinaka et son équipe ont hâte de présenter leurs recherches J-Moshi à Rotterdam, aux Pays-Bas, en août 2025.
« Dans un avenir proche, nous assisterons à l'émergence de systèmes capables de collaborer de manière transparente avec les humains par la parole naturelle et les gestes. J'aspire à créer les technologies fondamentales qui seront essentielles à une société aussi transformatrice », a déclaré le professeur Higashinaka.


