Les écouteurs alimentés par AI offrent une traduction de groupe avec clonage vocal et audio spatial 3D

Les écouteurs alimentés par AI offrent une traduction de groupe avec clonage vocal et audio spatial 3D

Tuochao Chen, étudiante doctorale de l’Université de Washington, a récemment visité un musée au Mexique. Chen ne parle pas espagnol, alors il a dirigé une application de traduction sur son téléphone et a pointé le microphone au guide. Mais même dans le calme relatif d’un musée, le bruit environnant était trop. Le texte résultant était inutile.

Diverses technologies ont émergé récemment la traduction courante promettant, mais aucun de ces problèmes de Chen des espaces publics. Les nouveaux lunettes de Meta, par exemple, ne fonctionnent qu’avec un haut-parleur isolé; Ils jouent une traduction vocale automatisée une fois le haut-parleur.

Maintenant, Chen et une équipe de chercheurs de l’UW ont conçu un système de casque qui traduit plusieurs orateurs à la fois, tout en préservant la direction et les qualités des voix des gens. L’équipe a construit le système, appelé traduction de la parole spatiale, avec des écouteurs de mise en bruit standard équipés de microphones. Les algorithmes de l’équipe séparent les différents haut-parleurs dans un espace et les suivent au fur et à mesure qu’ils se déplacent, traduisent leur discours et le jouent avec un retard de 2 à 4 secondes.

L’équipe a présenté ses recherches le 30 avril à la conférence ACM CHI sur les facteurs humains dans les systèmes informatiques à Yokohama, au Japon. Le code du périphérique de preuve de concept est disponible pour que d’autres puissent s’appuyer. « D’autres technologies de traduction se construisent sur l’hypothèse qu’une seule personne parle », a déclaré l’auteur principal Shyam Gollakota, professeur UW à la Paul G. Allen School of Computer Science & Engineering. « Mais dans le monde réel, vous ne pouvez pas avoir une seule voix robotique parler pour plusieurs personnes dans une pièce. Pour la première fois, nous avons conservé le son de la voix de chaque personne et de la direction dont il vient. »

Le système fait trois innovations. Tout d’abord, lorsqu’il est allumé, il détecte immédiatement le nombre de haut-parleurs dans un espace intérieur ou extérieur.

« Nos algorithmes fonctionnent un peu comme Radar », a déclaré l’auteur principal Chen, un doctorant de l’UW à l’école Allen. « Ils scannent donc l’espace à 360 degrés et déterminaient et mettent constamment à jour s’il y a une personne ou six ou sept. »

Le système traduit ensuite la parole et maintient les qualités expressives et le volume de la voix de chaque haut-parleur tout en fonctionnant sur un appareil, de tels appareils mobiles avec une puce Apple M2 comme des ordinateurs portables et Apple Vision Pro. (L’équipe a évité d’utiliser le cloud computing en raison des problèmes de confidentialité avec le clonage vocal.) Enfin, lorsque les haut-parleurs se déplacent la tête, le système continue de suivre la direction et les qualités de leur voix à mesure qu’ils changent.

Le système a fonctionné lorsqu’il est testé dans 10 paramètres intérieurs et extérieurs. Et dans un test de 29 participants, les utilisateurs ont préféré le système aux modèles qui ne suivaient pas les haut-parleurs dans l’espace.

Dans un test utilisateur distinct, la plupart des participants ont préféré un délai de 3 à 4 secondes, car le système a fait plus d’erreurs lors de la traduction avec un retard de 1 à 2 secondes. L’équipe s’efforce de réduire la vitesse de traduction dans les futures itérations. Le système ne fonctionne actuellement que sur le discours commun, non un langage spécialisé tel que le jargon technique. Pour cet article, l’équipe a travaillé avec l’espagnol, l’allemand et le français, mais des travaux antérieurs sur les modèles de traduction ont montré qu’ils peuvent être formés pour traduire environ 100 langues.

« Il s’agit d’une étape vers la rupture des barrières linguistiques entre les cultures », a déclaré Chen. « Donc, si je marche dans la rue au Mexique, même si je ne parle pas espagnol, je peux traduire toutes les voix des gens et savoir qui a dit quoi. »

Qirui Wang, stagiaire de recherche à Hydrox AI et étudiant de premier cycle UW à l’école Allen tout en terminant cette recherche, et Runlin He, un doctorant de l’UW à l’école Allen, sont également des co-auteurs de ce document.