Où les modèles d'IA échouent pour imiter l'expressivité du discours humain

Ce n'est pas seulement ce qui est dit, mais comment il est articulé qui façonne le sens de la communication humaine, et les gens utilisent l'intonation pour mettre en évidence la partie la plus importante d'une phrase. Prenez, par exemple, la phrase « Molly a envoyé un melon ». Si quelqu'un demande: « Qui a posté le melon? » Les gens sont les plus susceptibles de souligner « Molly a posté un melon. « Si quelqu'un a demandé ce que Molly faisait avec le melon, ce serait » Molly par la poste un melon. « Si la question était de savoir ce que Molly a posté, la réponse est » Molly a envoyé un melon. «

Mais si vous posez l'une de ces questions à un modèle d'intelligence artificielle capable de parler, c'est une autre histoire. Jianjing Kuang, professeur agrégé de linguistique à la School of Arts & Sciences et directeur du Penn Phonet Laboratory, dit que si les robots d'IA peuvent articuler un mot avec précision, la technologie pour capturer l'intonation, connue sous le nom de concentration prosodique, « n'est pas encore tout à fait là. »

Cet été, elle a encadré trois étudiants de premier cycle – Kevin Li et Henry Huang, étudiants de deuxième année en informatique et Ethan Yang, une majeure en génie mécanique de troisième année – dans un projet de recherche comparant le discours humain et l'IA dans la production et la perception de la parole. Cela fait partie du programme de mentorat de recherche de premier cycle de Penn (PURM), une opportunité de recherche estivale de 10 semaines par le biais du Center for Hidgraduate Research and Fellowships qui est livré avec un prix de 5 000 $.

« J'ai toujours été intéressé par la linguistique et la phonétique, mais c'est une très bonne occasion pour moi de faire des recherches pratiques », explique Li, qui est de Kansas City, Kansas. Huang, qui est de Shenzhen, en Chine, dit que l'expérience lui a appris à concevoir une expérience et à analyser les données.

Entraînant différents contextes, les étudiants ont généré la phrase « Molly a envoyé un melon » dans 15 plates-formes de texte à dispection AI (TTS) – des grandes entreprises comme Openai, Google et Meta à des plus petites comme Sesame AI et Eleven Labs. Ils ont également capturé l'audio des bénévoles humains dans le studio d'enregistrement de Kuang pour comparer le discours généré par l'AI au même discours des humains.

Yang, une majeure en génie mécanique de troisième année de Diamond Bar, en Californie, a déclaré que ce projet lui a appris à contrôler l'intonation dans les modèles TTS. L'équipe a ensuite analysé les mesures acoustiques telles que la hauteur, l'intensité et la durée des mots à l'aide du logiciel Praat.

Ils ont constaté que, par rapport à la production humaine, la plupart des modèles TTS ne se concentraient pas sur le bon endroit. Par exemple, Li a tiré un graphique montrant que lorsqu'il est invité à se concentrer sur le mot «envoyé par la poste», la durée du mot moyen est nettement plus longue de la part des humains que de n'importe quel robot de la parole.

Les étudiants ont trouvé « une énorme variabilité entre les modèles », explique Kuang. Certains modèles ont été explicitement chargés de souligner un certain mot mais ne pouvaient pas, tandis que d'autres, comme Openai et Google Gemini, étaient plus capables. Certains modèles ont souligné plus d'un mot, l'un a transformé la phrase en un point d'interrogation, et un autre n'a même pas terminé la phrase. Une autre constatation intéressante, dit Kuang, est que les robots de la parole ont eu plus de facilité à souligner « Molly » que les mots plus tard dans la phrase.

En plus de la production de la parole, les élèves ont organisé une expérience de perception, demandant aux auditeurs humains d'évaluer le naturel d'un clip audio et d'identifier si l'orateur est humain ou AI. Kuang dit que la précision de l'identification de l'homme contre l'IA est très élevée, ce qui suggère que la parole d'IA ne ressemble toujours pas à l'homme.

« L'objectif est de construire des ponts entre la science et l'industrie. Je pense qu'ils ont besoin de nous – notre connaissance – de dire à quel point le modèle est bon et de nous rapprocher du discours d'IA véritable et expressif », dit-elle. Kuang ajoute que travailler avec l'IA a également des implications pour mieux comprendre la parole humaine et son caractère unique, comme pourquoi certaines tâches nous viennent facilement et comment développer de meilleures thérapies pour les troubles de la parole.