Parler et écouter clairement les systèmes d'IA vocale

Les humains changent de voix lorsqu’ils communiquent avec l’IA. Crédit : Michelle Cohn

Des millions de personnes communiquent désormais régulièrement avec des appareils basés sur l’IA, tels que des smartphones, des haut-parleurs et des voitures. L’étude de ces interactions peut améliorer la capacité de l’IA à comprendre la parole humaine et à déterminer comment parler avec la technologie a un impact sur le langage.

Dans leur conférence, « Discours clair dans la nouvelle ère numérique : Parler et écouter clairement les systèmes d’IA vocale », Georgia Zellou et Michelle Cohn de l’Université de Californie, Davis ont décrit des expériences visant à étudier comment la parole et la compréhension changent lorsque les humains communiquent avec l’IA. . La présentation a eu lieu dans le cadre de la 184e réunion de l’Acoustical Society of America du 8 au 12 mai.

Dans leur première série de questions, Zellou et Cohn ont examiné comment les gens ajustent leur voix lorsqu’ils communiquent avec un système d’IA par rapport à parler avec un autre humain. Ils ont constaté que les participants produisaient un discours plus fort et plus lent avec moins de variation de hauteur lorsqu’ils parlaient à l’IA vocale (par exemple, Siri, Alexa), même lors d’interactions identiques.

Du côté de l’écoute, les chercheurs ont montré que la qualité sonore d’un appareil a un impact sur la façon dont les auditeurs le comprendront. Si un auditeur pense que la voix qui parle est un appareil, il est moins capable de comprendre avec précision. Cependant, si cela semble plus humain, leur compréhension augmente. Un discours clair, comme dans le style d’un présentateur de nouvelles, était globalement mieux compris, même s’il était généré par une machine.

« Nous constatons certaines différences dans les modèles de discours dirigés par l’homme et la machine : les gens sont plus bruyants et plus lents lorsqu’ils parlent à la technologie. Ces ajustements sont similaires aux changements que les haut-parleurs effectuent lorsqu’ils parlent dans un bruit de fond, comme dans un restaurant bondé », dit Zellou. « Les gens s’attendent également à ce que les systèmes les comprennent mal et qu’ils ne soient pas en mesure de comprendre le résultat. »

Clarifier ce qui rend un locuteur intelligible sera utile pour la technologie vocale. Par exemple, ces résultats suggèrent que les voix de synthèse vocale devraient adopter un style « clair » dans des conditions bruyantes.

À l’avenir, l’équipe vise à appliquer ces études à des personnes de différents groupes d’âge et de différents milieux sociaux et linguistiques. Ils veulent également étudier comment les gens apprennent le langage à partir d’appareils et comment le comportement linguistique s’adapte à mesure que la technologie évolue.

« Il y a tellement de questions ouvertes », a déclaré Cohn. « Par exemple, l’IA vocale pourrait-elle être une source de changement de langue chez certains locuteurs ? À mesure que la technologie progresse, comme avec les grands modèles de langage comme ChatGPT, la frontière entre l’homme et la machine change. Comment notre langue va-t-elle changer avec elle ? »