Dans quelle mesure les voix de l’IA sont-elles attrayantes ?

Dans quelle mesure les voix de l’IA sont-elles attrayantes ?

Avec les récents progrès de l’intelligence artificielle (IA), les voix synthétiques sont devenues de plus en plus répandues dans notre paysage sonore quotidien, soulevant la question suivante : les voix de l’IA peuvent-elles encore être distinguées des voix humaines, et dans quelle mesure leur attrait est-il ?

Des chercheurs de l’Institut Max Planck d’esthétique empirique (MPIEA) de Francfort-sur-le-Main, en Allemagne, et de l’Université des arts appliqués de Vienne, en Autriche, ont découvert que, même si les voix synthétiques sont souvent confondues avec des voix humaines, elles sont en moyenne perçues comme moins attrayantes. Les résultats de l'étude ont été récemment publiés dans la revue Les ordinateurs dans le comportement humain : les humains artificiels.

Au total, 75 personnes ont participé à l'étude en ligne. Les participants ont écouté différentes versions d’une phrase prononcée par huit voix. Quatre des voix étaient humaines et quatre étaient des voix de synthèse vocale (TTS) générées artificiellement. Chaque voix présentait la phrase sous forme de quatre émotions exprimées : neutre, heureuse, triste ou en colère. Les participants ont évalué l'attractivité des voix et indiqué à quel point ils aimeraient interagir avec elles. Ils ont également décrit l’émotion qu’ils ont ressentie dans chaque cas.

La première auteure, Camila Bruder, de la MPIEA, déclare : « Dans l'ensemble, les voix joyeuses ont été évaluées plus positivement que celles perçues comme tristes ou en colère, qu'elles soient humaines ou générées artificiellement. Cela suggère que l'émotion perçue influence l'évaluation de toutes les voix de la même manière, ou que les voix de l'IA sont traitées de la même manière que les voix humaines.

Les participants ont également été invités à classer chaque voix comme étant humaine ou générée par l'IA. Les voix humaines ont été identifiées correctement dans 86 % des cas, tandis que les voix de l’IA n’ont été identifiées correctement que dans 55 % des cas. Les erreurs d’appréciation les plus évidentes se sont produites avec les voix de l’IA perçues comme étant en colère. Cela peut être dû au fait que les participants s'attendaient à des voix synthétiques « sans émotion ».

De plus, l’âge a également joué un rôle dans l’évaluation. Les participants plus âgés avaient plus de difficulté à faire la distinction entre les voix humaines et celles générées par l’IA. Cependant, le fait que la plupart des participants aient été « trompés » par les voix TTS indique un progrès significatif dans l'expressivité et le naturel de ces systèmes.

L'auteur principal Pauline Larrouy-Maestri du MPIEA conclut : « Dans l'ensemble, les voix humaines étaient perçues comme plus attrayantes et socialement plus attrayantes que les voix synthétiques. Cependant, il y avait des différences individuelles significatives dans l'évaluation.