Des voix générées par l'AI-AI sont désormais indiscernables de vraies voix humaines

Beaucoup de gens considèrent toujours le discours généré par l'IA comme un son « faux » ou peu convaincant et facilement raconté en dehors des voix humaines. Mais de nouvelles recherches de l'Université Queen Mary de Londres montrent que la technologie vocale de l'IA a maintenant atteint un stade où il peut créer des « clones vocaux » ou des fesses profondes qui semblent aussi réalistes que les enregistrements humains.

L'œuvre a été publiée dans Plos un.

L'étude a comparé de vraies voix humaines avec deux types différents de voix synthétiques, générées à l'aide d'outils de synthèse vocale d'IA de pointe. Certains ont été « clonés » à partir d'enregistrements vocaux de vrais humains, destinés à les imiter, et d'autres ont été générés à partir d'un grand modèle vocal et n'avaient pas de homologue humain spécifique.

Les participants ont été invités à évaluer les voix les plus réalistes et lesquelles qui semblaient les plus dominantes ou dignes de confiance. Les chercheurs ont également examiné si les voix générées par l'IA étaient devenues «hyperréales», étant donné que certaines études ont montré que les images de visages générées par l'AI sont désormais plus souvent humaines que les images de vrais visages humains.

Bien que l'étude n'ait pas trouvé de « effet d'hyperréalisme » des voix de l'IA, elle a constaté que les clones de voix peuvent sembler aussi réels que les voix humaines, ce qui rend difficile les auditeurs de les distinguer. Les deux types de voix générés par l'IA ont été évalués comme plus dominants que les voix humaines, et certains ont également été perçus comme plus fiables.

La Dre Nadine Lavan, maître de conférences en psychologie à l'Université Queen Mary de Londres, qui a co-dirigé l'étude, a déclaré: « Les voix générées par l'AI sont partout dans nous maintenant. Nous avons tous parlé à Alexa ou Siri, ou nous avons pris nos appels par des systèmes de service client automatisé.

« Ces choses ne ressemblent pas tout à fait à de vraies voix humaines, mais ce n'était qu'une question de temps jusqu'à ce que la technologie d'IA commence à produire un discours naturaliste et à consonance humaine. Notre étude montre que cette fois est venue, et nous devons urgemment à comprendre comment les gens perçoivent ces voix réalistes. »

Le Dr Lavan a souligné à quel point l'équipe avait facilement et rapidement pu créer des clones, ou DeepFakes, de vraies voix (avec le consentement de leurs propriétaires) en utilisant un logiciel disponible dans le commerce. « Le processus nécessitait une expertise minimale, seulement quelques minutes d'enregistrements vocaux et presque pas d'argent », a-t-elle déclaré. « Cela montre à quel point la technologie vocale de l'IA est accessible et sophistiquée. »

Le rythme d'amélioration a été très rapide, a noté le Dr Lavan, et a de nombreuses implications pour l'éthique, le droit d'auteur et la sécurité, en particulier dans des domaines comme la désinformation, la fraude et l'identité.

« Cependant, la capacité de générer des voix réalistes à grande échelle ouvre des opportunités passionnantes », a-t-elle poursuivi. « Il peut y avoir des applications pour une amélioration de l'accessibilité, de l'éducation et de la communication, où des voix synthétiques de haute qualité sur mesure peuvent améliorer l'expérience utilisateur. »