La parole générée par l’IA apporte une voix personnelle aux livres

Il y a un nouveau chapitre audacieux dans les livres audio.

Des chercheurs de Microsoft, du MIT et du Projet Gutenberg, qui hébergeaient des archives numériques de littérature du domaine public bien avant Internet, ont annoncé une initiative qui apporte un discours naturel généré par l’IA à des livres allant de « After a Few Words » de Randall Garrett à « Zut et autres Parisiens. »

La production automatique de livres audio n’a rien de nouveau ; ça existe depuis des années. Mais l’annonce d’une nouvelle génération de livres audio dans le arXiv La prépublication « Création automatique de livres audio à grande échelle » détaille une nouvelle approche qui génère une nouvelle dimension de réalisme avec des vocalisations alimentées par la dernière génération de processus neuronaux de synthèse vocale. Cela permet également de gagner du temps et de réduire les coûts.

Les livres audio actuels du domaine public souffrent en grande partie d’une narration à consonance robotique. La nouvelle approche générera une narration avec une nuance émotionnelle distinctive.

Selon Brendan Walsh, ingénieur logiciel chez Microsoft, « Nous utilisons un haut-parleur automatique et un système d’inférence d’émotion pour modifier dynamiquement la voix et le ton de lecture en fonction du contexte. »

La narration est lue d’une seule voix tandis que les dialogues des personnages de l’histoire sont prononcés à différentes voix. Le ton et le style de parole sont déterminés par le système d’inférence neuronale.

« Cela rend les passages avec plusieurs personnages et dialogues émotionnels plus réalistes et plus engageants », a déclaré Walsh.

Les clients peuvent ajuster le son de la voix, la hauteur, la vitesse et l’intonation selon leurs goûts personnels.

Les chercheurs ont indiqué qu’ils préparaient une démonstration en direct qui permettra au public de générer un livre audio avec sa propre voix. Cela nécessitera seulement de petits échantillons de leur voix qui seront utilisés pour générer un volume complet.

Le Wall Street Journal a rapporté en avril dernier que DeepZen Ltd. utilisait des échantillons de la voix de l’acteur Edward Hermann pour les narrations de dizaines de livres audio récents. Il est intéressant de noter que Herrmann est décédé il y a près de dix ans.

Mais grâce à la technologie d’IA générative, des échantillons de sa voix ont été utilisés pour construire avec précision un dialogue fluide, avec une intonation naturelle, pratiquement impossible à distinguer des enregistrements de la voix réelle du défunt acteur.

Le Projet Gutenberg a déjà mis en ligne environ 5 000 livres totalisant 35 000 heures de discours. Tout le monde peut se connecter et écouter, et le service est gratuit.

Ils offriront bientôt la possibilité aux utilisateurs d’enregistrer leurs propres livres. Les utilisateurs compléteront un profil vocal en lisant plusieurs phrases. Le projet Gutenberg créera une voix générée par l’IA qui sera immédiatement disponible pour les utilisateurs.

Les utilisateurs peuvent réciter une préface ou une dédicace avec leur propre voix, puis télécharger le texte complet de leur livre. Les clients recevront un e-mail contenant un lien vers leur livre audio une fois terminé.

Bientôt, lorsque maman devra travailler tard et ne pourra pas lire une histoire à son fils de 7 ans, il lui suffira d’appeler son livre audio préféré et d’entendre la voix réconfortante de maman lui raconter des histoires d’aventures.

Les acteurs en herbe peuvent également générer des cadeaux rapides pour leurs amis en se sélectionnant pour différents rôles dans une pièce shakespearienne qui donne vie aux personnages avec leur propre voix.

Et, en supposant une coopération juridique avec les parties participantes, qui ne sauterait pas sur l’occasion de choisir parmi les voix de Taylor Swift, Arnold Schwarzenegger ou Morgan Freeman pour raconter son propre roman ?