génère des podcasts "presque humains" à partir des textes que vous ajoutez

À l'été 2023, Google a annoncé l'arrivée de NotebookLM, une évolution du bloc-notes traditionnel dans laquelle l'IA a pris une place particulière. Il n'est disponible que récemment en espagnol (nos collègues de Simseo Android l'ont testé), mais une nouvelle fonctionnalité frappante est arrivée. Celui qui fait que ce bloc-notes nous parle sous format podcast.

L' »Aperçu audio » arrive. Google a annoncé hier l'arrivée d'une nouvelle fonctionnalité appelée « Audio Overview » (quelque chose comme « Audio Summary »). Selon les responsables de ce développement, il est possible de convertir des documents, des présentations ou des diagrammes en podcasts audio uniques en un seul clic. Il s'agit d'une manière unique de réviser et de comprendre les documents que nous avons téléchargés sur l'application, et qui nous propose leurs résumés non pas sous forme de texte, mais dans une conversation au format podcast avec des voix synthétisées par l'IA.

Capture d'écran 2024 09 12 à 11 17 53

Je vous encourage à essayer NotebookLM avec ce type de résumés vocaux. Le résultat est incroyable.

Un podcast synthétique. Lorsque vous ajoutez des documents à un nouveau bloc-notes, le système offre la possibilité de les convertir en une sorte de podcast. Dans l'audio qui en résulte, deux voix de synthèse interviennent – l'une masculine, l'autre féminine – qui dialoguent et se chargent précisément de résumer les documents afin que leur compréhension soit plus facile et plus divertissante.

Je l'ai essayé et c'est incroyable. En fait, j'ai utilisé NotebookLM et son nouvel Audio Overview pour obtenir un podcast expliquant en quoi consiste Audio Overview. Je l'ai alimenté avec des fichiers txt dans lesquels j'ai copié l'annonce officielle de Google et trois articles d'actualité provenant de diverses sources (The Verge, PCMag et TechCrunch) à ce sujet. Après avoir ajouté les textes, j'ai cliqué sur « Guide Notebook » (en bas à droite de l'interface) et en 3 ou 4 minutes environ le résumé audio a été généré, qui dure 9h23. Le résumé au format podcast est fantastique, divertissant et instructif, et il n'invente pas non plus de choses et ne fait pas d'erreurs car les informations utilisées sont celles que nous avons sélectionnées. Bien entendu, ce n’est que si ces informations sont inventées ou comportent des erreurs qu’elles peuvent se retrouver dans le podcast final.

Des voix trop humaines ? En écoutant certains des podcasts générés ainsi – vous en avez un exemple dans l'annonce officielle – vous pourrez voir comment les voix synthétisées qui interviennent parlent de manière très humaine. Ils s'interrompent, utilisent des métaphores, répondent à ce que dit l'autre par des choses comme « Bien » ou « Oui » et adoptent des tons de voix qui sont tout sauf monotones, justement pour en faire plus. Le résultat est intéressant. La fonctionnalité, oui, est expérimentale et n'est disponible qu'en générant des audios en anglais, mais quand même son exécution est étonnante, même si évidemment elle peut être exposée à des erreurs si vous ne comprenez pas les termes ou acronymes utilisés dans les documents, par exemple.

Un avenir probable pour les podcasts. Cet outil laisse entrevoir une possible évolution des podcasts dans lesquels on n’aura même plus besoin de les enregistrer. Sachant qu'il existe déjà des outils capables de synthétiser notre voix, nous pourrions utiliser NotebookLM et son Audio Overview avec cette voix clonée justement pour ne pas avoir à héberger directement le podcast. C'est quelque chose qui peut réellement être fait aujourd'hui : nous pouvons transcrire le podcast obtenu puis le synthétiser à nouveau avec la voix clonée avec l'un des services qui y parviennent. Il semble raisonnable de penser qu’il ne faudra pas longtemps pour que des outils permettant une telle chose existent, qui, nous insistons, offrent une alternative frappante – et inquiétante – dans le monde des podcasts générés par l’IA.

À Simseo | Jusqu’à présent, l’arnaque la plus courante à l’IA consistait à « cloner » des voix. C'est maintenant l'heure des appels vidéo