Voicebox est le nouveau système d'IA génératrice de voix de Meta. Et c'est tellement bon que vous ne pourrez pas l'utiliser

Dans Meta, ils étaient un peu confus, mais au cours des dernières semaines, ils ont considérablement stimulé leurs efforts dans le domaine de l’intelligence artificielle. Le lancement de leur modèle LLaMA a été très célébré au sein de la communauté Open Source qui l’a utilisé comme base pour de nombreux projets indépendants, et il y a quelques jours, ils ont lancé MusicGen, leur IA générative pour créer de la musique. Vient maintenant un autre projet particulièrement frappant. Son nom : Voicebox.

boîte vocale. Les méta-chercheurs ont annoncé vendredi dernier Voicebox indiquant qu’il s’agit du premier modèle capable de généraliser les tâches de génération de la parole sans avoir été spécialement formé pour cela et donnant des résultats exceptionnels. Et cela va au-delà de ce que les autres modèles réalisent.

Text to speech, non. Du texte aux (nombreuses) voix. Pour commencer, Voicebox n’a pas besoin d’avoir été préalablement formé : on peut écrire une phrase que l’on veut convertir en voix et à partir de là, ce système créera ces voix synthétisées – pas parfaites, mais très convaincantes – dans différents styles que nous peut choisir de lire ce texte.

Du texte à votre voix. La fonctionnalité la plus « traditionnelle » est de pouvoir dupliquer la voix de n’importe quelle personne pour prononcer n’importe quelle phrase, et c’est précisément ce que Voicebox peut faire dans le cadre de ses capacités. Il suffit d’ajouter un petit clip audio (par exemple, le nôtre, et cela prend deux secondes) à côté de la phrase écrite que nous voulons dire, et le modèle pourra générer cette phrase lue avec la voix de l’audio agrafe.

Maintenant, vous pouvez parler dans beaucoup de langues. Il est également possible d’utiliser un texte écrit dans n’importe quelle langue et un clip audio dans votre langue maternelle. Voicebox vous fera « dire » cette phrase dans cette langue comme si c’était votre langue maternelle, quelque chose de particulièrement intéressant pour surmonter la barrière de la langue dans plusieurs scénarios.

Éliminer le bruit. Voicebox peut également détecter et supprimer les bruits de fond, par exemple un chien qui aboie pendant que vous enregistrez une vidéo et vous ne voulez pas que ces aboiements retentissent pendant que vous parlez.

où j’ai dit diego. Enfin, le développement de Meta est également capable de modifier le clip audio original avec votre voix dans lequel vous avez dit quelque chose pour changer n’importe quel mot et en insérer un nouveau indiqué dans l’invite de texte. Si vous aviez dit « Hé les gars, aujourd’hui on va parler d’intelligence artificielle » vous pourriez facilement le changer en « Mesdames et messieurs, aujourd’hui on va parler d’intelligence artificielle », par exemple.

Formation domaine public. Pour créer Voicebox, les ingénieurs de Meta l’ont formé avec 50 000 heures de voix à partir de livres audio en anglais et 60 000 heures supplémentaires de livres audio dans d’autres langues. C’est pourquoi sur les démos, les voix sonnent comme si elles lisaient un livre et ne prennent pas une intonation plus décontractée et conversationnelle. L’idée est justement que le modèle évolue vers cette capacité. Une fois de plus, le débat est servi : Meta ne précise pas quels livres audio ont été utilisés, mais un porte-parole de la société a expliqué à Gizmodo qu’il s’agissait de livres audio « du domaine public ».

deepfake en vue. Ce type de système présente des avantages notables et des cas d’utilisation très bénéfiques, mais il peut également être utilisé à mauvais escient pour créer des deepfakes. Avec eux, des escroqueries de toutes sortes peuvent être exécutées en se faisant passer pour des identités, ce qui signifie qu’à cette occasion, Meta a pris une décision importante avec Voicebox.

Ce ne sera pas Open Source. Contrairement à LLaMA, qui est Open Source et a été partagé avec la communauté universitaire, chez Meta, ils ont décidé de ne pas publier le code Voicebox. L’entreprise indique qu’en raison d’une utilisation abusive, elle préfère ne pas le rendre accessible au public car elle souhaite continuer à rechercher l’IA de manière responsable. Ils partagent l’étude, oui, pour maintenir la transparence sur les progrès dans ce domaine.