Les acteurs n'ont plus besoin de travailler, une intelligence artificielle peut le faire à leur place.  Et Bruce Willis le sait.

Ces chercheurs ont créé le « DALL-E » de l’audio : c’est AudioGen

Les générateurs d’images à partir de texte Ils semblent être venus pour rester. Si nous voulons »une peinture d’un mignon chaton noir dans une ville au style cyberpunk» et nous ne voulons pas nous atteler au crayon ou au pinceau, nous pouvons renoncer à une partie du processus de création traditionnel et demander à DALL-E, Midjourney ou Stable Diffusion de faire le travail à notre place.

C’est quelque peu surprenant étant donné qu’il y a quelques années à peine, c’était inimaginable. Cependant, les avancées dans le domaine de l’intelligence artificielle se multiplient. Il y a quelques mois, les premiers générateurs de vidéos textuelles ont commencé à apparaître, et maintenant il est temps d’accueillir AudioGen, un générateur audio. Un « DALL-E », du son.

L’IA nous surprend à nouveau

AudioGen est un programme d’intelligence artificielle qui génère des sons à partir de descriptions textuelles. Comme l’expliquent des chercheurs de Meta et de l’Université hébraïque de Jérusalemqui sont responsables du projet, un modèle génératif autorégressif est utilisé pour interpréter les requêtes en langage naturel et générer des échantillons audio à partir de rien.

Voyons quelques exemples d’AudioGen en action. Comme on peut l’entendre dans le Tweet partagé par le chercheur Felix Kreuk, le programme d’intelligence artificielle a pu générer des sons liés à « quelqu’un qui siffle pendant que le vent souffle », « un homme parle pendant que les oiseaux chantent et les chiens aboient », « des sirènes et un approche et passage du moteur bourdonnant », entre autres commandes passées en langage naturel.

Selon les chercheurs, ce modèle d’IA surmonte des problèmes audio complexes. Par exemple, peut distinguer différents types de sons et les séparer acoustiquement. Par exemple, vous pouvez filtrer deux personnes qui parlent en même temps. Et c’est une caractéristique élémentaire de pouvoir générer une grande variété d’échantillons audio précis.

Nous ne savons pas précisément quel ensemble de données a été utilisé, mais les membres du projet disent avoir formé le modèle « à l’aide de dix ensembles de données audio et d’étiquettes correspondantes ». Rappelons que de nombreux modèles d’IA sont formés avec des ensembles ou sous-ensembles de données contenant des créations protégées par le droit d’auteur, ce qui génère des débats par rapport au droit d’auteur.

A noter que le projet se développe toujours à huis clos. Cependant, les chercheurs Ils ont l’intention de le rendre accessible au public. Ainsi, ils publieront prochainement le code AudioGen et d’autres détails techniques sur leur profil GitHub. De plus, expliquent-ils, ils continueront à travailler pour améliorer les capacités du programme. Nous devons attendre pour savoir s’il sera disponible pour tout le monde comme les générateurs d’images.

Images | Pawel Czerwinski