AI MusicGen de Meta crée de la musique à partir d'invites de texte

Crédit : domaine public Unsplash/CC0

Le philosophe du 19ème siècle Thomas Carlyle a déclaré un jour : « On dit bien que la musique est le discours des anges ».

On se demande ce que Tom aurait pensé d’une époque ultérieure au service du protopunk, du death metal et du rock gothique.

De plus, qu’aurait-il eu à dire sur les approches actuelles de la musique composée non pas par des anges mais par des CPU, de la RAM et de grands modèles de langage ?

Meta a annoncé la semaine dernière avoir développé un processeur de musique IA qui génère de la musique basée sur des descriptions en langage naturel.

MusicGen de Meta, qui fait suite à la sortie de MusicLM de Google en janvier, qui génère de la musique basée sur des invites textuelles ou des fredonnements, a été formé sur 20 000 heures de musique. Son code open source est disponible sur Github et le modèle peut être testé en ligne sur Hugging Face.

Les utilisateurs entrent une brève description de la musique qu’ils souhaitent entendre, par exemple « Un mélange dynamique d’éléments hip-hop et orchestraux, avec des cordes et des cuivres amples, évoquant l’énergie vibrante de la ville ». Ou la description pourrait être plus simple : « chanson rock des années 90 avec un riff de guitare ».

En option, une chanson peut être téléchargée pour aider à guider la création du contenu souhaité.

MusicGen génère un clip de 12 secondes en quelques minutes.

Nous présentons MusicGen : Un modèle de génération de musique simple et contrôlable. MusicGen peut être invité à la fois par du texte et par une mélodie.
Nous publions du code (MIT) et des modèles (CC-BY NC) pour la recherche ouverte, la reproductibilité et pour la communauté musicale : https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf

– Félix Kreuk (@FelixKreuk) 9 juin 2023

Selon leurs évaluations du programme, Meta a constaté que MusicGen faisait mieux sur les mesures objectives et subjectives que d’autres programmes comparables tels que MusicLM, Diffusion et Noise2Music.

« MusicGen produit des échantillons de haute qualité qui sont mieux alignés mélodiquement avec une structure harmonique donnée, tout en adhérant à une description textuelle », a rapporté Meta dans un article publié le 8 juin sur le arXiv serveur de préimpression.

L’outil est considéré comme une aide potentiellement inestimable pour les compositeurs et les interprètes.

Meta a testé trois versions de son modèle. Ils variaient dans la quantité de détails musicaux fournis : 300 millions, 1,5 milliard et 3,3 milliards de paramètres.

Dans les évaluations, Meta a découvert que les humains préféraient les résultats du modèle moyen (1,5 milliard de paramètres). Cela reflète peut-être la théorie du producteur français d’électronique et de musique Rone pour une production musicale réussie : « Moins, c’est plus ».

Le modèle avec le plus grand nombre de paramètres, cependant, a généré une sortie qui reflétait le plus précisément le texte et l’entrée audio.

Inévitablement, comme pour tant de projets d’IA dans d’autres domaines, des inquiétudes surgiront. Avant tout, il y a les questions juridiques entourant l’utilisation de matériel protégé par le droit d’auteur.

Meta dit que toutes les chansons utilisées dans la formation sont autorisées par des accords juridiques avec les détenteurs de droits d’auteur.

Mais les utilisateurs qui ajoutent une chanson ou le nom d’un artiste à leur description peuvent ouvrir la porte à une violation potentielle du droit d’auteur. MusicLM de Google interdit aux utilisateurs d’inclure les noms d’artistes, mais Meta ne le fait pas.

Et puisque Meta permet aux utilisateurs de télécharger également une chanson à utiliser pour aider à façonner la sortie finale, la ligne entre le contenu original et copié est floue.

Le chanteur et compositeur australien Nick Cave, abordant le sujet de la musique IA plus tôt cette année, n’a laissé aucun doute sur sa position sur la musique IA.

« Les chansons naissent de la souffrance … elles sont fondées sur la lutte humaine complexe et interne de la création », a-t-il déclaré. « Pour autant que je sache, les algorithmes ne se sentent pas. Les données ne souffrent pas. ChatGPT n’a pas d’être intérieur, il n’a été nulle part, il n’a rien enduré, il n’a pas eu l’audace d’aller au-delà de ses limites, et donc il n’a pas la capacité d’une expérience transcendante partagée, car il n’a aucune limite à partir de laquelle transcender. »

De même, Ben Beaumont-Thomas du Guardian a affirmé récemment : « L’IA sera toujours un acte d’hommage. Ce pourrait être un très bon acte d’hommage, du genre qui, s’il s’agissait d’un humain, obtiendrait des réservations toute l’année sur des bateaux de croisière et à Las Les casinos de Vegas. »

Mais le PDG de Spotify, Daniel Ek, a une vision plus optimiste de la musique générée par l’IA.

« Cela pourrait être potentiellement énorme pour la créativité… Cela devrait conduire à plus de musique [which] nous pensons que c’est formidable culturellement », a-t-il déclaré.