Les intelligences artificielles créatives vont encore tuer l'art.  Cela n'a aucune importance

Meta lance MusicGen, une IA générative qui transforme les paroles et les mélodies en nouvelles chansons. Et c’est open source

Jusqu’à présent, les modèles d’IA générative nous surprenaient par leur capacité à converser, à écrire des textes en tous genres ou à créer des images fantastiques, mais ils disposent désormais d’un nouveau système qui va encore plus loin dans cette ambitieuse conquête du champ créatif : la musique.

MusicGen. C’est le nom du nouveau modèle d’IA générative créé par Meta. Comme dans d’autres cas, il est basé sur l’architecture Transformer de Google, qui a tout changé dans ce domaine. L’idée ici n’est pas de prédire le prochain mot significatif, comme c’est le cas avec ChatGPT, mais de faire la même chose, mais avec un extrait musical.

Comment ça marche. Comme le souligne The Decoder, les responsables de l’étude expliquent que le système décompose les données audio en composants plus petits grâce au « tokenizer » audio de Meta, appelé Encodec. L’équipe a formé le modèle sur 20 000 heures de musique sous licence, en s’appuyant largement sur un ensemble interne de 10 000 pistes audio de haute qualité, ainsi que sur des données musicales de Shutterstock et Pond5.

Texte et audio comme invite. Sur d’autres plates-formes, le texte est généralement utilisé pour obtenir une réponse, et la même chose se produit ici : il suffit d’entrer une invite descriptive pour obtenir une petite mélodie. On peut aussi combiner ce texte avec un petit fragment musical pour un résultat surprenant. Un bon ensemble d’exemples avec les résultats générés à la fois par MusicGen et des systèmes similaires sont présentés sur le site Web du projet.

limites. Les résultats sont, comme dans le cas de l’imagerie de la première génération de ces modèles, surprenants mais pas nécessairement spectaculaires. Même ainsi, les combinaisons de remixage sont pratiquement illimitées, et encore une fois, utiliser des invites de texte aussi précises et complètes que possible peut aider à obtenir de petites mélodies qui peuvent servir d’inspiration aux artistes. Des expériences rapides peuvent être faites avec HuggingFace, par exemple.

Des millions et des millions de paramètres. Les chercheurs de Meta ont utilisé trois modèles de tailles différentes : 300 millions, 1,5 milliard et 3,3 millions de paramètres, et si ce dernier offrait la meilleure qualité audio, l’intermédiaire était le mieux noté par les auditeurs humains.

La musique générative progresse. Il existe d’autres modèles comme Riffusion ou bien sûr le bien connu MusicLM de Google qui proposait déjà ce type de solution à la création musicale, et d’après une évaluation mêlant métriques objectives et subjectives, MusicGen les surpasse tous

Open source. Une autre section frappante de MusicGen est qu’il s’agit d’un développement open source. Le code et les modèles sont disponibles sur GitHub et l’utilisation commerciale est autorisée. Meta suit donc la même ligne qu’il proposait avec LLaMA, même si dans ce dernier cas le modèle —concurrent de GPT-3 et GPT-4— était théoriquement restreint au domaine académique.

Plus de problèmes pour l’industrie. Ces types de systèmes représentent une fois de plus une menace pour l’industrie musicale, qui pourrait être affectée par la capacité créative de ces plateformes. Il y a quelques semaines, nous avons parlé du thème musical imitant le style de Drake et The Weeknd et comment cela a secoué les réseaux sociaux : avec MusicGen, nous avons un autre outil à notre portée qui peut certainement aider à proposer des changements dans le processus créatif, désormais plus accessible que jamais au grand public. L’artiste Grimes a même prévu que n’importe qui pourrait utiliser sa musique pour former des systèmes d’IA tant que celui qui le ferait partagerait 50/50 des revenus avec elle.