La vision de Sony pour un nouveau paradigme dans la production musicale

La vision de Sony pour un nouveau paradigme dans la production musicale

Les outils d’intelligence artificielle (IA) générative sont de plus en plus avancés et sont désormais utilisés pour produire divers contenus personnalisés, notamment des images, des vidéos, des logos et des enregistrements audio. Les chercheurs des Sony Computer Science Laboratories (CSL) ont récemment travaillé sur des outils destinés aux producteurs et aux artistes qui peuvent les aider à créer de nouvelles musiques.

Dans un article récent publié sur le arXiv serveur de préimpression, le chercheur Marco Pasini et ses collègues Stefan Lattner et Maarten Grachten de Sony CSL, ont présenté un nouveau modèle de diffusion latente capable de créer des accompagnements de basse réalistes et efficaces pour les pistes musicales. Les modèles de diffusion sont des techniques d'apprentissage en profondeur qui peuvent apprendre à générer des images, de l'audio ou d'autres échantillons qui capturent la structure globale sous-jacente à un ensemble de données.

« La génération audio musicale est actuellement un sujet de recherche populaire, avec de nombreux instituts, entreprises et start-ups explorant divers cas d'utilisation », a déclaré le co-auteur Lattner à Tech Xplore. « Chez Sony CSL, notre objectif est d'aider les artistes et producteurs de musique dans leur flux de travail en fournissant des outils basés sur l'IA. Cependant, nous avons remarqué que l'approche la plus courante des outils d'IA générant des pièces musicales complètes à partir de zéro (souvent contrôlées uniquement par la saisie de texte) n'est pas très intéressant pour les artistes. »

En examinant les techniques de génération musicale proposées précédemment, les chercheurs de Sony CSL ont constaté qu'elles n'étaient pas optimales pour les artistes et les producteurs. Plus précisément, ils ont constaté que de nombreux outils ne permettaient pas aux utilisateurs de créer une musique adaptée à leurs préférences et à leur style uniques.

Le bassiste IA : la vision de Sony pour un nouveau paradigme dans la production musicale

« Les artistes ont besoin d'outils capables de s'adapter à leur style unique et pouvant être utilisés à tout moment de leur processus de production musicale », a déclaré Lattner. « Un outil musical génératif devrait donc être capable d'analyser et de prendre en compte toute création intermédiaire de l'artiste lorsqu'il propose de nouveaux sons. »

Dans leur récent article, les chercheurs ont présenté un nouveau modèle capable de générer automatiquement des accompagnements de basse qui correspondent au style et à la tonalité d'une piste musicale d'entrée, quels que soient les éléments qu'elle contient (chant, guitare, batterie, etc.). L'outil qu'ils proposent a été conçu pour générer des lignes de basse incisives qui complètent bien les chansons, aidant ainsi les producteurs et les artistes dans leur processus créatif.

« Notre système peut traiter tout type de mixage musical contenant une ou plusieurs sources, comme le chant, la guitare, etc. », a expliqué Lattner. « Il s'agit d'un encodeur audio automatique qui encode efficacement le mixage en une représentation compressée, capturant l'essence de la musique. Cet encodage compressé est ensuite utilisé comme entrée dans une architecture spécialement conçue et basée sur une technologie générative de pointe appelée « diffusion latente ». Cette méthode génère des données dans un espace compressé, ce qui améliore les performances et la qualité. »

Lattner et ses collègues ont formé leur modèle de diffusion latente sur un ensemble de données d'encodages de guitare basse contenant divers exemples de morceaux de musique. Au fil du temps, le modèle a appris à créer une ligne de basse qui « joue avec » une piste musicale d'entrée.

Le bassiste IA : la vision de Sony pour un nouveau paradigme dans la production musicale

« Notre système présente un avantage unique : il peut générer des lignes de basse cohérentes de n'importe quelle longueur, par opposition à des durées fixes », a déclaré Lattner. « Nous avons également proposé une technique appelée 'style grounding' qui permet aux utilisateurs de contrôler le timbre et le style de jeu de la basse générée en fournissant un fichier audio de référence. »

Les chercheurs ont évalué leur modèle de diffusion latente dans une série de tests et ont découvert qu'il pouvait générer des accompagnements de basse appropriés pour des mixages de chansons arbitraires. Notamment, les lignes de basse créatives qu'il produisait correspondaient étroitement à la tonalité et au rythme d'un mixage musical d'entrée.

« Nous avons présenté ce que nous pensons être le premier modèle de diffusion latente conditionnelle conçu spécifiquement pour les tâches de génération d'accompagnement audio », a déclaré Lattner. « En l'entraînant sur des données appariées de mixages et de lignes de basse correspondantes, le modèle apprend le concept de cohérence musicale. »

À l'avenir, le nouvel outil de génération de lignes de basse créé par Pasini et ses collègues pourrait être utilisé par des musiciens, producteurs et compositeurs du monde entier, les aidant à écrire ou à améliorer les parties instrumentales de leurs morceaux. Les chercheurs envisagent désormais de créer des modèles similaires produisant d’autres éléments instrumentaux, tels que des accompagnements de batterie, de piano, de guitare, de cordes et d’effets sonores.

« Avec des développements ultérieurs, nous envisageons des outils créatifs permettant aux utilisateurs de personnaliser la basse ou d'autres accompagnements qu'ils pourront intégrer de manière transparente à leurs compositions », a ajouté Lattner.

« Des orientations supplémentaires pour les recherches futures impliquent la fourniture de mécanismes de contrôle supplémentaires et intuitifs : en plus des références audio, les utilisateurs pourraient guider le style via des invites de texte de forme libre ou des balises stylistiques descriptives. Plus largement, nous prévoyons de collaborer directement avec des artistes et des compositeurs pour affiner et valider ces outils d'accompagnement de l'IA pour valoriser au mieux leurs besoins créatifs. »