Sony présente l'IA pour la génération d'accompagnements à un seul instrument dans la production musicale
Au cours des dernières décennies, de nombreux ingénieurs ont commencé à développer des outils basés sur l’intelligence artificielle (IA) qui peuvent soutenir le travail des professionnels de la création, en accélérant ou en améliorant la production de différents types de contenu. Il s’agit notamment de modèles informatiques capables de générer des pistes musicales et de faciliter certains aspects de la production musicale.
Les chercheurs de Sony CSL ont travaillé sur diverses solutions basées sur l'IA conçues pour aider les musiciens, les producteurs de musique et autres passionnés de musique tout au long de leurs efforts créatifs. Dans un article récent publié sur le arXiv serveur de préimpression, ils ont présenté Diff-A-Riff, un modèle informatique prometteur capable de générer des accompagnements instrumentaux de haute qualité pour n'importe quelle musique.
« Notre article récent s'appuie sur nos recherches précédentes sur la génération d'accompagnements de basse », a déclaré l'équipe musicale de Sony CSL Paris à Tech Xplore. « Alors que nos travaux précédents se concentraient sur la création de lignes de basse pour compléter des pistes existantes, Diff-A-Riff étend ce concept pour générer des accompagnements à un seul instrument de tout type. »
« Cette évolution a été inspirée par les besoins pratiques des producteurs de musique et des artistes, qui recherchent souvent des outils pour améliorer leurs compositions existantes en ajoutant des instruments supplémentaires, et par leur désir d'être flexible concernant les types/timbres d'instruments. »
L'objectif principal des travaux récents de l'équipe musicale de Sony CSL Paris était de créer un système d'IA polyvalent capable de générer des accompagnements instrumentaux de haute qualité s'intégrant parfaitement à un contexte musical donné, en se concentrant sur un instrument à la fois. L’outil qu’ils ont développé repose sur deux techniques d’apprentissage profond distinctes et puissantes : les modèles de diffusion latente et les auto-encodeurs de cohérence.
«Diff-A-Riff exploite la puissance des modèles de diffusion latente et des autoencodeurs de cohérence pour générer des accompagnements instrumentaux qui correspondent au style et à la tonalité d'un contexte musical donné», ont-ils expliqué.
« Le système compresse d'abord l'audio d'entrée en une représentation latente à l'aide d'un encodeur automatique de cohérence pré-entraîné, un codec développé en interne, qui garantit un décodage de haute qualité via un décodeur génératif. Cette représentation compressée est ensuite introduite dans notre modèle de diffusion latente, qui génère un nouvel audio dans l'espace latent, conditionné par le contexte d'entrée et des références de style facultatives à partir d'intégrations de texte ou d'audio.
Diff-A-Riff présente de nombreux avantages par rapport aux autres outils de génération d'accompagnement instrumental. Le premier est son contrôle polyvalent, qui permet aux utilisateurs de conditionner à la fois les invites audio et textuelles, leur offrant une plus grande flexibilité dans le guidage de la génération des accompagnements. De plus, Diff-A-Riff produit des sorties de haute qualité, avec un audio pseudo-stéréo de 48 kHz.
« Diff-A-Riff réduit également considérablement le temps d'inférence et l'utilisation de la mémoire par rapport aux systèmes précédents, car nous utilisons un taux de compression de 64x », explique l'équipe. « Nous avons découvert qu'il peut générer des accompagnements pour n'importe quel contexte musical, ce qui en fait un outil précieux pour les producteurs de musique et les artistes.
« De plus, il propose des commandes supplémentaires, telles que l'interpolation entre les références d'instruments et les invites de texte, la définition de la largeur stéréo et la possibilité de créer des transitions fluides pour les boucles. »
L'équipe musicale de Sony CSL a évalué son modèle lors d'une série de tests. Leurs résultats étaient très prometteurs, car le modèle générait des accompagnements instrumentaux de haute qualité pour diverses pistes musicales que les auditeurs humains étaient incapables de distinguer des accompagnements enregistrés joués par des musiciens humains.
« Une vitesse de génération de trois secondes pour une minute d'audio est sans précédent et est obtenue grâce au taux de compression élevé de l'autoencodeur de cohérence », ont-ils déclaré. « Dans des scénarios réels, Diff-A-Riff peut être appliqué à la production musicale, à la collaboration créative et à la conception sonore. »
L'outil de génération d'accompagnement instrumental développé par Sony CSL pourrait bientôt être utilisé par les producteurs de musique du monde entier, leur permettant de créer des pistes instrumentales qui complètent leurs compositions existantes. Diff-A-Riff pourrait également être utilisé par les artistes pour explorer facilement de nouvelles idées musicales ou par les concepteurs sonores pour tester rapidement différents timbres ou styles de jeu pour leurs projets.
« Nos futurs plans de recherche incluent l'amélioration des capacités de Diff-A-Riff en améliorant les mécanismes de contrôle et en explorant de nouvelles façons d'intégrer le modèle aux différentes étapes du processus de production musicale », a ajouté l'équipe.
« Nous visons à fournir des entrées encore plus intuitives pour rendre le modèle plus accessible et utile aux artistes, y compris les amateurs et les professionnels. De plus, nous prévoyons de collaborer avec des musiciens et des compositeurs pour affiner et valider davantage nos modèles, en nous assurant qu'ils répondent aux besoins pratiques de utilisateurs de l'industrie musicale.