Un nouveau modèle de génération de musique symbolique utilisant des métadonnées musicales
L’intelligence artificielle (IA) a ouvert de nouvelles opportunités intéressantes pour l’industrie musicale, par exemple, en permettant le développement d’outils capables de générer automatiquement des compositions musicales ou des pistes d’instruments spécifiques. Pourtant, la plupart des outils existants sont conçus pour être utilisés par des musiciens, compositeurs et producteurs de musique, et non par des utilisateurs non experts.
Les chercheurs de LG AI Research ont récemment développé un nouveau système interactif qui permet à tout utilisateur de traduire facilement ses idées en musique. Ce système, décrit dans un article publié le arXiv serveur de préimpression, combine un transformateur autorégressif uniquement décodeur formé sur des ensembles de données musicales avec une interface utilisateur intuitive.
« Nous introduisons la démonstration de la génération de musique symbolique, en nous concentrant sur la fourniture de courts motifs musicaux qui servent de thème central au récit », ont écrit Sangjun Han, Jiwon Ham et leurs collègues dans leur article. « Pour la génération, nous adoptons un modèle autorégressif qui prend les métadonnées musicales en entrée et génère 4 barres de séquences MIDI multipistes. »
Le modèle basé sur un transformateur qui sous-tend le système de génération de musique symbolique de l'équipe a été formé sur deux ensembles de données musicales, à savoir l'ensemble de données Lakh MIDI et l'ensemble de données MetaMIDI. Collectivement, ces ensembles de données contiennent plus de 400 000 fichiers MIDI (interface numérique d'instrument de musique), qui sont des fichiers de données contenant diverses informations sur les pistes musicales (par exemple, les notes jouées, la durée des notes, la vitesse à laquelle elles sont jouées).
Pour entraîner leur modèle, l'équipe a converti chaque fichier MIDI en un fichier de représentation d'événement musical (REMI). Ce format spécifique code les données MIDI en jetons représentant diverses caractéristiques musicales (par exemple, la hauteur et la vélocité). Les fichiers REMI capturent la dynamique de la musique d'une manière particulièrement favorable à la formation de modèles d'IA pour la génération musicale.
« Pendant la formation, nous supprimons de manière aléatoire des jetons des métadonnées musicales pour garantir un contrôle flexible », ont écrit les chercheurs. « Il offre aux utilisateurs la liberté de sélectionner les types d'entrée tout en conservant les performances génératives, permettant une plus grande flexibilité dans la composition musicale. »
En plus de développer leur modèle basé sur un transformateur pour la génération de musique symbolique, Han, Ham et leurs collègues ont créé une interface simple qui le rendrait accessible aux utilisateurs experts et non experts. Cette interface se compose actuellement d'une barre latérale et d'un panneau interactif central.
Dans la barre latérale, les utilisateurs peuvent spécifier les aspects de la musique qu'ils souhaitent que le modèle génère, tels que les instruments qui doivent jouer et le tempo de la chanson. Une fois que le modèle a généré une chanson, il peut éditer la piste dans le panneau central, par exemple en supprimant/ajoutant des instruments ou en ajustant l'heure à laquelle il commencera à jouer de la musique.
« Nous validons l'efficacité de la stratégie par des expériences en termes de capacité du modèle, de fidélité musicale, de diversité et de contrôlabilité », ont écrit Han, Ham et leurs collègues. « De plus, nous agrandissons le modèle et le comparons avec d'autres modèles de génération musicale via un test subjectif. Nos résultats indiquent sa supériorité en termes de contrôle et de qualité musicale. »
Les chercheurs ont constaté que leur modèle fonctionnait très bien et pouvait générer de manière fiable un maximum de 4 mesures de musique en fonction des spécifications de l'utilisateur. Dans leurs études futures, ils pourraient améliorer encore leur système en prolongeant la durée des pistes musicales que leur modèle peut créer, en élargissant les spécifications que les utilisateurs peuvent donner et en améliorant encore l'interface utilisateur du système.
« Notre modèle, entraîné pour générer 4 mesures de musique avec un contrôle global, présente des limites en termes d'extension de la durée de la musique et de contrôle des éléments locaux au niveau des mesures », ont écrit les chercheurs. « Cependant, nos tentatives sont importantes pour générer des thèmes musicaux de haute qualité pouvant être utilisés en boucle. »