Explorer des modèles texte-audio pour créer de la musique à partir de zéro
Tapez quelques mots dans un modèle texte-image et vous obtiendrez une image étrangement précise et complètement unique. Bien que cet outil soit amusant à utiliser, il ouvre également des voies d’application et d’exploration créatives et fournit des outils d’amélioration du flux de travail pour les artistes visuels et les animateurs. Pour les musiciens, les concepteurs sonores et les autres professionnels de l’audio, un modèle texte-audio ferait de même.
Dans le cadre de la 183e réunion de l’Acoustical Society of America, Zach Evans, de Stability AI, a présenté les progrès accomplis à cette fin dans son discours, « Échantillons audio musicaux générés à partir d’intégrations de texte conjointes ».
« Les modèles texte-image utilisent des réseaux de neurones profonds pour générer des images originales et nouvelles basées sur des corrélations sémantiques apprises avec des légendes de texte », a déclaré Evans. « Lorsqu’ils sont formés sur un ensemble de données vaste et varié d’images sous-titrées, ils peuvent être utilisés pour créer presque n’importe quelle image pouvant être décrite, ainsi que pour modifier les images fournies par l’utilisateur. »
Un modèle text-to-audio serait capable de faire la même chose, mais avec de la musique comme résultat final. Entre autres applications, il pourrait être utilisé pour créer des effets sonores pour les jeux vidéo ou des échantillons pour la production musicale.
Mais la formation de ces modèles d’apprentissage en profondeur est plus difficile que leurs homologues d’image.
« L’une des principales difficultés de la formation d’un modèle texte-audio est de trouver un ensemble de données audio aligné sur le texte suffisamment grand pour s’entraîner », a déclaré Evans. « En dehors des données vocales, les ensembles de données de recherche disponibles pour l’audio aligné sur le texte ont tendance à être beaucoup plus petits que ceux disponibles pour les images alignées sur le texte. »
Evans et son équipe, y compris Scott Hawley de l’Université de Belmont, ont rapidement réussi à générer une musique et un son cohérents et pertinents à partir de textes. Ils ont utilisé des méthodes de compression de données pour générer l’audio avec un temps de formation réduit et une qualité de sortie améliorée.
Les chercheurs prévoient d’étendre à de plus grands ensembles de données et de publier leur modèle en tant qu’option open source que d’autres chercheurs, développeurs et professionnels de l’audio pourront utiliser et améliorer.