Une IA text-to-audio économe en énergie

Vue d’ensemble de la conception AudioLDM pour la génération de texte en audio (à gauche) et la manipulation audio guidée par le texte (à droite). Lors de la formation, les modèles de diffusion latente (MLD) sont conditionnés à l’embeddage audio et entraînés dans un espace continu appris par la VAE. Le processus d’échantillonnage utilise l’incorporation de texte comme condition. Compte tenu des LDM pré-entraînés, l’inpainting audio zéro coup et le transfert de style sont réalisés dans le processus inverse. Le bloc Forward Diffusion désigne le processus qui corrompt les données avec un bruit gaussien (voir l’équation 2). Crédit: arXiv (2023). DOI : 10.48550/arxiv.2301.12503

Les systèmes d’intelligence artificielle générative (IA) inspireront une explosion de créativité dans l’industrie de la musique et au-delà, selon les chercheurs de l’Université de Surrey qui invitent le public à tester leur nouveau modèle texte-audio.

AudioLDM est un nouveau système basé sur l’IA de Surrey qui permet aux utilisateurs de soumettre une invite de texte, qui est ensuite utilisée pour générer un clip audio correspondant. Le système peut traiter les invites et diffuser des clips en utilisant moins de puissance de calcul que les systèmes d’IA actuels sans compromettre la qualité du son ou la capacité des utilisateurs à manipuler les clips.

Le grand public peut essayer AudioLDM en visitant son Visage étreignant espace. Leur code est également open-source sur GitHub avec plus de 1000 étoiles.

Un tel système pourrait être utilisé par les concepteurs sonores dans une variété d’applications, telles que la réalisation de films, la conception de jeux, l’art numérique, la réalité virtuelle, le métaverse et un assistant numérique pour les malvoyants.

Haohe Liu, chef de projet de l’Université de Surrey, a déclaré : « L’IA générative a le potentiel de transformer tous les secteurs, y compris la musique et la création sonore.

« Avec AudioLDM, nous montrons que n’importe qui peut créer des échantillons uniques et de haute qualité en quelques secondes avec très peu de puissance de calcul. Bien qu’il existe des inquiétudes légitimes concernant la technologie, il ne fait aucun doute que l’IA ouvrira des portes à de nombreuses personnes au sein de ces industries créatives et inspirer une explosion de nouvelles idées. »

Le modèle open source de Surrey est construit de manière semi-supervisée avec une méthode appelée Contrastive Language-Audio Pretraining (CLAP). En utilisant la méthode CLAP, AudioLDM peut être formé sur des quantités massives de données audio diverses sans étiquetage de texte, améliorant considérablement la capacité du modèle.

Wenwu Wang, professeur de traitement du signal et d’apprentissage automatique à l’Université de Surrey, a déclaré : « Ce qui rend AudioLDM spécial, ce n’est pas seulement qu’il peut créer des clips sonores à partir d’invites de texte, mais qu’il peut créer de nouveaux sons basés sur le même texte sans nécessiter reconversion. »

« Cela permet d’économiser du temps et des ressources car cela ne nécessite pas de formation supplémentaire. Alors que l’IA générative devient partie intégrante de notre vie quotidienne, il est important que nous commencions à réfléchir à l’énergie nécessaire pour alimenter les ordinateurs qui exécutent ces technologies. AudioLDM est un aller dans la bonne direction. »

La communauté des utilisateurs a créé une variété de clips musicaux en utilisant AudioLDM dans différents genres.

AudioLDM est un projet de démonstrateur de recherche et s’appuie sur l’exemption d’exception du droit d’auteur actuelle du Royaume-Uni pour l’exploration de données à des fins de recherche non commerciale. Le document est publié sur le arXiv serveur de préimpression.

Fourni par l’Université du Surrey