Une musique haute-fidélité génératrice d'IA

Distribution de genre d’un exemple de sous-ensemble équilibré de 1k de MusicCaps, selon un classificateur AudioSet. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2301.11325

Une équipe d’ingénieurs de Google fait la démonstration d’un système d’intelligence artificielle de nouvelle génération musicale appelé MusicLM. Dans leur article publié sur le arXiv serveur de préimpression, le groupe affirme que le nouveau système établit un nouveau niveau de composition et de haute fidélité dans les chansons produites par des ordinateurs.

La création de MusicLM fait partie d’une vague d’applications d’IA d’apprentissage en profondeur développées dans le but de reproduire les capacités mentales humaines, comme écrire des papiers, peindre, passer des tests, parler ou créer des preuves mathématiques.

Plusieurs autres efforts ont été déployés pour créer des applications de génération de chansons, notamment Dance Diffusion, Jukebox et Riffusion. Mais chacun a des limites claires et les chansons qu’ils produisent ne seraient jamais confondues avec de la musique écrite par un compositeur humain.

Dans ce nouvel effort, l’équipe de Google affirme que son nouveau système surpasse les systèmes précédents, à la fois dans la qualité des chansons produites et dans leur adhésion aux invites textuelles. Google fournit de nombreux exemples sur le site de recherche Google. Un exemple est « induire l’expérience d’être perdu dans l’espace ». Comme prévu, les chansons techno ont tendance à être meilleures que celles qui reproduisent des chansons classiques jouées sur de vrais instruments.

Le système a appris à créer de la musique en l’entraînant sur 28 000 heures de chansons jouées par des humains. Et il peut créer des chansons de longueur variable. Il peut générer un riff rapide, par exemple, ou une chanson entière. Et il peut même aller au-delà en créant des chansons avec des mouvements, comme on en trouve souvent dans les symphonies, pour créer le sentiment d’une histoire. Le système peut également accepter des spécificités, telles que des demandes pour certains instruments ou un genre particulier. Il peut également générer des voix, si demandé, ou des sons vocaux plus précis, bien que les résultats aient tendance à ressembler à un chœur de robots qui ne connaît pas les paroles.

Google ne publiera pas l’application pour un usage général. Les tests ont montré qu’environ 1 % de la musique générée par le système est copiée directement à partir d’un artiste humain. Ainsi, ils se méfient des détournements de contenus et des poursuites judiciaires.