Un nouvel outil rend les chansons impossibles à apprendre à l'IA générative

Près de 200 ans après la mort de Beethoven, une équipe de musiciens et d'informaticiens a créé une intelligence artificielle (IA) générative qui a complété sa Dixième Symphonie de manière si convaincante que les spécialistes de la musique ne pouvaient pas différencier la musique provenant de l'IA ou des notes manuscrites du compositeur.

Avant que de tels outils d’IA puissent générer de nouveaux types de données, notamment des chansons, ils doivent être formés sur d’énormes bibliothèques de ce même type de données. Les entreprises qui créent des modèles d’IA génératifs rassemblent généralement ces données de formation sur Internet, souvent à partir de sites Web sur lesquels les artistes eux-mêmes ont rendu leur art disponible.

« La plupart des œuvres d'art de haute qualité en ligne sont protégées par le droit d'auteur, mais ces entreprises peuvent obtenir très facilement les versions protégées par le droit d'auteur », a déclaré Jian Liu, professeur adjoint au Département Min H. Kao de génie électrique et d'informatique (EECS), spécialisé dans cybersécurité et apprentissage automatique.

« Peut-être qu'ils paient 5 dollars pour une chanson, comme un utilisateur normal, et qu'ils ont la version complète. Mais cet achat ne leur donne qu'une licence personnelle ; ils ne sont pas autorisés à utiliser la chanson à des fins commerciales. »

Les entreprises ignorent souvent cette restriction et entraînent leurs modèles d’IA sur les œuvres protégées par le droit d’auteur. Les utilisateurs peu méfiants qui paient pour l'outil génératif peuvent alors générer de nouvelles chansons qui ressemblent étrangement aux originaux créés par l'homme et protégés par le droit d'auteur.

Cet été, le Tennessee est devenu le premier État des États-Unis à protéger légalement la voix des artistes musicaux contre toute utilisation non autorisée de l'IA générative. Tout en applaudissant cette première étape, Liu a compris la nécessité d'aller plus loin, en protégeant non seulement les pistes vocales, mais aussi les chansons entières.

En collaboration avec son doctorat. étudiant Syed Irfan Ali Meerza et Lichao Sun de l'Université Lehigh, Liu a développé HarmonyCloak, un nouveau programme qui rend les fichiers musicaux essentiellement impossibles à apprendre pour les modèles d'IA génératifs sans changer la façon dont ils sonnent pour les auditeurs humains. Ils présenteront leurs recherches lors du 46e Symposium de l'IEEE sur la sécurité et la confidentialité (S&P) en mai 2025.

« Notre recherche répond non seulement aux préoccupations pressantes de la communauté créative, mais présente également une solution tangible pour préserver l'intégrité de l'expression artistique à l'ère de l'IA », a-t-il déclaré.

Donner du déjà vu aux IA

Liu, Meerza et Sun se sont engagés à protéger la musique sans compromettre l'expérience des auditeurs. Ils ont décidé de trouver un moyen de tromper les IA génératives en utilisant leurs propres systèmes d’apprentissage de base.

Comme les humains, les modèles d’IA générative peuvent déterminer si une donnée qu’ils rencontrent est une nouvelle information ou quelque chose qui correspond à leurs connaissances existantes. Les IA génératives sont programmées pour minimiser ce déficit de connaissances en apprenant autant que possible de chaque nouvelle donnée.

« Notre idée est de minimiser nous-mêmes le manque de connaissances afin que le modèle reconnaisse par erreur une nouvelle chanson comme quelque chose qu'il a déjà appris », a expliqué Liu. « De cette façon, même si une société d'IA peut toujours intégrer votre musique dans son modèle, l'IA 'pense' qu'il n'y a rien à en tirer. »

L'équipe de Liu a également dû faire face à la nature dynamique de la musique. Les chansons mélangent souvent plusieurs canaux instrumentaux avec des voix humaines, chaque canal couvrant son propre spectre de fréquences, et les canaux peuvent passer du premier plan à l'arrière-plan et changer de tempo au fil du temps.

Heureusement, tout comme il existe des moyens de tromper un modèle d’IA, il existe des moyens de tromper l’oreille humaine.

Des perturbations indétectables

La perception humaine des sons dépend d'un certain nombre de facteurs. Les humains sont incapables d'entendre des sons très faibles (comme la musique jouée à un kilomètre et demi) ou en dehors de certaines fréquences (comme le son d'un sifflet de chien). Il existe également des moyens de tromper l’oreille pour qu’elle ignore un son techniquement audible. Par exemple, un bruit faible joué immédiatement après un bruit plus fort passera inaperçu, surtout si les notes ont des fréquences similaires.

L'équipe de Liu a construit HarmonyCloak pour introduire de nouvelles notes, ou perturbations, qui peuvent tromper les modèles d'IA mais sont suffisamment masquées par les notes originales de la chanson pour échapper à la détection humaine.

« Notre système préserve la qualité de la musique car nous ajoutons uniquement des bruits imperceptibles », a déclaré Liu. « Nous voulons que les humains soient incapables de faire la différence entre cette musique perturbée et l'originale. »

Pour tester l'efficacité d'HarmonyCloak, Liu, Meerza et Sun ont recruté 31 volontaires humains ainsi que trois modèles d'IA génératifs de musique de pointe.

Les volontaires humains ont attribué aux chansons originales et mémorisables des notes tout aussi élevées pour leur agrément. (Ils peuvent être comparés sur le site Web de l'équipe). Pendant ce temps, les résultats des modèles d'IA se sont rapidement détériorés, obtenant des scores bien pires de la part des humains et des statistiques, car davantage de chansons dans leurs bibliothèques de formation étaient protégées par HarmonyCloak.

« Ces résultats soulignent l'impact substantiel de la musique impossible à apprendre sur la qualité et la perception de la musique générée par l'IA », a déclaré Liu. « Du point de vue du compositeur de musique, c'est la solution parfaite : les modèles d'IA ne peuvent pas être formés sur leur travail, mais ils peuvent toujours mettre leur musique à la disposition du public. »