Le système protège les données vocales personnelles de la surveillance automatisée
Lorsque vous passez un appel vocal via Zoom, FaceTime ou WhatsApp, vous ne partagez pas seulement ce que vous dites. Vous révélez votre âge, votre sexe, votre état émotionnel, votre origine sociale et votre personnalité : une empreinte biométrique aussi unique que votre visage. Et de plus en plus, l’intelligence artificielle écoute.
« Nous constatons déjà du phishing basé sur nos activités en ligne et ce que nous tapons dans nos e-mails », a déclaré Nirupam Roy, professeur agrégé d'informatique à l'Université du Maryland.
« Aujourd'hui, une grande partie de nos communications vocales transitent par des plateformes numériques. Il existe donc une vulnérabilité sans précédent en matière de confidentialité lorsqu'il s'agit de notre propre parole. Nous prévoyons que les menaces deviendront très réelles avec les données vocales et vocales, d'autant plus que l'intelligence artificielle entre en jeu. »
Alors que nous nous inquiétons de ce que nous tapons dans nos e-mails ou publions sur les réseaux sociaux, nos voix diffusent par inadvertance des informations profondément personnelles chaque fois que nous communiquons en ligne. Les données vocales peuvent être dangereuses entre de mauvaises mains, permettant des attaques de phishing ciblées, la génération de deepfakes, le vol biométrique et même une ingénierie sociale sophistiquée.
Roy s'efforce de faire face à cette menace croissante pour notre sécurité personnelle. Pour protéger les données vocales humaines contre le vol et l'utilisation par des tiers malveillants, lui et son groupe de recherche à l'UMD ont conçu VoiceSecure, un système innovant qui masque la parole de l'intelligence artificielle tout en gardant les conversations parfaitement claires pour les oreilles humaines.
Quand chaque appel devient une mine de données
Ce n’est pas seulement le contenu d’une conversation qui peut être précieux pour les acteurs malveillants. Selon Roy, le plus grand défi dans la résolution des problèmes de confidentialité réside dans les informations « métalinguistiques » que véhiculent les voix humaines : émotions, caractéristiques biologiques, schémas de stress et marqueurs d'identité.
« Les conversations gouvernementales et militaires nécessitent souvent une forte protection contre les écoutes vocales, mais même les conversations à faible enjeu peuvent révéler une tonne d'informations », a déclaré Roy. « La conversation FaceTime d'une mère avec son fils peut révéler des informations personnelles cruciales qui peuvent être utilisées pour créer n'importe quoi, depuis des publicités ciblées jusqu'au clonage de voix à des fins frauduleuses. »

Les escrocs et les créateurs de deepfakes utilisent les voix générées par l’IA pour rendre leurs projets plus convaincants. Le vol biométrique permet un accès non autorisé aux systèmes à authentification vocale, tels que les comptes bancaires ou les dossiers médicaux des patients. Et les attaques sophistiquées d’ingénierie sociale deviennent bien plus efficaces lorsque les attaquants utilisent des profils détaillés construits à partir de véritables modèles de parole humaine et de détails biométriques.
Roy a noté que les entreprises et les plateformes ont déjà mis en place des procédures pour assurer la sécurité des données des utilisateurs, mais que ces stratégies échouent souvent dans la pratique.
Certaines solutions consistent à ajouter du bruit obscurcissant aux conversations audio, ce qui peut dégrader la qualité des appels pour les utilisateurs. Le chiffrement traditionnel, la technique la plus couramment utilisée, est également confronté à des défis importants, notamment la nécessité pour les deux extrémités de chiffrer et de déchiffrer le contenu en temps réel, ce qui consomme de grandes quantités de puissance de calcul que tous les appareils ne peuvent pas supporter confortablement.
Cette incompatibilité des appareils des utilisateurs, comme un ordinateur de bureau par rapport à un appareil mobile, peut créer des failles de sécurité que les adversaires peuvent exploiter.
« Lorsque les systèmes de communication deviennent plus complexes, les utilisateurs finaux perdent le contrôle de leurs propres données », a déclaré Roy. « Même lorsque nous disposons d'un cryptage de bout en bout sur de nombreuses plates-formes, ces protections sont souvent facultatives, difficiles à mettre en œuvre ou tout simplement non respectées. Et il devient plus facile pour les acteurs malveillants disposant d'outils comme l'IA d'exploiter ces faiblesses. »
Le système VoiceSecure de Roy vise à remédier à ces limitations et à lutter contre les attaques malveillantes en exploitant une différence clé entre les humains et les machines : la façon dont ils traitent tous deux le son.
« L'audition humaine a des limites inhérentes. Les gens ne sont pas sensibles de la même manière à chaque fréquence sonore. Par exemple, deux sons proches l'un de l'autre à des fréquences plus élevées ne peuvent souvent pas être déchiffrés comme étant différents. Les effets psychoacoustiques façonnent la façon dont notre cerveau comprend le son – ce n'est pas seulement une question de fréquence, mais aussi de sensibilité et de contexte », a expliqué Roy.
« En revanche, les machines traitent toutes les fréquences comme des points de données individuels avec une précision mathématique. Elles analysent chaque caractéristique acoustique pour identifier les locuteurs et extraire des informations. »
Grâce à l'apprentissage par renforcement alimenté par l'IA, le système VoiceSecure optimise les signaux vocaux pour supprimer les fonctionnalités sur lesquelles les machines s'appuient pour la reconnaissance et le profilage, tout en préservant les caractéristiques que les humains utilisent pour comprendre la parole et se reconnaître.
VoiceSecure, qui fonctionne comme un module de microphone fonctionnant au niveau du micrologiciel ou du pilote, capture et transforme les données vocales le plus tôt possible dans le pipeline de communication avant même qu'elles n'atteignent le système d'exploitation d'un appareil. Cet équilibre délicat entre l’écoute humaine et machine pourrait faire obstacle entre une conversation privée et une écoute indiscrète de l’IA, a noté Roy.

« La communication vocale est très personnelle, nous voulions donc conserver cette qualité humaine dans notre système. Une mère devrait toujours être capable de reconnaître la voix de son fils lors d'un appel, mais les systèmes de surveillance automatisés par IA ne devraient pas parvenir à identifier l'orateur ou à extraire des données biométriques sensibles », a déclaré Roy.
« La clé de ce travail est de jouer sur l'écart entre ce que les humains peuvent entendre et ce que les machines peuvent entendre. »
Roy et son équipe ont déjà testé avec succès l'audio modifié de VoiceSecure sur de vrais utilisateurs, confirmant que les conversations restent intelligibles pour les humains tout en étant impénétrables pour les machines.
Les utilisateurs peuvent également personnaliser leurs niveaux de confidentialité préférés et garder le contrôle de leur voix sans compter sur les actions ou la technologie d'autres parties, y compris leurs interlocuteurs et la plateforme de communication.
L'équipe espère travailler avec des ingénieurs et des partenaires industriels pour présenter le système sous la forme d'un logiciel installable pouvant être appliqué à tous les ordinateurs et appareils intelligents.
En attendant, Roy note que la vigilance humaine est tout aussi vitale que la défense technologique pour protéger les systèmes numériques et notre vie privée.
« La sensibilisation est la clé pour garantir la sécurité lorsque les humains sont au courant », a-t-il déclaré.
En collaboration avec le professeur de sciences de l'information de l'UMD, Mega Subramaniam, et le professeur adjoint d'informatique du comté de Baltimore, Sanorita Dey, de l'Université du Maryland, Roy a lancé Cyber-Ninja, une plate-forme basée sur l'IA qui transforme la formation en cybersécurité en une expérience interactive et ludique.
Conçu pour les adolescents et les personnes âgées, Cyber-Ninja aide les utilisateurs à détecter et à éviter les attaques de phishing tout en développant leur esprit critique et leur confiance numérique. L’équipe a déjà organisé avec succès des ateliers dans des bibliothèques du Maryland, démontrant comment l’éducation basée sur l’IA peut renforcer la résilience des communautés face aux menaces numériques en constante évolution.
« Des chatbots du service client aux aspirateurs robots en passant par les appareils embarqués comme Alexa, l'intelligence artificielle est vraiment ancrée dans nos vies. Et à mesure que l'IA devient plus présente physiquement, le besoin de protections robustes de la vie privée devient encore plus urgent », a déclaré Roy.
« Nous voulons que l'IA évolue, car elle fait tellement de bien, mais il est important de faire face aux menaces changeantes en faisant également évoluer nos propres mécanismes de défense. »
