Comment les données empoisonnées peuvent tromper l'IA et comment l'arrêter

Imaginez une gare animée. Les caméras surveillent tout, de la propreté des plates-formes pour savoir si une baie d'amarrage est vide ou occupée. Ces caméras alimentent un système d'IA qui aide à gérer les opérations de la station et envoie des signaux aux trains entrants, en leur faisant savoir quand ils peuvent entrer dans la station.

La qualité des informations offertes par l'IA dépend de la qualité des données dont elle apprend. Si tout se passe comme il se doit, les systèmes de la station fourniront un service adéquat.

Mais si quelqu'un essaie d'interférer avec ces systèmes en altérant ses données de formation, soit les données initiales utilisées pour construire le système ou les données que le système collecte comme elle fonctionne pour s'améliorer – Trouble pourrait s'ensuivre.

Un attaquant pourrait utiliser un laser rouge pour tromper les caméras qui déterminent quand un train arrive. Chaque fois que le laser clignote, le système étiquette incorrectement la baie d'amarrage comme «occupée», car le laser ressemble à un feu de freinage sur un train. Avant longtemps, l'IA pourrait interpréter cela comme un signal valide et commencer à répondre en conséquence, en retardant d'autres trains entrants sur la fausse justification que toutes les pistes sont occupées. Une attaque comme celle-ci liée à l'état des voies ferrées pourrait même avoir des conséquences mortelles.

Nous sommes des informaticiens qui étudient l'apprentissage automatique et nous recherchons comment défendre contre ce type d'attaque.

Empoisonnement aux données expliqué

Ce scénario, où les attaquants alimentent intentionnellement des données erronées ou trompeuses dans un système automatisé, est connu sous le nom d'intoxication des données. Au fil du temps, l'IA commence à apprendre les mauvais modèles, ce qui l'a conduit à prendre des mesures basées sur de mauvaises données. Cela peut conduire à des résultats dangereux.

Dans l'exemple de la gare, supposons qu'un attaquant sophistiqué souhaite perturber les transports publics tout en recueillant des renseignements. Pendant 30 jours, ils utilisent un laser rouge pour tromper les caméras. Laissées non détectées, de telles attaques peuvent lentement corrompre un système entier, ouvrant la voie à de pires résultats tels que des attaques de porte dérobée dans des systèmes sécurisés, des fuites de données et même un espionnage. Bien que l'empoisonnement des données dans les infrastructures physiques soit rare, il s'agit déjà d'une préoccupation importante dans les systèmes en ligne, en particulier ceux alimentés par de grands modèles de langue formés sur les réseaux sociaux et le contenu Web.

Un exemple célèbre d'intoxication aux données dans le domaine de l'informatique est survenu en 2016, lorsque Microsoft a fait ses débuts sur un chatbot connu sous le nom de Tay. Dans les heures suivant sa publication publique, les utilisateurs malveillants en ligne ont commencé à nourrir les rames de bot de commentaires inappropriés. Tay a rapidement commencé à perrober les mêmes termes inappropriés que les utilisateurs sur X (puis Twitter) et des millions de spectateurs horribles. Dans les 24 heures, Microsoft avait désactivé l'outil et avait présenté des excuses publiques peu de temps après.

L'empoisonnement des données sur les réseaux sociaux du modèle Microsoft Tay souligne la grande distance qui se situe entre l'intelligence humaine artificielle et réelle. Il met également en évidence la mesure dans laquelle l'empoisonnement des données peut faire ou défaire une technologie et son utilisation prévue.

L'empoisonnement aux données peut ne pas être entièrement évitable. Mais il existe des mesures de bon sens qui peuvent aider à se prémunir, telles que la mise en place des limites du volume de traitement des données et la vérification des données de données contre une liste de contrôle stricte pour garder le contrôle du processus de formation. Les mécanismes qui peuvent aider à détecter les attaques toxiques avant de devenir trop puissantes sont également essentielles pour réduire leurs effets.

Se battre avec la blockchain

Au Solid Lab de Florida International University, nous travaillons à nous défendre contre les attaques d'intoxication des données en nous concentrant sur des approches décentralisées de la technologie de construction. Une telle approche, connue sous le nom d'apprentissage fédéré, permet aux modèles d'IA d'apprendre des sources de données décentralisées sans collecter de données brutes en un seul endroit. Les systèmes centralisés ont un seul point de vulnérabilité de défaillance, mais ceux décentralisés ne peuvent pas être abattus par le biais d'une seule cible.

L'apprentissage fédéré offre une précieuse couche de protection, car les données empoisonnées d'un appareil n'affectent pas immédiatement le modèle dans son ensemble. Cependant, des dommages peuvent encore se produire si le processus que le modèle utilise pour agréger les données est compromis.

C'est là qu'une autre solution potentielle plus populaire – Blockchain – se met en jeu. Une blockchain est un grand livre numérique partagé et inaltérable pour enregistrer les transactions et le suivi des actifs. Les blockchains fournissent des enregistrements sécurisés et transparents sur la façon dont les données et les mises à jour des modèles d'IA sont partagées et vérifiées.

En utilisant des mécanismes de consensus automatisés, les systèmes d'IA avec une formation protégée par la blockchain peuvent valider les mises à jour de manière plus fiable et aider à identifier les types d'anomalies qui indiquent parfois l'intoxication aux données avant de se propager.

Les chaînes de blocs ont également une structure horrible qui permet aux praticiens de retracer les entrées empoisonnées à leurs origines, ce qui facilite l'inverse des dommages et le renforcement des défenses futures. Les blockchains sont également interopérables – en d'autres termes, ils peuvent « se parler ». Cela signifie que si un réseau détecte un modèle de données empoisonné, il peut envoyer un avertissement à d'autres.

Chez Solid Lab, nous avons construit un nouvel outil qui exploite à la fois l'apprentissage fédéré et la blockchain en tant que rempart contre l'intoxication aux données. D'autres solutions proviennent de chercheurs qui utilisent des filtres de présélection pour examiner les données avant d'atteindre le processus de formation, ou simplement de former leurs systèmes d'apprentissage automatique pour être très sensibles aux cyberattaques potentielles.

En fin de compte, les systèmes d'IA qui reposent sur les données du monde réel seront toujours vulnérables à la manipulation. Qu'il s'agisse d'un pointeur laser rouge ou d'un contenu trompeur sur les réseaux sociaux, la menace est réelle. L'utilisation d'outils de défense tels que l'apprentissage fédéré et la blockchain peut aider les chercheurs et les développeurs à créer des systèmes d'IA plus résilients et responsables qui peuvent détecter lorsqu'ils sont trompés et alerter les administrateurs de systèmes pour intervenir.