Comment créer une IA digne de confiance sans données de confiance
Aujourd’hui, presque tout le monde a entendu parler de l’IA et des millions dans le monde qui utilisent déjà, ou sont exposés, à CHATGPT qui rédigeaient nos e-mails, pour aider au diagnostic médical.
À sa base, l’IA utilise des algorithmes – des ensembles d’instructions mathématiquement rigoureuses – qui disent à un ordinateur comment effectuer une variété de fonctions avancées ou transformer des faits en informations utiles. Les grands modèles de langue (LLM) qui conduisent l’IA de plus en plus puissants d’aujourd’hui sont des types d’algorithmes spéciaux qui apprennent des ensembles de données massifs et principalement centralisés.
Pourtant, la centralisation de ces énormes ensembles de données génère des problèmes concernant la sécurité, la confidentialité et la propriété des données – en effet, la phrase « Les données sont le nouveau pétrole » signifie qu’elle est devenue une ressource cruciale, stimulant l’innovation et la croissance de l’économie numérique d’aujourd’hui.
Pour contrer ces préoccupations, une approche appelée apprentissage fédéré révolutionne désormais l’IA. Contrairement à la formation de modèles d’IA sur d’énormes ensembles de données centralisés, l’apprentissage fédéré permet à ces modèles d’apprendre à travers un réseau d’appareils (ou serveurs) décentralisés, en gardant les données brutes à sa source.
Données sans confiance
« L’IA est formée avec l’IA avec Federated Learned rassemble des données du monde entier – sur Internet, d’autres grandes bases de données, des hôpitaux, des appareils intelligents, etc.
Les données peuvent être mauvaises pour de nombreuses raisons. Peut-être qu’un manque d’attention ou d’erreur humaine signifie qu’il est incorrectement entré dans une base de données, peut-être qu’il y a des erreurs dans les données pour commencer, peut-être que des capteurs ou d’autres instruments sont cassés ou défectueux, des données incorrectes ou dangereuses peuvent être enregistrées de manière malveillante, etc. Parfois, les données sont bonnes, mais la machine qui l’héberge est piratée ou bogus. Dans tous les cas, si ces données sont utilisées pour former l’IA, elle rend les systèmes moins fiables et dangereux.
« Tout cela soulève une question clé », explique Guerraoui, « pouvons-nous créer des systèmes d’IA dignes de confiance sans faire confiance à aucune source de données individuelle? » Après une décennie de travaux théoriques dédiés à relever ce défi, le professeur et son équipe disent que la réponse est oui! Un livre récent résume leurs principales conclusions.
Ensembles de données de confiance
En collaboration avec l’Institut national français de recherche en sciences et technologies numériques, ils mettent maintenant leurs idées au travail. Ils ont développé BYZFL, une bibliothèque utilisant le langage de programmation Python qui est conçu pour comparer et améliorer les modèles d’apprentissage fédérés contre les menaces adversaires, des données mauvaises particulières.
« Nous pensons que la majorité des données sont bonnes, mais comment savons-nous à quels ensembles de données nous ne pouvons pas faire confiance? » demande Guerraoui. « Notre bibliothèque BYZFL teste si un système est robuste contre les attaques inconnues a priori, puis rend ce système plus robuste. Plus précisément, nous donnons aux utilisateurs un logiciel pour imiter les mauvaises données pour les tests ainsi que les filtres de sécurité pour assurer la robustesse. Les mauvaises données sont souvent distribuées de manière subtile afin qu’elle ne soit pas immédiatement visible. »
BYZFL n’isolat pas et ne localise pas à partir de mauvaises données mais utilise des schémas d’agrégation robustes (par exemple, médiane) pour ignorer les entrées extrêmes. Par exemple, si trois capteurs enregistrent une température de 6, 7 et 9 degrés mais un autre enregistre -20, il ruine un calcul entier. Le logiciel BYZFL exclut les extrêmes afin que l’impact des mauvaises données soit limité, tandis que les informations sont agrégées.
Assurer que l’IA de nouvelle génération fonctionne
L’intelligence artificielle devrait toucher chaque partie de notre vie dans un avenir pas trop lointain. Guerraoui fait valoir qu’aujourd’hui, la plupart des entreprises utilisent des formes très primitives d’IA, par exemple, des plateformes de streaming recommandant des films ou des assistants d’IA aidant à écrire du texte. Si quelqu’un n’aime pas le film recommandé ou si un e-mail n’est pas parfait, ce n’est pas grave.
Pour l’avenir, pour toute application critique, comme diagnostiquer le cancer, conduire une voiture ou contrôler un avion, une IA sûre est essentielle. « Le jour où nous mettons vraiment une IA générative dans les hôpitaux, les voitures ou les infrastructures de transport, je pense que nous verrons que la sécurité est problématique en raison de mauvaises données », explique Guerraoui. « Le plus grand défi en ce moment est de passer de ce que j’appelle un cirque animal dans le monde réel avec quelque chose en qui nous pouvons faire confiance. Pour les applications critiques, nous sommes loin du point où nous pouvons cesser de nous soucier de la sécurité. Le but de BYZFL est d’aider à combler cet écart. »
Un rôle pour la Suisse
Le professeur s’inquiète qu’il puisse prendre de grands accidents au public et aux décideurs politiques pour comprendre que l’IA créée à ce jour ne devrait pas être utilisée pour la médecine, le transport ou quoi que ce soit critique de mission et que le développement d’une nouvelle génération d’IA sûre et robuste est essentiel.
« Je pense que la Suisse peut jouer un rôle ici parce que nous avons une tradition de sérieux. Nous construisons des choses qui fonctionnent, nous pouvons utiliser la garantie de la qualité suisse pour démontrer un système de certification utilisant ce type de logiciel pour montrer que l’IA est vraiment sûre sans faire confiance à aucun composant individuel », a-t-il conclu.