Assurer la sécurité et l’équité dans l’intelligence artificielle

De nombreuses décisions autrefois prises par des humains seront à l’avenir confiées à des machines. Mais peut-on vraiment se fier aux décisions prises par l’intelligence artificielle ? Dans les domaines sensibles, on souhaite avoir la garantie que la décision est réellement judicieuse ou du moins que certaines erreurs graves ont été exclues.

Une équipe de l’Université technique de Vienne et de l’Institut autrichien de technologie AIT a développé des méthodes permettant de certifier si certains réseaux neuronaux sont sûrs et équitables. Les résultats seront présentés cette semaine lors de la 36e Conférence internationale sur la vérification assistée par ordinateur (CAV 2024), qui se tiendra à Montréal, au Canada, du 22 au 27 juillet.

Le projet de recherche fait partie du programme de doctorat Secint de la TU Wien, qui mène des recherches interdisciplinaires et collaboratives, reliant l'apprentissage automatique, la sécurité et la confidentialité et les méthodes formelles en informatique.

Imiter les décisions humaines

Il est bien connu que l’intelligence artificielle a parfois tendance à commettre des erreurs. Si cela se traduit simplement par le fait qu’un humain possède six doigts sur une main dans une image générée par ordinateur, cela ne pose peut-être pas de problème majeur.

Cependant, Anagha Athavale, de l'Institut de logique et de calcul de la TU Wien et du Centre de sécurité numérique de l'AIT, estime que l'intelligence artificielle s'imposera également dans des domaines où les questions de sécurité jouent un rôle central : « Pensons, par exemple, aux décisions prises par une voiture autonome ou par un système informatique utilisé pour le diagnostic médical. »

Athavale analyse des réseaux neuronaux qui ont été formés pour classer certaines données d'entrée dans des catégories spécifiques. Les données d'entrée peuvent être des situations de circulation routière, par exemple, et le réseau neuronal a été formé pour décider dans laquelle de ces situations il doit braquer, freiner ou accélérer. Les données d'entrée peuvent également être des données sur différents clients d'une banque, et l'IA a été formée pour décider si cette personne doit se voir accorder un prêt ou non.

Équité et robustesse

« Nous exigeons cependant deux caractéristiques importantes d’un tel réseau neuronal », explique Athavale. « À savoir la robustesse et l’équité. » Si le réseau neuronal est robuste, cela signifie que deux situations qui ne diffèrent que par des détails mineurs devraient conduire au même résultat.

L'équité est une autre propriété très importante des réseaux neuronaux : si deux situations ne diffèrent que par un seul paramètre, qui n'est en réalité pas censé jouer un rôle dans la décision, alors le réseau neuronal devrait fournir le même résultat : cette propriété est appelée « équité ».

« Imaginons par exemple qu’un réseau neuronal doive évaluer la solvabilité », explique Athavale. « Deux personnes ont des données financières très similaires, mais diffèrent en termes de sexe ou d’origine ethnique. Ce sont des paramètres qui ne devraient avoir aucune influence sur la notation de crédit. Le système devrait donc fournir le même résultat dans les deux cas. »

Ce n’est pas une évidence : il a été démontré à maintes reprises par le passé que l’apprentissage automatique peut conduire à la discrimination, par exemple en entraînant simplement des réseaux neuronaux avec des données générées par des personnes ayant des préjugés. L’intelligence artificielle est ainsi automatiquement entraînée à imiter les préjugés des gens.

Propriétés locales et globales

« Les techniques de vérification existantes se concentrent principalement sur la définition locale de l'équité et de la robustesse », explique Athavale. « Étudier ces propriétés localement revient à vérifier, pour une entrée particulière, si de petites variations conduisent à des résultats différents. Mais ce que nous voulons vraiment, c'est définir des propriétés globales. Nous voulons garantir qu'un réseau neuronal affiche toujours ces propriétés, quelle que soit l'entrée. »

Si l'on aborde ce problème de manière naïve, il semble impossible à résoudre. Il existe toujours des états limites à la frontière entre deux catégories. Dans ces cas, un petit changement dans l'entrée peut effectivement conduire à une sortie différente.

« Nous avons donc développé un système basé sur la confiance », explique Athavale. « Notre outil de vérification ne vérifie pas seulement certaines propriétés, il nous informe également sur le niveau de confiance. Juste à la frontière entre deux catégories, la confiance est faible. Là, il est tout à fait normal que des entrées légèrement différentes conduisent à des sorties différentes. Dans d'autres régions de l'espace d'entrée, la confiance est élevée et les résultats sont globalement robustes. »

Cette propriété de sécurité basée sur la confiance constitue un changement important dans la manière dont les propriétés globales des réseaux neuronaux sont définies. « Cependant, pour analyser globalement un réseau neuronal, nous devons vérifier toutes les entrées possibles, ce qui prend beaucoup de temps », explique Athavale.

Pour résoudre ce problème, des astuces mathématiques étaient nécessaires. Athavale a dû trouver des moyens d’estimer de manière fiable le comportement du réseau neuronal sans utiliser certaines fonctions mathématiques, qui sont généralement intégrées dans les réseaux neuronaux, mais qui nécessitent beaucoup de puissance de calcul, si elles doivent être utilisées plusieurs millions de fois. Elle a développé des simplifications qui lui permettent néanmoins de faire des déclarations fiables et rigoureuses sur le réseau neuronal dans son ensemble.

Le succès de cette méthode montre qu’il n’est pas nécessaire de faire aveuglément confiance à l’intelligence artificielle, surtout lorsqu’elle doit prendre des décisions importantes. Il est techniquement possible de tester rigoureusement un réseau neuronal et de garantir certaines propriétés avec une fiabilité mathématique, un résultat important pour la collaboration homme-machine à l’avenir.