Concevoir des systèmes d’IA fiables et transparents à l’aide d’outils d’évaluation
Le battage médiatique autour de ChatGPT a mis au premier plan le sujet de l’intelligence artificielle et de son potentiel impressionnant. Dans le même temps, assurer la qualité et maintenir le contrôle des systèmes d’IA devient de plus en plus important, en particulier lorsque ces systèmes assument des tâches responsables. Après tout, les résultats du chatbot sont basés sur d’énormes quantités de données textuelles provenant d’Internet.
Cela dit, des systèmes comme ChatGPT ne calculent que la réponse la plus probable à une question et l’affichent comme un fait. Des chercheurs de l’Institut Fraunhofer pour l’analyse intelligente et les systèmes d’information IAIS présenteront divers outils et processus d’évaluation qui peuvent être utilisés pour examiner systématiquement les faiblesses des systèmes d’IA tout au long de leur cycle de vie et se prémunir contre les risques liés à l’IA à la Hannover Messe 2023 du 17 au 21 avril (sur le stand commun Fraunhofer A12 dans le hall 16).
Les outils aident les développeurs et les autorités de contrôle technique à évaluer systématiquement la qualité des systèmes d’IA pour s’assurer qu’ils sont dignes de confiance.
Comme le montre l’omniprésence médiatique de la nouvelle application d’IA ChatGPT d’OpenAI, l’intelligence artificielle a atteint un niveau de maturité impressionnant. Le chatbot, formé avec des données et des textes provenant de partout sur Internet, répond aux questions avec des réponses difficiles, voire impossibles, à distinguer du texte écrit par des humains. Cela rend le système d’IA intéressant pour un large éventail de tâches dans les entreprises, qu’il s’agisse de tâches de marketing, d’automatisation du traitement des demandes des clients ou de génération de contenu multimédia.
Des outils d’évaluation pour scruter la boîte noire
Cependant, le discours public a également appelé à la prudence. La critique porte, entre autres, sur le manque de transparence, comme les sources à partir desquelles le chatbot génère ses réponses. En particulier, les prédictions dépendent de la qualité des données d’entrée.
« Cela montre à quel point il est important de pouvoir évaluer systématiquement la qualité des applications d’IA. Cela est particulièrement vrai dans les domaines d’application sensibles tels que le diagnostic médical, la gestion des ressources humaines, la finance, les applications utilisées par les forces de l’ordre ou les domaines critiques pour la sécurité. , où les systèmes d’IA doivent fournir des résultats absolument fiables. La loi sur l’IA – le projet européen de réglementation des systèmes d’IA – classe ces exemples dans la catégorie à haut risque et exige même une évaluation obligatoire dans ces cas « , déclare le Dr Maximilian Poretschkin, responsable de la sécurité IA et certification IA à Fraunhofer IAIS à Sankt Augustin, Allemagne.
« À ce stade, les entreprises développant ou déployant des applications d’IA à haut risque doivent de toute urgence déterminer comment elles peuvent garantir la qualité de leurs applications. »
Avec son équipe, il développe des outils et des méthodes d’évaluation qui examinent et évaluent les applications d’IA en termes de fiabilité, d’équité, de robustesse, de transparence et de protection des données. Les outils peuvent être combinés de manière modulaire et sont intégrés dans un cadre logiciel.
Le développement d’outils d’évaluation prototypiques est soutenu par le ministère de l’Économie, de l’Industrie, de l’Action pour le climat et de l’Énergie du Land de Rhénanie du Nord-Westphalie, entre autres, dans le cadre du projet phare NRW ZERTIFIZIERTE KI (CERTIFIED AI). Les critères d’évaluation sous-jacents sont basés sur le catalogue d’évaluation de l’IA, un guide pratique structuré publié par les chercheurs de Fraunhofer IAIS en 2021.
Examen des réseaux de neurones pour les vulnérabilités
Le besoin de tels outils d’évaluation découle du fait que les applications d’IA diffèrent souvent considérablement des logiciels conventionnels. Ce dernier est programmé sur la base de règles, ce qui permet de tester systématiquement sa fonctionnalité, c’est-à-dire si les réponses ou les sorties sont correctes par rapport aux entrées. Pour les applications d’IA, ces procédures ne sont en général pas suffisantes, surtout si elles sont basées sur des réseaux de neurones.
L’outil ScrutinAI développé par Fraunhofer IAIS permet au personnel de test de rechercher systématiquement les vulnérabilités dans les réseaux de neurones et ainsi d’évaluer la qualité des applications d’IA. Un exemple spécifique est une application d’IA qui détecte les anomalies et les maladies dans les images CT. La question ici est de savoir si tous les types d’anomalies sont détectés aussi bien, ou certains mieux que d’autres.
Cette analyse aide le personnel de test à évaluer si une application d’IA est adaptée au contexte d’utilisation prévu. Dans le même temps, les développeurs peuvent également bénéficier de la capacité d’identifier les insuffisances de leurs systèmes d’IA à un stade précoce et de prendre les mesures d’amélioration appropriées, telles que l’amélioration des données de formation avec des exemples spécifiques.
Il est concevable que l’outil puisse être utilisé pour de nombreux cas d’utilisation. L’exemple ci-dessus pourrait facilement être remplacé par une application d’IA qui détecte les vulnérabilités et les défauts matériels des composants critiques pour la sécurité. Dans ce cas également, il est important d’établir si toutes les vulnérabilités sont également bien détectées ou s’il existe des domaines du domaine d’application prévu pour lesquels les performances de l’application d’IA sont inadéquates. « Il s’agit toujours de détecter les insuffisances du réseau de neurones, bien que dans des contextes différents », explique Poretschkin.
Évaluation des incertitudes
La méthode uncertAInty, développée par Fraunhofer IAIS et intégrée au cadre, fournit aux réseaux de neurones une fonction d’évaluation de la qualité dépendante de la situation qu’ils peuvent utiliser pour évaluer leur propre certitude par rapport à la prédiction faite.
« Dans la prise de décision hautement automatisée de l’IA, il est important de pouvoir évaluer la confiance de l’IA quant au résultat qu’elle produit. Pour utiliser un exemple spécifique, un véhicule autonome doit être capable de détecter de manière fiable les objets et les personnes dans son environnement afin qu’il peut y réagir de manière appropriée. L’évaluation de l’incertitude aide à mesurer dans quelle mesure vous pouvez faire confiance à la décision des systèmes ou si certains mécanismes de secours doivent être activés ou si un humain doit prendre la décision finale », explique Poretschkin.
Par conséquent, la méthode uncertAInty constitue un élément de base important pour la sauvegarde des applications d’IA afin qu’elles puissent être utilisées dans des contextes d’application sensibles.
Comparer les modèles d’IA
Enfin, l’outil d’analyse comparative est utilisé pour déterminer quel modèle d’IA est le mieux adapté à une tâche particulière. « Il existe une surabondance de nouvelles applications d’IA que les entreprises peuvent intégrer dans leurs processus. Le benchmarking les aide à faire le bon choix », explique le chercheur.
L’outil a la capacité fonctionnelle, entre autres, de mesurer l’équité des ensembles de données de formation. Ceci est crucial dans le secteur des RH, par exemple, lorsqu’il s’agit d’applications d’IA qui aident à la sélection de nouveaux employés. Dans ces situations, l’application d’IA doit être entraînée à l’aide d’ensembles de données équilibrés et statistiquement représentatifs pour éviter de désavantager des groupes de personnes et garantir l’égalité des chances.
Sur le stand commun Fraunhofer A12 dans le hall 16 du Hannover Messe, l’équipe de Fraunhofer IAIS utilisera un démonstrateur interactif du domaine médical pour montrer comment la qualité d’une application d’IA peut être systématiquement évaluée à l’aide des outils d’évaluation. De plus, les personnes intéressées découvriront comment l’évaluation de l’IA peut être réalisée concrètement dans les entreprises.