Des chercheurs fournissent une suite d'analyse comparative LLM pour la loi européenne sur l'intelligence artificielle
Des chercheurs de l'ETH Zurich, de l'institut de recherche bulgare sur l'IA INSAIT, créé en partenariat avec l'ETH et l'EPFL, et de LatticeFlow AI, spin-off de l'ETH, ont fourni la première interprétation technique complète de la loi européenne sur l'IA pour les modèles d'IA à usage général (GPAI). Cela en fait les premiers à traduire les exigences juridiques que l’UE impose aux futurs modèles d’IA en exigences techniques concrètes, mesurables et vérifiables.
Une telle traduction est très pertinente pour la poursuite du processus de mise en œuvre de la loi européenne sur l’IA : les chercheurs présentent une approche pratique permettant aux développeurs de modèles de voir dans quelle mesure ils sont alignés sur les futures exigences juridiques de l’UE. Une telle traduction des exigences réglementaires de haut niveau vers des références réellement applicables n'a pas existé jusqu'à présent et peut donc servir de point de référence important à la fois pour la formation sur modèle ainsi que pour le code de bonnes pratiques de la loi européenne sur l'IA en cours d'élaboration.
Les chercheurs ont testé leur approche sur 12 modèles d'IA génératifs populaires tels que ChatGPT, Llama, Claude ou Mistral. Après tout, ces grands modèles de langage (LLM) ont énormément contribué à la popularité et à la diffusion croissantes de l'intelligence artificielle (IA) dans la vie quotidienne. car ils sont très performants et intuitifs à utiliser.
Avec la diffusion croissante de ces modèles d’IA, et d’autres, les exigences éthiques et juridiques pour une utilisation responsable de l’IA augmentent également : par exemple, des questions sensibles se posent concernant la protection des données, la protection de la vie privée et la transparence des modèles d’IA. Les modèles ne doivent pas être des « boîtes noires », mais plutôt fournir des résultats aussi explicables et traçables que possible.
La mise en œuvre de la loi sur l’IA doit être techniquement claire
En outre, ils doivent fonctionner de manière équitable et ne faire aucune discrimination à l’égard de qui que ce soit. Dans ce contexte, la loi de l'UE sur l'IA, que l'UE a adoptée en mars 2024, est le premier paquet législatif au monde sur l'IA qui vise de manière globale à maximiser la confiance du public dans ces technologies et à minimiser leurs risques et effets secondaires indésirables.
« La loi européenne sur l'IA est une étape importante vers le développement d'une IA responsable et digne de confiance », déclare Martin Vechev, professeur d'informatique à l'ETH, directeur du Laboratoire pour les systèmes sûrs, fiables et intelligents et fondateur de l'INSAIT, « mais jusqu'à présent, nous manquons d'une approche claire et une interprétation technique précise des exigences juridiques de haut niveau de la loi de l’UE sur l’IA.
« Cela rend difficile à la fois le développement de modèles d'IA conformes à la loi et l'évaluation de la mesure dans laquelle ces modèles sont réellement conformes à la législation. »
La loi de l’UE sur l’IA établit un cadre juridique clair pour contenir les risques de ce que l’on appelle l’intelligence artificielle à usage général (GPAI). Il s’agit de modèles d’IA capables d’exécuter un large éventail de tâches. Toutefois, la loi ne précise pas comment les exigences juridiques générales doivent être interprétées techniquement. Les normes techniques sont encore en cours d’élaboration jusqu’à ce que la réglementation relative aux modèles d’IA à haut risque entre en vigueur en août 2026.
« Cependant, le succès de la mise en œuvre de l'AI Act dépendra en grande partie de sa capacité à développer des exigences techniques concrètes et précises et des références centrées sur la conformité pour les modèles d'IA », déclare Petar Tsankov, PDG et, avec Vechev, fondateur de l'ETH. La spin-off LatticeFlow AI, qui s'occupe de la mise en œuvre pratique d'une IA fiable.
« S'il n'existe pas d'interprétation standard de ce que signifient exactement des termes clés tels que sécurité, explicabilité ou traçabilité dans les modèles d'IA (GP), il reste alors difficile pour les développeurs de modèles si leurs modèles d'IA fonctionnent conformément à la loi sur l'IA », ajoute Robin Staab. , informaticien et doctorant dans le groupe de recherche de Vechev.
Le test de 12 modèles de langage révèle des lacunes
La méthodologie développée par les chercheurs de l'ETH offre un point de départ et une base de discussion. Les chercheurs ont également développé un premier « vérificateur de conformité », un ensemble de critères qui peuvent être utilisés pour évaluer dans quelle mesure les modèles d'IA sont conformes aux exigences probables de la loi européenne sur l'IA.
Compte tenu de la concrétisation en cours des exigences légales en Europe, les chercheurs de l'EPF ont rendu leurs conclusions publiques dans une étude publiée sur le arXiv serveur de préimpression. Ils ont également mis leurs résultats à la disposition de l’Office européen de l’IA, qui joue un rôle clé dans la mise en œuvre et le respect de la loi sur l’IA, et donc également pour l’évaluation du modèle.
Dans une étude largement compréhensible même pour les non-experts, les chercheurs clarifient d'abord les termes clés. Partant de six principes éthiques centraux spécifiés dans la loi européenne sur l'IA (agence humaine, protection des données, transparence, diversité, non-discrimination, équité), ils dérivent 12 exigences associées et techniquement claires et les relient à 27 règles de pointe. critères d’évaluation.
Surtout, ils soulignent également les domaines dans lesquels les contrôles techniques concrets des modèles d’IA sont moins bien développés, voire inexistants, encourageant à la fois les chercheurs, les fournisseurs de modèles et les régulateurs à pousser davantage ces domaines pour une mise en œuvre efficace de la loi européenne sur l’IA.
Une impulsion pour de nouvelles améliorations
Les chercheurs ont appliqué leur approche de référence à 12 modèles linguistiques importants (LLM). Les résultats montrent clairement qu’aucun des modèles linguistiques analysés aujourd’hui ne répond pleinement aux exigences de la loi européenne sur l’IA. « Notre comparaison de ces grands modèles linguistiques révèle qu'il existe des lacunes, notamment en ce qui concerne les exigences telles que la robustesse, la diversité et l'équité », explique Staab.
Cela est également dû au fait que, ces dernières années, les développeurs et les chercheurs de modèles se sont principalement concentrés sur les capacités et les performances générales des modèles plutôt que sur des exigences plus éthiques ou sociales telles que l’équité ou la non-discrimination.
Cependant, les chercheurs ont constaté que même les concepts clés de l’IA, tels que l’explicabilité, ne sont pas clairs. Dans la pratique, il manque des outils adaptés pour expliquer ensuite comment les résultats d’un modèle d’IA complexe ont été obtenus : ce qui n’est pas tout à fait clair sur le plan conceptuel est également presque impossible à évaluer sur le plan technique.
L'étude montre clairement que diverses exigences techniques, notamment celles liées à la violation du droit d'auteur, ne peuvent actuellement pas être mesurées de manière fiable. Pour Staab, une chose est claire : « Il ne suffit pas de concentrer l’évaluation du modèle sur les seules capacités. »
Cela dit, les chercheurs ne se contentent pas d’évaluer les modèles existants. Pour eux, la loi européenne sur l’IA est un premier exemple de la manière dont la législation modifiera le développement et l’évaluation des modèles d’IA à l’avenir.
« Nous considérons notre travail comme une impulsion pour permettre la mise en œuvre de la loi sur l'IA et pour obtenir des recommandations pratiques pour les fournisseurs de modèles », déclare Vechev, « mais notre méthodologie peut aller au-delà de la loi européenne sur l'IA, car elle est également adaptable à d'autres, comparables ». législation. »
« En fin de compte, nous voulons encourager un développement équilibré des LLM qui prend en compte à la fois les aspects techniques tels que les capacités et les aspects éthiques tels que l'équité et l'inclusion », ajoute Tsankov.
Les chercheurs mettent à disposition leur outil de référence COMPL-AI sur un site Web GitHub pour lancer la discussion technique. Les résultats et les méthodes de leur benchmarking peuvent y être analysés et visualisés. « Nous avons publié notre suite de référence en open source afin que d'autres chercheurs de l'industrie et de la communauté scientifique puissent y participer », explique Tsankov.