Des études mettent en évidence les défis et les solutions pour rendre les grands modèles linguistiques fiables
Dans un contexte de popularité croissante des grands modèles linguistiques (LLM), les chercheurs du Lawrence Livermore National Laboratory examinent de plus près les performances de ces systèmes d'intelligence artificielle (IA) sous un examen mesurable.
Les LLM sont des outils d’IA générative entraînés sur des quantités massives de données afin de produire une réponse textuelle à une requête. Cette technologie a le potentiel d’accélérer la recherche scientifique de nombreuses manières, des applications de cybersécurité aux expériences autonomes. Mais même si un modèle à milliards de paramètres a été entraîné sur des milliards de points de données, pouvons-nous toujours compter sur sa réponse ?
Deux articles co-écrits par Livermore examinant la fiabilité du LLM (comment un modèle utilise les données et prend des décisions) ont été acceptés à la Conférence internationale sur l'apprentissage automatique de 2024.
« Cette technologie a beaucoup de succès et nous pouvons la rendre meilleure et plus sûre », a déclaré Bhavya Kailkhura, co-auteur des deux articles.
Des modèles plus efficaces
L'entraînement sur de grandes quantités de données ne garantit pas la fiabilité d'un modèle. Par exemple, des informations biaisées ou privées peuvent polluer un ensemble de données d'entraînement, ou un modèle peut être incapable de détecter des informations erronées dans la requête de l'utilisateur. Et même si les modèles de formation à distance se sont considérablement améliorés au fur et à mesure de leur développement, les modèles plus petits peuvent parfois surpasser les plus grands. En fin de compte, les chercheurs sont confrontés au double défi d'évaluer la fiabilité et de définir les normes pour y parvenir.
Dans « TrustLLM : Trustworthiness in Large Language Models », Kailkhura a rejoint des collaborateurs d'universités et d'organismes de recherche du monde entier pour développer un cadre complet d'évaluation de la fiabilité. Ils ont examiné 16 LLM classiques (ChatGPT, Vicuna et Llama2 entre autres) à travers huit dimensions de la fiabilité, en utilisant 30 ensembles de données publiques comme références sur une gamme de tâches simples à complexes. Le travail est publié sur le site arXiv serveur de préimpression.
Dirigée par l’Université Lehigh, l’étude examine en profondeur ce qui fait qu’un modèle est digne de confiance. Les auteurs ont rassemblé des mesures d’évaluation à partir de la littérature scientifique déjà abondante sur les LLM, en examinant plus de 600 articles publiés au cours des cinq dernières années.
« Il s’agit d’un effort à grande échelle », a déclaré Kailkhura. « Vous ne pouvez pas résoudre ces problèmes tout seul. »
Le cadre TrustLLM résultant de l'équipe définit les dimensions suivantes. Un modèle équitable évite les résultats discriminatoires, tels que le refus de répondre aux stéréotypes démographiques ou aux préjugés sexistes. L'éthique des machines mesure la reconnaissance par un modèle de la morale et des émotions humaines, par exemple la capacité à distinguer le bien du mal si la requête d'un utilisateur implique de nuire à une autre personne. La confidentialité mesure si un modèle révèle des informations sensibles même si l'ensemble de données d'entraînement contient, par exemple, des numéros de téléphone.
En outre, la robustesse fait référence à la capacité d'un modèle à gérer des anomalies ou des données inattendues, et la sécurité fait référence à sa résilience face aux tentatives de manipulation ou d'exploitation des données, comme une demande de fourniture d'ingrédients pour un engin explosif. Un modèle véridique présente des faits, indique ses limites (par exemple, si on lui pose une question sur un événement d'actualité en évolution rapide) et n'« hallucine » pas d'informations inexactes ou dénuées de sens.
Deux autres dimensions sont plus difficiles à mesurer en raison de la nature complexe et à grande échelle des LLM. La responsabilité signifie fournir l'origine des résultats, tandis que la transparence fait référence à des explications détaillées des étapes et des justifications du processus décisionnel.
Ces normes sont élevées. Comme le soulignent les récents titres liés au droit d'auteur, les LLM ne citent pas leurs sources et leurs propriétaires n'assument pas la responsabilité des ensembles de données fusionnés. De plus, les ensembles de données de formation peuvent contenir un certain nombre d'imperfections, innocentes ou contradictoires. Un modèle raisonnablement éthique peut être vulnérable aux attaques.
« Il est impossible de considérer un seul aspect de la fiabilité. Il faut examiner les performances du modèle dans toutes les mesures », a déclaré Kailkhura.
Les évaluations de TrustLLM ont donné des résultats mitigés. La plupart des modèles ont refusé de fournir des informations privées lorsqu'on leur a demandé de respecter une politique de confidentialité, et les réponses aux questions à choix multiples étaient plus précises que celles aux questions ouvertes. Les modèles propriétaires (à code source fermé) ont tendance à être plus performants que les modèles à code source ouvert, ce qui, selon Kailkhura, peut être attribué aux investissements des entreprises dans le développement.
Cependant, le modèle le plus performant en matière d'identification des stéréotypes n'a atteint qu'une précision de 65 %, et les performances des différents modèles ont varié considérablement face à des données inattendues. L'équipe a également remarqué une tendance au suralignement, où les scores de sécurité des modèles sont gonflés par des faux positifs.
Aucun des modèles testés n’était véritablement fiable selon les critères de référence de TrustLLM. La bonne nouvelle, cependant, est que l’étude a révélé les points faibles de ces modèles, ce qui peut encourager les développeurs de LLM à se concentrer sur la fiabilité alors qu’ils continuent d’améliorer la technologie.
« Les LLM sont des modèles fondamentaux d'une importance croissante pour le laboratoire et ses applications en matière de sécurité nationale, c'est pourquoi nos recherches sur la sécurité de l'IA sont essentielles », a déclaré Kailkhura.
Des modèles plus efficaces
À mesure que les LLM se développent, les performances informatiques continueront de poser problème. Un autre article de conférence étudie la fiabilité dans le contexte de la compression, où un modèle est modifié pour réduire la quantité de données et de ressources informatiques nécessaires à l'efficacité.
Par exemple, la compression d'un modèle de 13 à 7 milliards de paramètres peut réduire sa latence de moitié, en fonction du matériel informatique qui l'exécute. Les techniques de compression de pointe sont conçues pour accélérer la vitesse de réponse d'un modèle, mais elles privilégient souvent les performances au détriment des résultats fiables.
« Nos recherches fournissent des conseils pratiques pour produire des LLM légers et fiables dans le cadre de projets de recherche ou d'applications au sein du laboratoire », a déclaré James Diffenderfer, co-auteur de « Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression » aux côtés de Kailkhura, Brian Bartoldson et de collègues de plusieurs universités. L'équipe a appliqué cinq techniques de compression aux principaux LLM, en testant les effets sur diverses mesures de fiabilité. Le travail est publié sur le site arXiv serveur de préimpression.
Ce travail s'appuie sur des recherches antérieures sur les réseaux neuronaux convolutifs (CNN) avec des techniques de compression telles que l'élagage (suppression des paramètres non essentiels du modèle) et la quantification (réduction de la précision de calcul du modèle) – qui peuvent toutes deux être appliquées aux LLM seules ou en combinaison.
« Des recherches antérieures menées à Livermore sur les CNN ont montré que ces techniques pouvaient affecter la précision et la robustesse », a déclaré Diffenderfer. « Pour rendre les LLM plus omniprésents et utilisables grâce à la compression, il est important de réaliser ces études et d'identifier des stratégies pour rendre les LLM plus efficaces sans dégrader leur fiabilité. »
L'équipe a découvert que la compression par quantification était généralement meilleure (c'est-à-dire que le modèle obtenait un score plus élevé sur les mesures de confiance) que la compression par élagage. En outre, ils ont constaté une amélioration des performances des modèles quantifiés 4 bits sur certaines tâches de fiabilité par rapport aux modèles avec compression 3 et 8 bits. Même au même niveau de compression, certains modèles obtenaient des scores plus élevés sur les tâches d'éthique et d'équité et des scores plus faibles sur les tâches de confidentialité, par exemple.
« L'effet sur les performances de chaque tâche varie en fonction de l'algorithme de quantification utilisé pour compresser le LLM », a déclaré Diffenderfer. « Certaines formes de compression sont mieux adaptées au déploiement de LLM légers sans compromettre outre mesure leur fiabilité. »
Dans certains cas, la compression peut même améliorer la fiabilité d'un modèle. Cependant, une compression trop importante peut avoir l'effet inverse, car les scores de fiabilité chutent après un certain point.
« Nous voulions trouver cette ligne. Dans quelle mesure pouvons-nous compresser ces LLM avant qu'ils ne commencent à se comporter d'une manière moins utile ? », a-t-il déclaré.
Le rythme rapide de développement des LLM soulève de nouvelles questions alors même que les chercheurs répondent à celles qui existent déjà. Et avec l'importance croissante accordée à cette technologie au sein de la communauté IA/ML et lors des grandes conférences, comprendre le fonctionnement des LLM est la clé pour exploiter leur potentiel.
« En effectuant des études empiriques à grande échelle, nous avons observé que certains algorithmes de compression améliorent les performances des LLM tandis que d'autres les nuisent », a déclaré Diffenderfer. « Ces résultats sont précieux pour produire des modèles efficaces et fiables à l'avenir ou pour concevoir des architectures améliorées qui sont intrinsèquement plus efficaces et plus fiables. »
Des modèles plus précieux
Les recherches du LLM de Livermore vont au-delà de ces articles et révèlent des informations importantes sur le domaine à enjeux élevés de la sécurité de l'IA, qui est au centre du décret exécutif de la Maison Blanche d'octobre 2023. Le programme de recherche et développement dirigés par le laboratoire finance des projets qui abordent différents aspects de la sécurité, et les experts du laboratoire explorent en permanence des moyens de maximiser les avantages de l'IA/ML tout en minimisant les risques. (Visitez le site Web du Data Science Institute pour obtenir une liste de publications de premier plan sur ces sujets.)
« Toute avancée technologique majeure a des conséquences à la fois positives et négatives. Dans le contexte du ministère de l’Énergie et de la sécurité nationale, les technologies d’IA impliquent la responsabilité d’être sûres et sécurisées », a déclaré Kailkhura. « Je travaille sur ce problème depuis un certain temps maintenant, et je suis assez confiant que nous améliorerons les puissants modèles d’IA et résoudrons les principaux défis scientifiques grâce à eux. Nous devons être proactifs et agir rapidement. »