L’algorithme peut rendre les réponses de l’IA de plus en plus fiables avec moins de frais de calcul
Chatgpt et similaires nous étonnent souvent avec l’exactitude de leurs réponses, mais malheureusement, ils nous donnent également à plusieurs reprises de doute. Le principal problème avec de puissants moteurs de réponse AI (intelligence artificielle) est qu’ils nous fournissent des réponses parfaites et des bêtises évidentes avec la même facilité. L’un des principaux défis réside dans la façon dont les modèles de grande langue (LLMS) sous-jacents à l’IA traitent de l’incertitude.
Jusqu’à présent, il a été très difficile d’évaluer si les LLM conçues pour le traitement de texte et la génération basent leurs réponses sur une base solide de données ou s’ils fonctionnent sur un terrain incertain.
Des chercheurs de l’Institut de l’apprentissage automatique du Département d’informatique de Eth Zurich ont maintenant développé une méthode qui peut être utilisée pour réduire spécifiquement l’incertitude de l’IA. L’œuvre est publiée sur le arxiv serveur de préimprimée.
« Notre algorithme peut enrichir le modèle linguistique général de l’IA avec des données supplémentaires du domaine sujet pertinent d’une question. En combinaison avec la question spécifique, nous pouvons ensuite extraire les profondeurs du modèle et à partir des données d’enrichissement précisément les connexions qui sont les plus susceptibles de générer une réponse correcte », explique Jonas Hübotter, qui a développé la nouvelle méthode. études.
Enrichir l’IA avec des données spécifiques
« La méthode convient particulièrement aux entreprises, aux scientifiques ou aux autres utilisateurs qui souhaitent utiliser l’IA générale dans un domaine spécialisé qui n’est couvert que partiellement ou pas du tout par les données de formation de l’IA », ajoute Andreas Krause, responsable du groupe de recherche et directeur du Centre d’ETH AI.
Par exemple, les utilisateurs peuvent alimenter leurs données stockées localement dans un modèle de langue large (LLM), comme LLAMA. Le soi-disant algorithme SIFT (sélection des données informatives pour le réglage fin), développé par les informaticiens de l’ETH, peut ensuite utiliser les données supplémentaires fournies pour sélectionner des informations spécifiques qui sont les plus étroitement liées à la question.
Vecteurs relationnels dans l’espace multidimensionnel
L’algorithme utilise la structure selon laquelle les informations linguistiques sont organisées dans le modèle de langue grande de l’IA (LLM) pour trouver des informations connexes. Les modèles divisent les informations linguistiques dans leurs données de formation en parties de mots.
Les relations sémantiques et syntaxiques entre les parties de mots sont ensuite organisées comme des flèches de connexion – connues sur le terrain sous forme de vecteurs – dans un espace multidimensionnel. Les dimensions de l’espace, qui peuvent nombre par milliers, découlent des paramètres de relation que le LLM identifie indépendamment pendant la formation en utilisant les données générales.
Angle entre les flèches comme mesure de la corrélation
Les flèches relationnelles pointant dans la même direction dans cet espace vectoriel indiquent une forte corrélation. Plus l’angle est grand entre deux vecteurs, moins deux unités d’informations sont liées les unes aux autres.
L’algorithme SIFT développé par les chercheurs d’ETH utilise désormais la direction du vecteur relationnel de la requête d’entrée (invite) pour identifier les relations d’information qui sont étroitement liées à la question mais se complétent en même temps en termes de contenu.
« L’angle entre les vecteurs correspond à la pertinence du contenu, et nous pouvons utiliser les angles pour sélectionner des données spécifiques qui réduisent l’incertitude », explique Hübotter.
Moins de chevauchement des informations redondantes
En revanche, la méthode la plus courante utilisée à ce jour pour sélectionner les informations adaptées à la réponse, connue sous le nom de méthode du voisin le plus proche, tend à accumuler des informations redondantes largement disponibles. La différence entre les deux méthodes devient claire lors de la recherche d’un exemple d’invite de requête composée de plusieurs informations.
Pour répondre à la question en deux parties « Quel âge a Roger Federer et combien d’enfants a-t-il? » La méthode du voisin le plus proche considère des informations similaires telles que « Roger Federer a 43 ans » et « l’anniversaire de Roger Federer est le 8 août 1981 » pour être également pertinent.
Des informations sur ses enfants, qui sont pertinentes pour la deuxième partie de la question, sont parfois manquantes. Il est superposé par les informations sur la date de naissance, qui se produisent beaucoup plus fréquemment dans les données de formation sur l’IA.
L’algorithme SIFT, cependant, prend en compte dans quelle mesure les informations incluses se complètent, c’est-à-dire si les vecteurs d’information pointent dans différentes directions. Cela permet d’identifier les informations pertinentes pour les deux aspects de la question.
Réponses plus fiables avec des modèles beaucoup plus petits
Cependant, la sélection des informations ciblées améliore non seulement la qualité des réponses. Il peut également être utilisé pour réduire la puissance de calcul toujours croissante requise par les applications d’IA.
En mesurant indirectement l’incertitude, le modèle peut décider de lui-même combien de données sont nécessaires pour fournir une réponse suffisamment fiable. Par conséquent, les frais généraux de calcul requis par un LLM peuvent être systématiquement adaptés à la complexité de la question et à la disponibilité des informations pertinentes.
Étant donné que SIFT adapte en continu la pondération des directions de la flèche vers ses calculs pendant la récupération des données, le modèle enrichi devient de plus en plus fiable plus il est utilisé. Ceci est connu sous le nom de formation de test et peut être utilisé pour obtenir les mêmes performances de sortie avec des modèles plus petits.
« Dans les tests avec des ensembles de données standard, nous avons utilisé le réglage SIFT pour surpasser même les meilleurs modèles d’IA actuels avec des modèles jusqu’à 40 fois plus petits », souligne Hübotter.
Identification de la valeur ajoutée des données pertinentes
Des applications supplémentaires pour l’algorithme SIFT s’ouvrent en termes d’évaluation des données. Comme l’explique Krause, « nous pouvons suivre les données sur les données d’enrichissement. Ils sont étroitement liés à la question et donc particulièrement pertinents pour ce domaine. Cela pourrait être utilisé en médecine, par exemple, pour étudier les analyses de laboratoire ou les valeurs de mesure sont significatives pour un diagnostic spécifique et qui sont moins. »
Hübotter présente son approche à la Conférence internationale sur les représentations de l’apprentissage (ICLR) à Singapour. En décembre, les chercheurs de l’ETH ont remporté le prix du meilleur article scientifique pour leur méthode lors de la conférence annuelle des Neurales sur les systèmes de traitement de l’information neuronaux (NEIRPS) dans l’atelier « Finetuning in Modern Machine Learning ».