Les chercheurs utilisent de grands modèles linguistiques pour signaler les problèmes dans les systèmes complexes

Les chercheurs utilisent de grands modèles linguistiques pour signaler les problèmes dans les systèmes complexes

Identifier une turbine défectueuse dans un parc éolien, ce qui peut impliquer l’examen de centaines de signaux et de millions de points de données, revient à chercher une aiguille dans une botte de foin.

Les ingénieurs rationalisent souvent ce problème complexe en utilisant des modèles d’apprentissage profond qui peuvent détecter des anomalies dans les mesures prises à plusieurs reprises au fil du temps par chaque turbine, appelées données de séries chronologiques.

Mais avec des centaines d’éoliennes enregistrant des dizaines de signaux chaque heure, la formation d’un modèle d’apprentissage profond pour analyser des données de séries chronologiques est coûteuse et fastidieuse. La situation est aggravée par le fait que le modèle peut devoir être réentraîné après le déploiement et que les exploitants de parcs éoliens peuvent ne pas disposer de l’expertise nécessaire en apprentissage automatique.

Dans une nouvelle étude, des chercheurs du MIT ont découvert que les grands modèles de langage (LLM) ont le potentiel d'être des détecteurs d'anomalies plus efficaces pour les données de séries chronologiques. Il est important de noter que ces modèles pré-entraînés peuvent être déployés immédiatement.

Les chercheurs ont développé un cadre, appelé SigLLM, qui comprend un composant qui convertit les données de séries chronologiques en entrées textuelles qu'un LLM peut traiter. Un utilisateur peut alimenter le modèle avec ces données préparées et lui demander de commencer à identifier les anomalies. Le LLM peut également être utilisé pour prévoir les futurs points de données de séries chronologiques dans le cadre d'un pipeline de détection d'anomalies.

Même si les LLM ne peuvent pas surpasser les modèles d’apprentissage profond de pointe en matière de détection d’anomalies, ils sont tout aussi performants que certaines autres approches d’IA. Si les chercheurs parviennent à améliorer les performances des LLM, ce cadre pourrait aider les techniciens à signaler les problèmes potentiels dans les équipements tels que les machines lourdes ou les satellites avant qu’ils ne surviennent, sans avoir besoin de former un modèle d’apprentissage profond coûteux.

« Comme il s'agit seulement de la première itération, nous ne nous attendions pas à y parvenir dès le premier essai, mais ces résultats montrent qu'il existe ici une opportunité d'exploiter les LLM pour des tâches complexes de détection d'anomalies », explique Sarah Alnegheimish, étudiante diplômée en génie électrique et informatique (EECS) et auteur principal d'un article sur SigLLM.

Parmi ses co-auteurs figurent Linh Nguyen, étudiante diplômée de l'EECS, Laure Berti-Equille, directrice de recherche à l'Institut national de recherche pour le développement (INRD) et l'auteur principal Kalyan Veeramachaneni, chercheur principal au Laboratoire des systèmes d'information et de décision. L'article est publié sur le site arXiv serveur de préimpression, et la recherche sera présentée à la conférence IEEE sur la science des données et l'analyse avancée.

Une solution prête à l'emploi

Les grands modèles linguistiques sont autorégressifs, ce qui signifie qu'ils peuvent comprendre que les valeurs les plus récentes des données séquentielles dépendent des valeurs précédentes. Par exemple, des modèles comme GPT-4 peuvent prédire le mot suivant dans une phrase en utilisant les mots qui le précèdent.

Les données de séries chronologiques étant séquentielles, les chercheurs ont pensé que la nature autorégressive des LLM pourrait les rendre bien adaptées à la détection d’anomalies dans ce type de données.

Cependant, ils souhaitaient développer une technique qui évite le réglage fin, un processus dans lequel les ingénieurs réentraînent un LLM à usage général sur une petite quantité de données spécifiques à une tâche pour en faire un expert dans une tâche. Au lieu de cela, les chercheurs déploient un LLM prêt à l'emploi, sans étapes de formation supplémentaires.

Mais avant de pouvoir le déployer, ils devaient convertir les données de séries chronologiques en entrées textuelles que le modèle de langage pouvait gérer.

Ils y sont parvenus grâce à une séquence de transformations qui capturent les parties les plus importantes de la série temporelle tout en représentant les données avec le moins de jetons possible. Les jetons sont les entrées de base d'un LLM, et plus de jetons nécessitent plus de calculs.

« Si vous ne gérez pas ces étapes avec beaucoup de soin, vous risquez de supprimer une partie de vos données qui compte, perdant ainsi ces informations », explique Alnegheimish.

Une fois qu’ils ont compris comment transformer les données de séries chronologiques, les chercheurs ont développé deux approches de détection d’anomalies.

Approches de détection d'anomalies

Pour le premier, qu'ils appellent Prompter, ils alimentent le modèle avec les données préparées et l'invitent à localiser les valeurs anormales.

« Nous avons dû effectuer plusieurs itérations pour trouver les bonnes invites pour une série temporelle spécifique. Il n'est pas facile de comprendre comment ces LLM ingèrent et traitent les données », ajoute Alnegheimish.

Pour la deuxième approche, appelée Detector, ils utilisent le LLM comme un prévisionniste pour prédire la prochaine valeur d'une série temporelle. Les chercheurs ont comparé la valeur prédite à la valeur réelle. Un écart important suggère que la valeur réelle est probablement une anomalie.

Avec Detector, le LLM ferait partie d'un pipeline de détection d'anomalies, tandis que Prompter accomplirait la tâche de manière autonome. En pratique, Detector a obtenu de meilleurs résultats que Prompter, qui a généré de nombreux faux positifs.

« Je pense qu'avec l'approche Prompter, nous avons demandé au LLM de franchir trop d'obstacles. Nous lui avons posé un problème plus difficile à résoudre », explique Veeramachaneni.

Lorsqu’ils ont comparé les deux approches aux techniques actuelles, Detector a surpassé les modèles d’IA basés sur des transformateurs sur sept des 11 ensembles de données qu’ils ont évalués, même si le LLM ne nécessitait aucune formation ni aucun réglage précis.

À l’avenir, un LLM pourrait également être en mesure de fournir des explications en langage clair avec ses prédictions, de sorte qu’un opérateur pourrait être mieux en mesure de comprendre pourquoi un LLM identifie un certain point de données comme anormal.

Cependant, les modèles d’apprentissage profond de pointe ont largement surpassé les LLM, ce qui montre qu’il reste encore du travail à faire avant qu’un LLM puisse être utilisé pour la détection d’anomalies.

« Que faudra-t-il pour arriver au point où il fera aussi bien que ces modèles de pointe ? C'est la question à un million de dollars qui se pose à nous en ce moment. Un détecteur d'anomalies basé sur LLM doit changer la donne pour que nous puissions justifier ce type d'effort », déclare Veeramachaneni.

À l’avenir, les chercheurs souhaitent voir si un réglage précis peut améliorer les performances, même si cela nécessiterait du temps, des coûts et une expertise supplémentaires en matière de formation.

Leurs approches LLM prennent également entre 30 minutes et deux heures pour produire des résultats, ce qui fait de l’augmentation de la vitesse un domaine clé des travaux futurs. Les chercheurs souhaitent également sonder les LLM pour comprendre comment ils détectent les anomalies, dans l’espoir de trouver un moyen d’améliorer leurs performances.

« Lorsqu'il s'agit de tâches complexes comme la détection d'anomalies dans des séries chronologiques, les LLM sont vraiment un concurrent. Peut-être que d'autres tâches complexes peuvent également être traitées avec les LLM ? », déclare Alnegheimish.