La technologie IA peut compresser la mémoire des conversations du chatbot LLM de 3 à 4 fois

Le Collège d'ingénierie de l'Université nationale de Séoul a annoncé qu'une équipe de recherche dirigée par le professeur Hyun Oh Song du Département d'informatique et d'ingénierie a développé une nouvelle technologie d'IA appelée KVzip qui compresse intelligemment la mémoire de conversation des chatbots basés sur un grand modèle de langage (LLM) utilisés dans des tâches à contexte long telles que les dialogues étendus et la synthèse de documents. L'étude est publiée sur le arXiv serveur de préimpression.

Le terme mémoire de conversation fait référence au stockage temporaire de phrases, de questions et de réponses qu'un chatbot conserve pendant l'interaction, qu'il utilise pour générer des réponses contextuellement cohérentes. Grâce à KVzip, un chatbot peut compresser cette mémoire en éliminant les informations redondantes ou inutiles qui ne sont pas essentielles à la reconstruction du contexte. Cette technique permet au chatbot de conserver sa précision tout en réduisant la taille de la mémoire et en accélérant la génération de réponses : une avancée majeure dans les systèmes de dialogue d'IA efficaces et évolutifs.

Les chatbots LLM modernes effectuent des tâches telles que le dialogue, le codage et la réponse aux questions en utilisant d'énormes contextes pouvant s'étendre sur des centaines, voire des milliers de pages. Cependant, à mesure que les conversations s'allongent, la mémoire de conversation accumulée augmente le coût de calcul et ralentit le temps de réponse.

Pour résoudre ce problème, les chercheurs ont développé des méthodes de compression de mémoire qui permettent aux chatbots de conserver uniquement les informations contextuelles essentielles, plutôt que de stocker tous les détails des échanges précédents. Cependant, la plupart des techniques de compression existantes dépendent des requêtes, ce qui signifie qu'elles optimisent la mémoire uniquement pour la question en cours. Lorsqu'une question nouvelle ou de suivi est posée, les performances du chatbot se détériorent généralement considérablement.

Pour surmonter cette limitation, l'équipe du professeur Song a proposé KVzip, une nouvelle méthode qui réduit efficacement la taille de la mémoire de conversation dans les dialogues à contexte long tout en conservant le même niveau de précision. KVzip effectue la compression en conservant uniquement les informations nécessaires à la reconstruction du contexte, permettant au chatbot de gérer plusieurs requêtes futures sans avoir besoin de recompresser sa mémoire à chaque fois.

Dans un large éventail de tâches, notamment la réponse aux questions, la récupération, le raisonnement et la compréhension du code, KVzip a permis une réduction de mémoire de 3 à 4 fois et des temps de réponse environ 2 fois plus rapides, le tout sans aucune perte de précision. La technique a également démontré une évolutivité vers des contextes extrêmement longs allant jusqu'à 170 000 jetons à l'aide des principaux LLM open source tels que Llama 3.1, Qwen 2.5 et Gemma 3.

De plus, KVzip a maintenu une qualité de réponse stable au cours de plusieurs séries de questions de suivi diverses, surmontant ainsi les limites de généralisation des méthodes de compression de mémoire antérieures. Notamment, la technologie a été intégrée à la bibliothèque de compression de cache KV open source de NVIDIA, KVPress, la rendant facilement accessible pour un déploiement pratique.

Dans un avenir proche, KVzip devrait être largement adopté dans les systèmes LLM à l'échelle de l'entreprise, y compris les pipelines de génération augmentée par récupération (RAG) et les services de chatbot personnalisés. En réduisant l'utilisation de la mémoire de 3 à 4 fois et en raccourcissant la latence de réponse d'environ 2 fois, la méthode permet aux serveurs de gérer davantage d'utilisateurs simultanés et des conversations plus longues tout en réduisant considérablement les coûts d'exploitation.

Des chercheurs du SNU développent une technologie d'IA qui compresse la « mémoire de conversation » du chatbot LLM de 3 à 4 fois.

De plus, étant donné que la même mémoire compressée peut être réutilisée pour différents types de requêtes, aucune recompression n’est nécessaire à chaque question et aucun risque de dégradation de la précision lors des échanges ultérieurs. Ces propriétés rendent KVzip particulièrement avantageux pour les environnements mobiles et périphériques, où les ressources de calcul et de mémoire sont limitées, permettant des capacités de personnalisation de contexte long stables, même sur l'appareil.

Le professeur Hyun Oh Song, qui a conseillé la recherche, a déclaré : « KVzip est important dans le sens où il permet une mémoire compressée réutilisable qui ne conserve que les informations les plus essentielles, même dans les agents LLM nécessitant une longue compréhension contextuelle. »

Le Dr Jang-Hyun Kim, qui est le principal contributeur du projet, a déclaré : « KVzip peut être appliqué de manière transparente aux applications LLM du monde réel et aux systèmes sur appareil pour garantir une qualité constante et une vitesse améliorée pour les interactions à long contexte.

Le premier auteur, le Dr Jang-Hyun Kim, rejoindra l'équipe AI/ML Foundation Models chez Apple en tant que chercheur en apprentissage automatique.

Le laboratoire d'apprentissage automatique dirigé par le professeur Song a également accepté deux articles supplémentaires comme présentations par affiches à NeurIPS 2025 et un article publié dans la revue Transactions sur la recherche sur l'apprentissage automatique (TMLR).

Dans l'article NeurIPS 2025 intitulé « Q-Palette : Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment », l'équipe a présenté une analyse théorique de l'allocation optimale de la largeur de bit entre les couches dans la quantification de grands modèles de langage et a introduit « Q-Palette », un ensemble de quantificateurs fractionnaires qui réalisent cette allocation optimale.

La méthode a permis d’obtenir une amélioration de 36 % de la vitesse d’inférence par rapport aux approches de quantification existantes à des niveaux de performances équivalents.

Un autre article de NeurIPS 2025, « Apprendre à mieux rechercher avec des modèles de langage via une auto-formation guidée renforcée », a proposé Guided-ReST, un nouvel algorithme d'apprentissage par renforcement qui permet à de grands modèles de langage d'apprendre de manière autonome des stratégies de raisonnement et de recherche améliorées. Sur le test de raisonnement difficile du compte à rebours, Guided-ReST a amélioré la précision de 10 % et l'efficacité du raisonnement de 50 %.

De plus, l'équipe TMLR L'article « Découverte de causes ciblées à grande échelle via l'apprentissage à partir de données simulées » introduit une méthode d'inférence causale supervisée pour identifier efficacement les variables causales des facteurs cibles. La méthode proposée évolue linéairement avec le nombre de variables, ce qui la rend adaptée aux systèmes à grande échelle, et atteint des performances de pointe en matière de découverte causale dans les références des réseaux de régulation génique.