Les modèles d'IA apprennent à diviser les tâches, à réduire les temps d'attente pour des invites complexes

Comme les modèles de langue importants (LLMS) comme Chatgpt continuent de progresser, les attentes des utilisateurs de leur croissance continuent de croître, y compris en ce qui concerne la rapidité avec laquelle ils peuvent répondre à nos invites de plus en plus complexes demandant des réponses aux problèmes et tâches en constante évolution.

Les LLM conventionnelles s'appuient sur le concept de «décodage autorégressif», où chaque élément («jeton») dans une séquence est prévu sur la base de sorties générées précédemment. Cette approche entraîne inévitablement des retards pour des invites plus compliquées, bien que les chercheurs aient tenté d'atténuer cela avec des projets qui exploitent plus efficacement le parallélisme des puces informatiques multicore. Par exemple, le décodage spéculatif utilise un modèle de brouillon rapide pour proposer des jetons qui sont ensuite vérifiés en parallèle par un modèle plus lent et de haute qualité.

Une classe plus récente de méthodes exploite à la place «l'indépendance sémantique», identifiant des modèles syntaxiques comme les puces et en élargissant chacun en parallèle. Mais ils comptent sur une heuristique syntaxique fabriquée à la main, qui sont fragiles et échouent souvent lorsque les réponses s'écartent des formats attendus.

Ces lacunes ont inspiré des chercheurs du MIT en matière d'informatique et de laboratoire d'intelligence artificielle (CSAIL) et Google pour utiliser une approche basée sur l'apprentissage du décodage parallèle. Au lieu de s'appuyer sur des règles fixes, leur méthode entraîne des LLM pour reconnaître l'indépendance sémantique – c'est-à-dire pour identifier et décoder des morceaux de texte sémantiquement indépendants en parallèle.

Le résultat: pâtes.

Plus précisément, l'annotation parallèle de la structure parallèle (pâtes) de l'équipe CSAIL permet à LLMS de générer du texte en parallèle, accélérant considérablement leurs temps de réponse. Contrairement aux tentatives précédentes qui reposaient sur des règles rigides et codées à la main pour identifier les segments de texte indépendants, les pâtes enseignent aux LLMS pour comprendre et exprimer intrinsèquement ces opportunités de parallélisation dans leurs propres réponses.

Cette approche – appelée le décodage asynchrone apprise – fait un changement vers des modèles d'enseignement pour orchestrer leur propre stratégie de décodage parallèle. Les résultats sont publiés sur le arxiv serveur de préimprimée.

« Les LLM traditionnelles sont comme une seule cuisinière qui fait des lasagnes, une étape à la fois », a expliqué Tian Jin, auteur principal d'un nouvel article sur le projet qui a été présenté à la Conférence internationale sur l'apprentissage automatique (ICML 2025) à Vancouver. « Les pâtes enseignent le cuisinier à reconnaître quand différentes parties de la lasagne peuvent être préparées simultanément, comme le mélange d'un sous-ensemble d'ingrédients tandis que le four préchauffe, conduisant à un processus beaucoup plus rapide dans l'ensemble. »

Cette innovation aborde un goulot d'étranglement fondamental dans l'inférence LLM, où la nature séquentielle du décodage entraîne souvent un matériel sous-utilisé et de longs temps d'attente pour les utilisateurs. Les LLM actuels peuvent prendre des secondes ou même des minutes pour répondre aux demandes des utilisateurs, un problème de latence que les pâtes visent à résoudre.

Au cœur des pâtes se trouvent deux composantes principales: les pâtes-langues, un langage d'annotation qui permet aux LLMS de marquer des parties sémantiquement indépendantes de leurs réponses, et un interprète qui agit sur ces étiquettes pour orchestrer le décodage parallèle pendant l'inférence. Comme l'explique Jin, vous pouvez considérer les pâtes-langues comme un ensemble d'instructions que LLM écrit pour elle-même, marquant des sections de sa sortie sur qui peut être travaillée simultanément. L'interprète lit ensuite ces instructions et gère la génération parallèle de ces sections.

L'équipe a formé des LLM pour générer ces annotations de pâtes-langues grâce à un processus de réglage fin en deux étapes. Cette formation optimise non seulement pour la vitesse de décodage, mais maintient également approximativement ou même améliore la qualité des réponses générées. Cette double optimisation est un bond en avant significatif, car il permet des améliorations continues de la vitesse et de la qualité à mesure que davantage de calcul d'entraînement devient disponible.

Dans les expériences réalisées avec des pâtes sur le référence alpacaval utilisée, le modèle auto-paralléliseur de l'équipe a montré des accéléreuses géométriques atteignant près de 2x tout en ne connaissant que des changements mineurs en qualité de réponse (d'un gain de 2% à une baisse de 7%). Cela signifie que les utilisateurs peuvent s'attendre à des réponses presque deux fois plus rapidement sans une diminution notable de la précision ou de la cohérence.

« Il était surprenant de voir ce comportement d'avoir un LLM orchestrer son propre comportement en temps d'inférence », explique Jin. « Il était éclairant – et d'une certaine manière, magique – voir comment lancer plus de calcul sur ces algorithmes donne un comportement d'auto-alcoolstration de plus en plus sophistiqué. »

La recherche met en évidence un défi critique dans le domaine: l'équilibrage de la vitesse et de la qualité. Des méthodes antérieures telles que le squelette de pensée (SOT) et APAR ont tenté de décoder parallèle en recherchant des structures syntaxiques spécifiées manuellement comme des puces ou des paragraphes. Cependant, ces méthodes étaient souvent rigides et imprécises, n'ayant pas identifié de possibilités de parallélisation lorsque les réponses s'écartent même légèrement des modèles attendus. L'approche basée sur l'apprentissage des pâtes, en revanche, offre une solution plus robuste et évolutive.

« Il s'agit de permettre au LLM d'être plus intelligent sur la façon dont il génère du contenu », explique Jin, un doctorat. Étudiant à CSAIL. « Au lieu que nous essayions de deviner où il peut fonctionner en parallèle, nous enseignons au LLM pour identifier ces opportunités elle-même, à la volée. »

Pour l'avenir, l'équipe est optimiste quant aux implications plus larges des pâtes. La capacité de réduire considérablement la latence de décodage LLM pourrait entraîner une réduction des exigences des ressources de calcul, ce qui rend ces puissants modèles d'IA plus accessibles et abordables à un plus large éventail d'utilisateurs et d'applications.

« Nous avons essentiellement conçu un protocole pour un LLM pour s'optimiser », explique Jin. « En améliorant l'efficacité de l'inférence LLM, les pâtes pourraient réduire considérablement les demandes de ressources de calcul et améliorer l'accessibilité des LLM. »

Jin a dirigé le projet aux côtés de ses deux conseillers professeurs, les professeurs du MIT Michael Carbin et Jonathan Ragan-Kelley. Les autres co-auteurs du papier comprennent Ellie Y. Cheng et Zack Ankner de CSAIL, et les chercheurs de Google Suvinay Subramanian, Nikunj Saunshi, Blake M. Elias, Amir Yazdanbakhsh.