L'étude montre que de nouveaux algorithmes accélèrent les modèles d'IA

Tout comme les personnes de différents pays parlent différentes langues, les modèles d'IA créent également diverses «langues» internes – un ensemble unique de jetons compris uniquement par chaque modèle. Jusqu'à récemment, il n'y avait aucun moyen pour les modèles développés par différentes entreprises de communiquer directement, de collaborer ou de combiner leurs forces pour améliorer les performances.

Cette semaine, lors de la Conférence internationale sur l'apprentissage automatique (ICML) à Vancouver, au Canada, des scientifiques du Weizmann Institute of Science and Intel Labs présentent un nouvel ensemble d'algorithmes qui surmontent cette barrière, permettant aux utilisateurs de bénéficier d'une puissance informatique combinée des modèles d'IA travaillant ensemble. Les nouveaux algorithmes, déjà disponibles pour des millions de développeurs d'IA à travers le monde, accélèrent les performances des modèles de grande langue (LLMS) – les principaux modèles d'IA génératifs de Today – à 1,5 fois, en moyenne.

La recherche est publiée sur le arxiv serveur de préimprimée.

Les LLM, telles que Chatgpt et Gemini, sont des outils puissants, mais ils comportent des inconvénients importants: ils sont lents et consomment de grandes quantités de puissance de calcul. En 2022, les grandes entreprises technologiques ont réalisé que les modèles d'IA, comme les gens, pourraient bénéficier de la collaboration et de la division du travail. Cela a conduit au développement d'une méthode appelée décodage spéculatif, dans lequel un petit modèle rapide, possédant des connaissances relativement limitées, fait une première supposition tout en répondant à la requête d'un utilisateur, et un modèle plus grand, plus puissant mais plus lent et corrige la réponse si nécessaire.

Le décodage spéculatif a été rapidement adopté par les géants de la technologie car il maintient une précision de 100%, contrairement aux techniques de la plupart des accélération, ce qui réduit la qualité de la production. Mais il avait une grande limitation: les deux modèles devaient « parler » exactement le même langage numérique, ce qui signifiait que les modèles développés par différentes entreprises ne pouvaient pas être combinés.

« Les géants de la technologie ont adopté le décodage spéculatif, bénéficiant de performances plus rapides et économiser des milliards de dollars par an de coût du traitement, mais ils étaient les seuls à avoir accès à de petits modèles plus rapides qui parlent le même langage que les modèles plus grands », explique Nadav Timor, un doctorat. L'étudiant de l'équipe de recherche du professeur David Harel au département de mathématiques de l'informatique et appliqué de Weizmann, qui a dirigé le nouveau développement.

« En revanche, une startup cherchant à bénéficier du décodage spéculatif a dû former son propre petit modèle qui correspondait à la langue du grand, et qui prend beaucoup d'expertise et de ressources informatiques coûteuses. »

Les nouveaux algorithmes développés par les chercheurs de Weizmann et Intel permettent aux développeurs de jumeler n'importe quel petit modèle avec n'importe quel grand modèle, les faisant travailler en équipe. Pour surmonter la barrière linguistique, les chercheurs ont trouvé deux solutions.

Tout d'abord, ils ont conçu un algorithme qui permet à un LLM de traduire sa sortie de son langage de jeton interne en un format partagé que tous les modèles peuvent comprendre. Deuxièmement, ils ont créé un autre algorithme qui invite ces modèles à s'appuyer principalement dans leur travail collaboratif sur des jetons qui ont la même signification à travers des modèles, de manière similaire à des mots comme « banane » ou « Internet » qui sont presque identiques à travers les langues humaines.

« Au début, nous craignons que trop d'informations soient » perdues dans la traduction « et que les différents modèles ne seraient pas en mesure de collaborer efficacement », explique Timor. « Mais nous nous sommes trompés. Nos algorithmes accélèrent les performances des LLM jusqu'à 2,8 fois, ce qui entraîne des économies massives de dépenses en puissance. »

L'importance de cette recherche a été reconnue par les organisateurs de l'ICML, qui a sélectionné l'étude pour la présentation publique – une distinction accordée à seulement environ 1% des 15 000 observations reçues cette année. « Nous avons résolu une inefficacité de base dans l'IA générative », explique Oren Pereg, chercheur principal chez Intel Labs et co-auteur de l'étude. « Ce n'est pas seulement une amélioration théorique; ce sont des outils pratiques qui aident déjà les développeurs à créer des applications plus rapides et plus intelligentes. »

Au cours des derniers mois, l'équipe a publié ses algorithmes sur la plate-forme d'IA open source étreignant Face Transformers, ce qui les rend librement disponibles pour les développeurs du monde entier. Les algorithmes ont depuis fait partie des outils standard pour exécuter des processus d'IA efficaces.

« Ce nouveau développement est particulièrement important pour les appareils Edge, des téléphones et des drones aux voitures autonomes, qui doivent s'appuyer sur une puissance de calcul limitée lorsqu'elle n'est pas connectée à Internet », ajoute Timor. « Imaginez, par exemple, une voiture autonome guidée par un modèle d'IA. Dans ce cas, un modèle plus rapide peut faire la différence entre une décision sûre et une erreur dangereuse. »

Le Dr Jonathan Mamou, Daniel Korat, Moshe Berchansky et Moshe Wasserblat de Daniel Korat, Moshe Berchansky et Moshe Wasserblat de Daniel Korat, Moshe Berchansky et Moshe. Le professeur David Harel est le titulaire de la présidente des mathématiques professeurs de William Sussman.