Un petit modèle de langage efficace qui pourrait mieux fonctionner sur les smartphones
Les grands modèles de langage (LLM), tels que ChatGPT, la célèbre plateforme conversationnelle d'Open AI, sont récemment devenus de plus en plus répandus, de nombreux internautes s'appuyant sur eux pour trouver rapidement des informations et produire des textes à diverses fins. Pourtant, la plupart de ces modèles fonctionnent nettement mieux sur les ordinateurs, en raison des exigences informatiques élevées associées à leur taille et à leurs capacités de traitement des données.
Pour relever ce défi, les informaticiens ont également développé des petits modèles de langage (SLM), qui ont une architecture similaire mais sont de plus petite taille. Ces modèles pourraient être plus faciles à déployer directement sur les smartphones, permettant aux utilisateurs de consulter plus facilement les plateformes de type ChatGPT au quotidien.
Des chercheurs de l'Université des postes et télécommunications de Pékin (BUPT) ont récemment présenté PhoneLM, une nouvelle architecture SLM pour smartphones qui pourrait être à la fois efficace et hautement performante. Leur architecture proposée, présentée dans un article publié sur le arXiv serveur de préimpression, a été conçu pour atteindre une efficacité d'exécution quasi optimale avant de subir une pré-formation sur les données texte.
« L'objectif de notre récent projet était d'explorer l'espace de conception de LLM pour un déploiement économe en ressources sur les appareils mobiles », a déclaré Mangwei Xu, auteur principal de l'article, à Tech Xplore.
« Auparavant, le développement du LLM suivait le processus consistant d'abord à concevoir et à pré-entraîner le LLM pour une bonne capacité (c'est-à-dire la précision), puis à l'optimiser dans la phase post-formation, par exemple, la quantification et l'élagage. Nos expériences, en revanche, indiquent que les configurations de LLM (par exemple, largeur et profondeur) ont plus d'impact sur l'efficacité d'exécution que sur la capacité.

Le modèle présenté par Xu et ses collègues s'appuie sur un principe de conception innovant qui donne la priorité à l'efficacité. Contrairement aux autres SLM existants, il repose sur une recherche d'architecture dite préalable à la pré-formation, qui implique la recherche d'une architecture qui fonctionne le plus efficacement sur le matériel sur lequel elle est censée être déployée avant la phase de pré-formation.
« PhoneLM suit une architecture LLM standard », a déclaré Xu. « Ce qui est unique, c'est la manière dont il est conçu : nous recherchons les hyper-paramètres d'architecture (par exemple, largeur, profondeur, nombre de têtes, etc.) sur un matériel donné (un smartphone haut de gamme), choisissons le paramètre avec le vitesse d'inférence la plus élevée, puis pré-entraînez-la avec des données de haute qualité.
Lors des premiers tests sur des smartphones, le modèle développé par cette équipe de chercheurs s'est remarquablement bien comporté, s'exécutant extrêmement rapidement par rapport à d'autres LLM avec une taille de paramètre similaire. Notamment, cette amélioration de la vitesse n’a pas compromis de manière significative ses performances, car le modèle disposait toujours de capacités de traitement du langage naturel (NLP) de pointe.
« Les hyper-paramètres de l'architecture concrète du décodeur de transformateur ont un impact plus important sur l'efficacité d'exécution que sur la capacité du langage », a déclaré Xu. « Par conséquent, nous allons faire passer la considération de l'efficacité de l'inférence sur l'appareil avant la pré-formation. »
Les chercheurs ont publié publiquement le code et une démonstration Android de bout en bout d'une version affinée de PhoneLM, en publiant les deux sur GitHub. Le nouveau modèle de langage pour smartphone pourrait bientôt être amélioré et testé davantage pour faciliter son futur déploiement sur les appareils disponibles dans le commerce.
« Nous allons désormais poursuivre le développement d'une famille PhoneLM plus avancée, par exemple en intégrant un mélange d'experts et de fonctionnalités multimodales », a ajouté Xu. « Nous étudions également le développement d'un LLM sur appareil doté d'un agent mobile (c'est-à-dire un assistant virtuel). »