PaLM 2 a été formé avec beaucoup moins de paramètres que la version précédente (selon CNBC). Et ça a tout le sens du monde
Les performances des grands modèles de langage ont été mesurées ces dernières années en tenant compte principalement de la nombre de paramètres mis en place lors de la phase de formation. Selon ce raisonnement, il était tout à fait logique de penser que les modèles amélioraient leur capacité à effectuer des tâches ou à résoudre des problèmes à mesure que davantage de paramètres étaient incorporés.
Mais certains indices laissent croire que nous assistons à un changement de paradigme majeur dans lequel le volume des paramètres n’est pas aussi important qu’on le croyait auparavant. Bien que de nombreuses informations soient gardées sous clé en raison du scénario concurrentiel de plus en plus complexe, un exemple clair en est la voie que suivraient des acteurs majeurs tels que Google et OpenAI.
À ce stade, il est nécessaire de souligner l’importance de ce changement apparent de tendance. Fournir des modèles de langage avec de grandes quantités de paramètres se traduit par un investissement important dans temps et argent. Maintenant, s’il est possible de faire de meilleurs modèles en économisant de l’argent dans ce domaine, nous pourrions voir des avancées beaucoup plus rapides et plus significatives dans différents domaines de l’IA.
PaLM 2, moins de paramètres, plus de données
Il y a une semaine, Google présentait son modèle de langage PaLM 2 destiné à prendre part à la bataille avec le GPT-4 d’OpenAI. C’est l’évolution de PaLM, arrivé l’année précédente pour concurrencer un autre des produits de la société de Sam Altman, à l’époque le prometteur GPT-3. Qu’a-t-on vu récemment ? Que l’entreprise de Mountain View change la façon dont elle entraîne ses modèles.
Les détails sur les caractéristiques techniques du dernier modèle de Google n’ont pas été rendus publics, mais des documents internes vus par CNBC indiquent que PaLM 2 a été formé avec millions de paramètres en moins que son prédécesseur, et affiche toujours des performances supérieures. Concrètement, le modèle de nouvelle génération comporterait 340 milliards de paramètres contre 540 milliards dans le précédent.
Dans un article de blog, la société de moteurs de recherche a reconnu l’utilisation d’une nouvelle technique connue sous le nom de « mise à l’échelle optimale computationnelle » pour rendre les performances globales du modèle plus efficaces, y compris l’utilisation de moins de paramètres et, par conséquent, un coût de mise en œuvre inférieur. .formation inférieure. L’astuce de Google pour PaLM 2 vient d’une autre partie : augmenter l’ensemble de données.
N’oubliez pas que les ensembles de données () sont constitués d’une grande variété d’informations collectées à partir de pages Web, d’études scientifiques, etc. En ce sens, les informations divulguées suggèrent que le nouveau Google a été formé avec cinq fois plus de données que PaLM présenté en 2022. Ce changement est présenté en jetons, c’est-à-dire dans les unités qui composent les jeux de données.
PaLM 2 aurait été formé avec 3,6 milliards de jetons, tandis que PaLM n’aurait que 780 milliards de jetons. Pour avoir une idée de ce scénario, nous pouvons mentionner, par exemple, que le modèle LLaMA de Meta a été formé avec 1,4 milliard de jetons. Ces informations sur GPT-4 sont inconnues, mais les documents GPT-3 indiquent que le modèle contient 300 milliards de jetons.
Ce changement de paradigme consistant à utiliser moins de paramètres pour former des modèles n’est pas propre à Google. OpenAI travaille également dans ce sens. Pendant des mois, Altman a souligné que la course à l’augmentation du nombre de paramètres lui rappelait la fin des années 1990, lorsque l’industrie du matériel était obsédée par l’augmentation des vitesses d’horloge des processeurs.
Comme le soulignent nos confrères de Genbeta, le patron de la société d’IA assure que « le GHz est passé en arrière-plan » et donne un exemple du scénario dans lequel la plupart des gens ne connaissent pas la vitesse du processeur de leur iPhone, mais vous savez c’est rapide. « Ce qui nous importe vraiment, ce sont les capacités, et je pense qu’il est important de se concentrer sur les capacités », dit-il.
Quels sont les paramètres ?
D’une manière générale, les paramètres entrent en scène dans la phase d’apprentissage des modèles d’IA. Ceux-ci permettent aux modèles d’apprendre à partir des données et de fournir des réponses basées sur des prédictions. Par exemple, si nous entraînons un modèle spécialement conçu pour trouver des maisons en fonction du prix, il apprendrait des paramètres tels que les dimensions, l’emplacement ou les commodités.