Euro BERT

Voici Eurobert, un modèle de codage multilingue élevé

Eurobert Il s’agit d’un modèle de codage multilingue à découpe conçu pour Améliorer les performances dans les langues européennes et plus répandues dans le monde entierprésenté par Visage étreinten collaboration avec des institutions de recherche importantes et des partenaires industriels. Optimisé pour les activités de document, Eurobert Prend en charge les séquences de texte jusqu’à 8 192 jetons longs Et il se démarque dans la récupération multilingue, la classification, la régression et même dans le raisonnement mathématique et sur le code.

DMLA Et Chins Ils ont contribué à ce projet innovant en fournissant un soutien technologique fondamental, qui a permis une formation et une mise en œuvre efficaces de l’architecture avancée d’Eurobert.

Eurobert est optimisé pour un large éventail d’applications et introduit différentes innovations dans l’architecture du modèle, dans la méthodologie de formation et dans le traitement des ensembles de données. Profitant des intuitions des modèles génératifs modernes, il offre des performances de coupe tout en maintenant l’efficacité et la robustesse de l’architecture basée sur l’architecture.

Ces dernières années, les grands modèles linguistiques ont dominé le traitement du langage naturel (PNL), de nombreux progrès se sont concentrés sur les modèles génératifs. Cependant, les modèles de codage bidirectionnel restent essentiels pour des activités telles que la récupération, la classification et la régression.

Eurobert, ce qui le rend différent des modèles traditionnels

Eurobert améliore des modèles de codage multilingue traditionnels tels que Xlm-roberta Et mgte De différentes manières:

  • Formation multilingue prolongée. Formé sur un ensemble de données de 5 billions de jeton qui embrasse 15 languesgarantissant une grande couverture linguistique.
  • Architecture avancée. Incorporez l’attention aux requêtes de resserrement, l’incorporation de la position rotative et la normalisation de la racine carrée moyenne pour une meilleure efficacité et performances.
  • Support contextuel plus long. Il soutient nativement les séquences jusqu’à 8 192 jetons, ce qui le rend idéal pour les activités de document.
  • Connaissances spécialisées. Il comprend des ensembles de données pour les mathématiques et les langages de programmation pour améliorer les compétences de récupération et de raisonnement.

Méthodologie de formation

Eurobert suit un pipeline de formation en deux phases.

  1. Pré-formation: Le modèle apprend des structures linguistiques d’un corpus massif en utilisant un objectif de Modélisation linguistique masquée (MLM)profitant des données multilingues de haute qualité.
  2. Relief: Le mélange de données est ajusté et la formation est perfectionnée pour des performances optimales en aval. Les ajustements comprennent la réduction de la relation de masquage et la modification de la distribution des données.

En appliquant cette approche, Eurobert garantit une adaptabilité élevée sur plusieurs activités de PNL tout en maintenant une forte généralisation.

De plus, pour ceux qui s’intéressent aux détails, le visage étreint a conduit de grandes ablations dans son étude pour comprendre l’impact de divers choix de formation. Ces ablations incluent les effets du filtrage de la qualité des données, des relations de masquage, des variations de la durée des phrases et de l’équilibre des données multilingues. Plus de détails sur ces expériences et informations sont disponibles dans le document complet.

    Points de performance saillants

    Eurobert obtient des résultats de pointe sur un ensemble diversifié d’activités de PNL multilingues. Les principaux paramètres de référence comprennent:

    • Récupération multilingue (Miracl, Wikipedia, CC-News). Il dépasse les modèles existants dans les activités de classification et de recherche.
    • Classification (XNLI, PAWS-X, Amazon Reviews). Il démontre une précision compétitive dans l’inférence du langage naturel et l’analyse du sentiment.
    • Régression (Seahorse, WMT, Sommeval). Excel dans les activités d’évaluation et de similitude du texte. Compréhension du code et des mathématiques: obtient d’excellents résultats dans la recherche de code (CodesearchNet) et dans le raisonnement mathématique (MathShepherd).
    Eurobert
    EurobertEurobert

    Eurobert pour un long contexte NLP

    L’une des principales caractéristiques d’Eurobert est sa capacité à gérer efficacement les activités à long terme. Grâce au soutien de séquences jusqu’à 8 192 jetons, il convient particulièrement Trouver des documents, une synthèse et une réponse à des questions sur les textes étendus.

    EurobertEurobert

    Eurobert, disponible en trois dimensions

    Les modèles Eurobert sont disponibles dans Trois dimensions (paramètres 210m, 610m et 2.1b) et suivre l’architecture Llama 3 (Llama Team, 2024).

    Architecture

    Les modèles Eurobert sont basés sur un transformateur dense standard (Vaswani et al., 2017), avec divers changements architecturaux. De façon similaire à Lama 2 (Touvron et al., 2023), tous les biais ont été supprimés. De plus, l’attention de la requête de l’appareil (Ainsielie et al., 2023), des unités linéaires de Swishgate (Shazeer, 2020), de la normalisation du niveau de la racine carrée moyenne (Zhang et Sennrich, 2019) et l’incorporation de la position rotative (sur et al., 2024), ont été incorporées.

    Accès ouvert et disponibilité

    Pour encourager les recherches et les applications réelles, les étreintes font l’ouverture de toute la famille Eurobert, notamment:

    • Point de contrôle du modèle (paramètres 210m, 610m et 2.1b)
    • Formation intermédiaire instantanée pour la reproductibilité
    • Structure de formation et de composition de l’ensemble de données.

    Cliquez ici pour lire le document complet

    Le modèle

    Le code de formation (AMD + Nvidia)