Google fait le point sur l'état d'avancement de son Universal Speech Model

Un aperçu de notre approche. La formation est divisée en trois étapes. (i) La première étape forme un squelette de conformateur sur un grand ensemble de données vocales non étiquetées, optimisant pour l’objectif BEST-RQ. (ii) Nous continuons à former ce modèle d’apprentissage de la représentation de la parole tout en optimisant pour plusieurs objectifs, l’objectif BEST-RQ sur la parole non étiquetée, l’appariement des modalités, l’ASR supervisé et les pertes de modélisation de la durée sur les données de parole et de transcription appariées et l’objectif de reconstruction de texte avec un RNN Décodeur -T sur le texte sans étiquette. (iii) La troisième étape affine cet encodeur pré-entraîné sur les tâches ASR ou AST. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2303.01037

En novembre, Google a annoncé qu’il se lançait dans une initiative qui aboutira au développement d’un modèle d’apprentissage automatique capable de reconnaître et de traduire 1 000 des langues les plus parlées au monde. Au cours des derniers mois, l’entreprise s’est efforcée d’atteindre cet objectif et a publié un entrée de blog par les membres de l’équipe travaillant sur le projet. L’équipe de Google a également publié un article décrivant l’introduction de son Universal Speech Model (USM) sur le arXiv serveur de pré-impression.

Les mises à jour fournies par Google font partie d’un objectif plus global : créer un traducteur de langue utilisant la reconnaissance vocale automatique (ASR) capable de traduire n’importe quelle langue dans le monde à la demande. À cette fin, ils ont choisi de limiter temporairement le nombre de langues qu’ils tentent de prendre en charge (à 100) en raison du faible nombre de personnes qui parlent des langues moins courantes. Ces langues rares manquent d’ensembles de données pour la formation.

Dans le cadre de son annonce, Google a décrit les premières étapes vers son USM, en le décomposant en familles de modèles de parole formés sur des milliards d’heures de parole enregistrée et couvrant plus de 300 langues. Ils notent que leur USM est déjà actuellement utilisé pour les traductions de langues sous-titrées sur YouTube. Ils décrivent également le modèle générique pour chacune des familles.

Google explique que les modèles sont produits à l’aide de « pipelines » de formation qui impliquent trois types d’ensembles de données : audio non apparié, texte non apparié et données ASR appariées. Ils notent également qu’ils utilisent des modèles de conformation pour gérer les paramètres 2B attendus requis pour le projet et qu’ils le feront en trois étapes principales : une pré-formation non supervisée, une pré-formation supervisée à objectifs multiples et une formation ASR supervisée. Le résultat final sera la production de deux types de modèles : ceux qui sont pré-entraînés et les modèles ASR.

Google affirme en outre que, dans son état actuel, son USM a montré des performances comparables ou supérieures au modèle Whisper, un modèle de reconnaissance vocale à usage général créé par la communauté GitHub. En plus d’utiliser l’USM pour YouTube, Google devrait associer son modèle à d’autres applications d’IA, y compris des appareils de réalité augmentée.