Google fait le point sur l’état d’avancement de son Universal Speech Model
En novembre, Google a annoncé qu’il se lançait dans une initiative qui aboutira au développement d’un modèle d’apprentissage automatique capable de reconnaître et de traduire 1 000 des langues les plus parlées au monde. Au cours des derniers mois, l’entreprise s’est efforcée d’atteindre cet objectif et a publié un entrée de blog par les membres de l’équipe travaillant sur le projet. L’équipe de Google a également publié un article décrivant l’introduction de son Universal Speech Model (USM) sur le arXiv serveur de pré-impression.
Les mises à jour fournies par Google font partie d’un objectif plus global : créer un traducteur de langue utilisant la reconnaissance vocale automatique (ASR) capable de traduire n’importe quelle langue dans le monde à la demande. À cette fin, ils ont choisi de limiter temporairement le nombre de langues qu’ils tentent de prendre en charge (à 100) en raison du faible nombre de personnes qui parlent des langues moins courantes. Ces langues rares manquent d’ensembles de données pour la formation.
Dans le cadre de son annonce, Google a décrit les premières étapes vers son USM, en le décomposant en familles de modèles de parole formés sur des milliards d’heures de parole enregistrée et couvrant plus de 300 langues. Ils notent que leur USM est déjà actuellement utilisé pour les traductions de langues sous-titrées sur YouTube. Ils décrivent également le modèle générique pour chacune des familles.
Google explique que les modèles sont produits à l’aide de « pipelines » de formation qui impliquent trois types d’ensembles de données : audio non apparié, texte non apparié et données ASR appariées. Ils notent également qu’ils utilisent des modèles de conformation pour gérer les paramètres 2B attendus requis pour le projet et qu’ils le feront en trois étapes principales : une pré-formation non supervisée, une pré-formation supervisée à objectifs multiples et une formation ASR supervisée. Le résultat final sera la production de deux types de modèles : ceux qui sont pré-entraînés et les modèles ASR.
Google affirme en outre que, dans son état actuel, son USM a montré des performances comparables ou supérieures au modèle Whisper, un modèle de reconnaissance vocale à usage général créé par la communauté GitHub. En plus d’utiliser l’USM pour YouTube, Google devrait associer son modèle à d’autres applications d’IA, y compris des appareils de réalité augmentée.