Un modèle d'IA qui comprend notre voix, notre musique et même le bruit de fond

Un modèle d'IA qui comprend notre voix, notre musique et même le bruit de fond

Xiaomi a été l'une des premières marques à annoncer un Assistant vocal avec IA Pour ses téléphones mobiles, bien qu'il soit peu connu car il ne fonctionne qu'en Chine. Sept ans plus tard, le géant asiatique a annoncé un nouveau modèle de voix, mais cette fois son approche n'est pas dans les téléphones mobiles, mais dans les voitures et la maison connectée.

Midashenglm-7b. Xiaomi a baptisé son nouveau modèle avec ce nom si peu attrayant et difficile à retenir. Il est composé de deux parties clés: le Encodeur audio avec le Dasheng et le décodeur de Alibaba Qwen2.5-OMNI-7B. Combinée, le système est capable de reconnaître non seulement notre voix, ainsi que les sons environnementaux, la musique et le bruit de fond. Xiaomi présume Cela offre une «performance de premier niveau dans 22 repères publics». Plus précisément, il a dépassé Openai chuchoter dans les tâches de compréhension audio non verbale.

Dans la voiture. Xiaomi a déjà trouvé 30 applications de son nouveau modèle vocal pour différents produits. Le contrôle vocal comprend l'environnement acoustique et répond en fonction du contexte, par exemple s'il y a un son inhabituel dans la voiture. Ils ont également pensé à une fonction qui nous aide à améliorer la prononciation pour apprendre les langues pendant la conduite et la possibilité de « réveiller » la voiture avec la voix avant même d'entrer dans la cabine. Sa capacité à détecter les sons anormaux le rend également utile du point de vue de la sécurité, à la fois de la voiture avec un mode anti-vol plus puissant, et à la maison à travers des haut-parleurs intelligents.

À la maison. Le nouveau modèle permet l'activation des fonctions intelligentes à travers des sons, tels que les lumières sont liées lors de l'applaudage ou que la climatisation s'éteint lorsque nous sortons, sans avoir à demander avec la voix. Xiaomi garantit que son système a une latence très faible et une grande capacité de traitement parallèle, ce qui lui permet de fonctionner dans des appareils avec peu de ressources, tels que des caméras ou des haut-parleurs, et de maintenir de bonnes performances dans des environnements avec de nombreux appareils connectés en tant que maison.

Open source. La Chine a choisi le côté open-source dans la course AI Et le nouveau modèle vocal Xiaomi suit la ligne. Midashengglm-7b est open source et fonctionne sous la licence Apache 2.0, qui permet une utilisation commerciale et une modification gratuite. Cela ouvre la porte à son utilisation par d'autres développeurs et également dans le domaine académique. De plus, Xiaomi a rendu public toutes les données qui ont été utilisées pour la formation des modèles. L'objectif est clair: attirer la communauté des développeurs et que son écosystème audio devient standard, renforçant sa position concurrentielle.

Expérience conversationnelle. L'industrie automobile prend un tour dans lequel Le logiciel est positionné comme le facteur de différenciation numéro un. Ce n'est plus seulement s'il fonctionne plus ou à quel point il est confortable de conduire, ce sont les systèmes de conduite autonomes, l'interface de son écran et en particulier le contrôle vocal. Selon Cette étudeles participants à la voix avec l'IA seront une norme dans les voitures d'ici 2033. Qui a la meilleure expérience conversationnelle aura un avantage clair et Xiaomi a franchi une étape importante dans cette direction.

Image de couverture | Simseo avec des icônes zky.icon

Dans Simseo | Xiaomi continue de perdre de l'argent avec leurs voitures électriques … mais ils sont leur plus grand succès