OpenII, disponible via des modèles vocaux de nouvelle génération API

LE’Audio, la dernière frontière de l’intelligence artificielle. Ces derniers mois, Openai a travaillé pour rendre les agents de texte plus intelligents, capables et utiles avec la publication d’outils tels que Opérateur, recherche en profondeur, agents aînés par ordinateur et leRéponses API avec des outils intégrés. Cependant, pour rendre les agents vraiment efficaces, il est essentiel de permettre des interactions plus profondes et intuitives, qui vont au-delà du texte simple. « Utiliser la langue parlée naturelle pour communiquer efficacement » est la prochaine étape.

De nouveaux modèles audio naissent dans l’API

OpenII a présenté de nouveaux modèles de Discours à texte Et Text-vocation dans l’API, permettant la création de Des agents vocaux encore plus puissants, personnalisables et intelligents. Les nouveaux Modèles de reconnaissance vocale Ils établissent une nouvelle norme en termes de précision et de fiabilité, surmontant les solutions existantes, en particulier dans des contextes complexes tels que ceux avec des accents, des environnements bruyants ou des vitesses parlées variables.

Grâce à ces améliorations, les transcriptions deviennent plus fiables, ce qui rend les modèles particulièrement adaptés aux cas d’utilisation tels que le centre d’appels, les transcriptions de réunions et plus encore.

Agents vocaux personnalisables

Pour la première fois, les développeurs peuvent instruire le modèle de synthèse vocale non seulement sur Quoi dis, mais aussi sur comme Dites-le. Par exemple, vous pouvez demander au système de « parler en tant qu’agent de service client empathique ». Cela s’ouvre sur de nouvelles possibilités pour les applications de tailleur: Des voix plus dynamiques et empathiques pour le service client, les récits expressifs pour la narration créative, et bien plus encore.

Un chemin a commencé en 2022

OpenII a lancé son premier modèle audio en 2022 et, depuis lors, il s’est engagé à améliorer son intelligence, sa précision et sa fiabilité. Avec les nouveaux modèles qui viennent d’être annoncés, les développeurs peuvent désormais créer des systèmes de reconnaissance vocale plus précis et robustes, ainsi que des voix synthétiques plus expressives et caractérisées, tout au long de l’API.

Parmi les voix prédéfinies disponibles sont:
Calme, Surfeur, Professionnel, Chevalier médiéval, Vrai Crime Buff, Histoire au coucher.

Les nouveaux modèles de reconnaissance vocale

Les modèles GPT-4O-Transcribe Et GPT-4O-MINI-Transcripteur introduire des améliorations significatives du taux d’erreur des mots (Taux d’erreur de motWer), dans la compréhension linguistique et en précision, par rapport aux modèles précédents (Whisper).

« GPT-4O-Transcribe démontre des performances Wer améliorées Comparé aux modèles Whisper existants sur plusieurs repères consolidés, reflétant des progrès significatifs dans la technologie de la parole à texte. «Ces améliorations proviennent des innovations ciblées dans l’apprentissage du renforcement et une phase de formation sur un ensemble de données audio de grande qualité.

Dans la pratique, ces nouveaux modèles sont plus qualifiés pour saisir les nuances de la parole, réduisant les malentendus et garantissant des transcriptions fiables, même dans des contextes difficiles.

Performance de référence Fleurs

Le Taux d’erreur des mots (Wer) Mesure la précision des modèles de reconnaissance vocale en calculant le pourcentage de mots transcrits à tort. Plus le wer est bas, meilleur est les performances.

Les nouveaux modèles OpenAI atteignent un Wer inférieur sur la référence telle que Fleursqui couvre plus de 100 langues et est basé sur des échantillons audio transcrits manuellement. Les résultats montrent une plus grande précision et une couverture linguistique plus large, surmontant constamment Whisper V2 et V3.

Le nouveau modèle de texte vocal

Le modèle est également lancé GPT-4O-MINI-TTSavec une nouvelle fonctionnalité clé: le directionou la possibilité de vérifier non seulement quoi dire mais aussi comment le dire.

Le modèle est désormais disponible dans l’API de texte vocal. Il est important de noter que les éléments disponibles sont artificiels et prédéfinis, soigneusement surveillés pour assurer la cohérence et la sécurité.

Les innovations techniques derrière les modèles vocaux d’Openai

Formation sur l’ensemble de données audio authentique

Les nouveaux modèles audio sont basés sur l’architecture GPT-4O Et GPT-4O-MINIet ont été formés sur un ensemble de données audio spécialisé, essentiel pour optimiser les performances. Cette approche permet une compréhension plus profonde des nuances vocales.

Techniques de distillation avancées

OpenII a amélioré les techniques de distillation, transférant les connaissances des modèles plus grands à des techniques plus petites et plus efficaces. Merci aux méthodologies de s’auto-jouerDataset simule des conversations réalistes entre les utilisateurs et les assistants, améliorant la qualité des modèles les plus compacts.

Apprentissage du renforcement pour la transcription

Dans le cas des modèles de parole à texte, un paradigme a été fortement adopté sur la base de Apprentissage du renforcementce qui a provoqué la précision des transcriptions à des niveaux jamais vus, réduisant les hallucinations et améliorant la fiabilité dans des scénarios complexes.

Disponibilité et étapes suivantes

Les nouveaux modèles audio sont déjà disponibles pour tous les développeurs. Il est possible de commencer à créer des expériences vocales en ajoutant ces modèles aux solutions existantes en fonction du texte. Une intégration avec SDK des agents Pour simplifier le développement.

Pour les expériences vocales en temps réel et en faible latence, il est recommandé d’utiliser les modèles de parole à discours via le API en temps réel.

En regardant vers l’avenir, OpenAI continuera d’investir dans l’amélioration de l’intelligence et de la précision des modèles audio, explorant également la possibilité pour les développeurs de Créer des éléments personnalisésconformément aux normes de sécurité. Dans le même temps, le dialogue avec les décideurs politiques, les chercheurs, les développeurs et les créatifs continue de faire face aux défis et aux opportunités liés aux voix synthétiques.