OpenII GPT-Realtime: Modèle vocal pour les agents conversationnels
Après les débuts en version bêta en octobre 2024, l'API en temps réel entre la disponibilité générale. Conçu pour les développeurs et les entreprises, il vous permet de construire Agent vocal fiable et prêt pour la production. Parmi les nouveautés se démarquent:
- Prise en charge des serveurs MCP distants,
- Entrée d'image
- Connexions via le protocole d'initiation de session (SIP), ouvrant l'écosystème à des outils et contextes supplémentaires.
GPT-Time: la nouvelle norme de la conversation vocale
Au centre de l'annonce se trouve GPT-Time, le nouveau modèle Discours à espèces Capable de gérer des instructions complexes, d'appeler des outils avec précision et de générer un élément plus naturel et expressif. Il a été conçu pour de vrais scénarios: support client, assistant personnel et formation. Deux nouvelles voix, Cèdre Et Marinenrichir l'expérience, tandis que les huit déjà existants reçoivent des améliorations significatives.

Qualité audio et intelligence améliorée
Le naturel est crucial pour la propagation des agents vocaux. GP-RetteiME introduit plus d'intonations humaines et la capacité de moduler le style: de l'empathie au professionnel, jusqu'aux changements de langue dans la même phrase. Selon l'indice de référence, le modèle atteint 82,8% de la précision dans le banc audio Big, dépassant la version 2024 de plus de 17 points.


Plus grande adhésion aux instructions
Le nouveau modèle montre également des progrès dans l'exécution des instructions des développeurs. Dans les tests à plusieurs calculs, conçus pour évaluer la gestion des conversations multi-deux-deux, GP-Time a atteint 30,5% de la précision, contre 20,6% de la version précédente. Cela vous permet de définir avec de plus grandes tons de précision, réponses et comportements.


Fonction évoluée appelle
L'un des aspects les plus critiques à utiliser dans la production est la possibilité d'appeler des outils en temps opportun et correct. GPT-RetteiME a atteint 66,5% de la précision dans le complexe de référence complexefuncch, avec des améliorations également dans la gestion asynchrone: les conversations restent fluides même en attendant les résultats de fonctions complexes.


Nouvelles fonctionnalités API
En plus du modèle, l'API en temps réel est enrichi de nouvelles options:
- Serveurs MCP distants: étendez rapidement les compétences des agents.
- Entrée d'image: vous permet d'intégrer des captures d'écran et des photos pour contextualiser la conversation.
- Prise en charge SIP: vous permet de connecter l'IA aux tableaux de commutation, aux téléphones fixes et aux réseaux publics.
- Invite réutilisable: simplifiez le développement et l'évolutivité des projets.
Sécurité, intimité et conformité UE
OpenAI intègre une sauvegarde à plusieurs niveaux pour réduire les risques d'abus et garantit le respect des réglementations européennes sur la résidence des données. Les voix prédéfinies limitent le risque d'identité, tandis que les développeurs peuvent ajouter d'autres barrières de sécurité par le biais du SDK des agents.
Prix et disponibilité
GPT-RetteiME est disponible pour tous les développeurs, avec un prix réduit de 20% par rapport à la version précédente: 32 dollars pour 1 M $ de jeton audio d'entrée et 64 dollars pour le jeton audio de 1 million de dollars en production. De plus, la gestion avancée du contexte conversationnel vous permet de réduire les coûts des sessions longues.
Pour commencer, consultez la documentation sur l'API en temps réel, il s'agit du nouveau modèle dans le terrain de jeu et consultez le guide de la demande de l'API en temps réel.
