Whisper V3 est passé inaperçu, mais c'est l'outil le plus utile et le plus accessible qu'OpenAI ait récemment présenté

Sam Altman n’y a consacré presque pas de temps lors de l’OpenAI DevDay. Toute l’attention était concentrée sur GPT-4 Turbo et les GPT. Cependant, pour ceux d’entre nous qui ne paient pas pour l’intelligence artificielle et qui ne sont pas encore habitués à créer avec elle, il existe un outil beaucoup plus simple et efficace.

Nous parlons de Whisper, qui a atteint cette semaine sa troisième génération. Il s’agit d’un modèle de reconnaissance vocale qui non seulement comprend et traduit des dizaines de langues, mais est également capable de transcrire des conversations entières avec une précision surprenante.

Contrairement à ChatGPT ou DALL·E, Whisper V3 est open source. Son code est déjà publié sur Github et peut être utilisé librement via Hugging Face ou Replicate. Utiliser Whisper est aussi simple que de télécharger le fichier audio et de cliquer dessus.

Whisper V3 obtient les bonnes virgules

Whisper V3 a été formé avec plus d’un million d’heures d’audio étiqueté et avec plus de 4 millions d’heures d’audio pseudo-étiqueté. Par rapport au modèle précédent, Whisper comporte désormais 10 à 20 % d’erreurs en moins. Dans le cas de l’espagnol, le taux d’erreur est inférieur à 5%, étant l’une des langues qui comprend le mieux ce modèle.

Dans mon cas, j’utilise Whisper V2 depuis des mois pour m’aider à transcrire des entretiens, en anglais et en espagnol. J’ai rapidement testé Whisper V3 et le résultat est encore meilleur. Le résultat est pratiquement le même, car au final Whisper V2 comprenait déjà très bien la voix, mais La différence avec Whisper V3 est qu’il est correct même dans les pauses de la conversationen plaçant les virgules et les points avec beaucoup plus de précision.

Whisper peut être utilisé directement comme traducteur ou pour transcrire une langue. Il est également capable de Identifiez automatiquement lorsque vous passez d’une langue à une autre dans la même conversation. En tant que modèle de langage, l’objectif d’OpenAI est que d’autres entreprises ou développeurs l’utilisent pour leurs propres assistants vocaux.

Comme les générations précédentes, Whisper est disponible en différentes tailles pour s’adapter à différentes applications. D’une petite version nécessitant moins de 1 Go de VRAM et entraînée avec 39 millions de paramètres au grand modèle, entraîné avec 1,55 milliard de paramètres et des exigences d’environ 10 Go de VRAM. Ce grand modèle est celui disponible directement via Hugging Face ou Replicate.

Jusqu’à présent, la transcription de l’audio en texte a toujours été un désastre. La plupart des outils gratuits donnaient trop d’erreurs, avec des mots mal placés, des chiffres qui n’étaient pas corrects ou des expressions manquantes. En fin de compte, vous deviez examiner attentivement tout l’audio, vous n’avez donc pas gagné beaucoup de temps.

Avec Whisper V2, c’était la première fois que le résultat d’un outil gratuit me convainquait suffisamment. Avec Whisper V3, j’ai le sentiment que ce modèle de langage est là pour rester. Elle répond exactement à ce que nous demandons à la technologie : qu’elle soit facile à utiliser, rapide, efficace et également gratuite. Altman, nous voulons plus de modèles comme celui-ci.