DALL-E 3 : 23 idées, conseils et quelques astuces pour tirer le meilleur parti de vos dessins avec l'intelligence artificielle

Qu’est-ce que c’est, comment ça marche et comment utiliser cette intelligence artificielle pour transcrire des audios

On vous explique qu’est-ce que Whisperle système d’intelligence artificielle d’OpenAI pour transcrire des fichiers audio en texte. Il existe de nombreux outils pour transcrire de l’audio en texte, mais la plupart d’entre eux ont tendance à échouer. Pourtant, cette IA, dont la version v3 vient d’être présentée, est arrivée à offrir les meilleurs résultats.

Nous allons commencer cet article en expliquant de manière simple ce qu’est Whisper et comment il fonctionne en interne. Et puis, nous terminerons en vous disant deux façons de l’utiliser librement pour retranscrire vos textes.

Qu’est-ce que Whisper

Whisper est une technologie qui utilise l’intelligence artificielle pour transcrire les audios. Cela signifie que vous téléchargez un fichier audio sur leur système, et cette technologie analyse tout ce qui est dit dans l’audio et vous l’écrit avec des mots pour que vous n’ayez pas à le faire.

Il existe des métiers comme le journalisme dans lesquels de nombreux collègues doivent retranscrire des interviews. Il s’agit normalement d’une tâche fastidieuse dans laquelle vous écoutez l’audio et notez tout ce qui est dit, en devant vous arrêter de temps en temps et investir beaucoup de temps et il y a de la force en lui. Avec cet outil, la transcription est réalisée par une IA.

Dans ce cas, la plupart des outils gratuits classiques ont tendance à donner trop d’erreurs, à confondre les mots ou à en placer d’autres de manière incorrecte, et même à inventer des figures ou à ne pas inclure d’expressions. Cela signifie que vous devez tout revoir, et cela ne vous fait pas non plus gagner beaucoup de temps.

Et ce que propose OpenAI, c’est un outil beaucoup plus fiable lors de vos transcriptions. Il n’est pas exempt d’erreurs spécifiques de temps en temps, mais il est bien plus efficace que la plupart d’entre elles, il est très rapide et très efficace. Et en plus, il peut être utilisé librement.

Comment fonctionne Whisper

Capture d'écran 2023 11 13 Au 13 49 02

Whisper, dans sa troisième version actuelle, est un système de reconnaissance vocale automatique ou ASR, une technologie qui utilise l’intelligence artificielle pour traiter un fichier audio que vous avez envoyé, analyser le contenu, détecter tous les mots prononcés et ensuite vous écrire sous forme de texte ce qui est dit dans l’audio.

Pour y parvenir, dans sa troisième version, cette intelligence artificielle a été formé avec plus d’un million d’heures d’audio, ce qui représente déjà bien plus que les 680 000 heures utilisées dans sa deuxième version. Ainsi, les erreurs ont été réduites de 10 à 20 pour cent.

Actuellement, Whisper a un taux d’erreur inférieur à 5 % lors de la transcription de l’espagnol, ce qui en fait l’un des meilleurs outils pour ce faire. Vous pouvez également transcrire l’anglais et d’autres langues, et même Détecter lorsque vous passez d’une langue à une autre pendant la conversation dans l’audio.

Parmi ses avantages, il y a le fait qu’il peut interpréter correctement même les pauses dans la conversation, en utilisant cette compréhension pour placer des virgules et des points de manière correcte en fonction de la durée de la pause.

Whisper est un modèle de langage, une base sur laquelle des applications et des ressources peuvent être construites. Allez, une entreprise peut créer un site internet et le connecter à ce modèle via son API pour créer un outil de transcription ou un traducteur.

À cette fin, Whisper est disponible en différentes tailles, afin de pouvoir être inclus dans différents types d’applications en fonction de vos besoins. Vous disposez d’une version qui nécessite moins de 1 Go de VRAM et est entraînée avec 39 millions de paramètres jusqu’à son plus grand modèle, avec 1,55 milliard de paramètres et des exigences d’environ 10 Go de VRAM.

Paraphraser avec ChatGPT ou Bing Chat : comment reformuler des textes grâce à l'intelligence artificielle

Comment utiliser Whisper

Capture d'écran 2023 11 13 À 13 48 36

Whisper est une IA open source et dispose d’une page Github avec des instructions techniques sur la façon de la télécharger et de l’exécuter. Cela nécessite des connaissances quelque peu avancées et n’est pas accessible aux utilisateurs moins expérimentés.

Vous pouvez également utiliser Whisper sur replite.com/openai/whisper. Whisper est open source, ce qui signifie qu’il peut être téléchargé et utilisé sur des pages Web. Et Replicate est un portail sur lequel vous pouvez utiliser divers modèles d’intelligence artificielle, dont Whisper.

Sur ce site Web, vous pouvez télécharger le fichier audio de votre choix et choisir le modèle que vous souhaitez utiliser. Par exemple, vous pouvez utiliser le modèle v3 dans n’importe laquelle de ses versions. Vous pourrez l’utiliser librement avec vos fichiers, bien que pour une utilisation avancée, vous devrez vous inscrire.