Convertir un fichier audio en texte avec l'IA : Guide d'utilisation de Whisper d'OpenAI (+ bonus traduction)

Dans le monde numérique d'aujourd'hui, la conversion de fichiers audio en texte est une tâche courante. Que ce soit pour transcrire des interviews, des conférences ou des podcasts, l'intelligence artificielle a rendu ce processus plus facile et plus rapide. Dans ce guide, nous allons explorer comment utiliser Whisper, un système de reconnaissance vocale automatique (ASR) développé par OpenAI, pour convertir un fichier audio en texte.

🎥

Pour convertir une vidéo en texte, il vous suffit de convertir votre vidéo au format .mp3

Qu'est-ce que Whisper ?

Whisper est un système de reconnaissance vocale automatique (ASR) développé par OpenAI. Il a été formé sur 680 000 heures de données multilingues et multitâches provenant du web. Whisper peut être utilisé pour convertir la parole en texte, ce qui est utile pour une variété de tâches, y compris la transcription de fichiers audio.

Étapes pour convertir un fichier audio en texte avec Whisper

Étape 1 : Accéder à Google Colab

Pour commencer, nous allons utiliser un notebook Google Colab qui nous permet d'utiliser Whisper sans avoir besoin de coder. Vous pouvez accéder à ce notebook en cliquant sur le lien ci dessous :

Google Colaboratory

Étape 2 : Installer Whisper

Une fois que vous êtes dans le notebook, vous verrez une section intitulée "Step One". Pour installer Whisper, passez votre souris sur le code sous cette section. Vous verrez un logo play, cliquez dessus et attendez que l'installation soit terminée. Cette étape va installer le dernier commit du dépôt OpenAI sur Github.

Étape 3 : Installer ffmpeg

Après avoir installé Whisper, faites défiler vers le bas jusqu'à "Step Two". Ici, vous devez installer ffmpeg, une solution multiplateforme pour enregistrer, convertir et diffuser de l'audio et de la vidéo. Cliquez sur le bouton play également et attendez la fin de l'installation.

Étape 4 : Uploader votre fichier audio

Maintenant, ouvrez le dossier de fichiers dans le coin gauche de votre notebook Colab. Faites glisser le fichier .mp3 que vous souhaitez transcrire dans la section "Fichiers". Le fichier audio sera alors téléchargé sur votre Google Drive.

Étape 5 : Transcrire le fichier audio

Pour transcrire un .mp3, il suffit de copier et coller le titre de votre fichier .mp3 dans la ligne de commande ci-dessous. N'oubliez pas les guillemets ! Appuyez sur play une fois le nom du fichier écrit.

Étape 6 : Récupérer les résultats

Attendez la fin de la transcription. À la fin, vous trouverez dans votre Google Drive plusieurs fichiers, dont votre transcription audio. Vous pouvez également copier et coller le texte directement si vous le souhaitez.

Comment traduire la transcrption audio

Pour traduire un fichier .mp3, il suffit de copier et de coller le titre de votre fichier .mp3 dans la ligne de commande ci-dessous et de lancer la cellule. Vous pouvez changer la langue si nécessaire dans la ligne de commande, et l'anglais est la langue de sortie par défaut. N'oubliez pas les guillemets !

!whisper "pandia.mp3" --task translate --language french

⚠️

Remarque : j'ai créé et exécuté avec succès toutes les étapes de ce carnet avec mon abonnement Colab Pro. Avec le plan Google Colab de base, toutes les étapes ont fonctionné à l'exception de la "cinquième étape". Cette dernière étape ne cessait d'obtenir une erreur "Runtime discontinued" sur le plan de base.