Convertir un fichier audio en texte avec l'IA : Guide d'utilisation de Whisper d'OpenAI (+ bonus traduction)
Dans le monde numérique d'aujourd'hui, la conversion de fichiers audio en texte est une tâche courante. Que ce soit pour transcrire des interviews, des conférences ou des podcasts, l'intelligence artificielle a rendu ce processus plus facile et plus rapide. Dans ce guide, nous allons explorer comment utiliser Whisper, un système de reconnaissance vocale automatique (ASR) développé par OpenAI, pour convertir un fichier audio en texte.
Qu'est-ce que Whisper ?
Whisper est un système de reconnaissance vocale automatique (ASR) développé par OpenAI. Il a été formé sur 680 000 heures de données multilingues et multitâches provenant du web. Whisper peut être utilisé pour convertir la parole en texte, ce qui est utile pour une variété de tâches, y compris la transcription de fichiers audio.
Étapes pour convertir un fichier audio en texte avec Whisper
Étape 1 : Accéder à Google Colab
Pour commencer, nous allons utiliser un notebook Google Colab qui nous permet d'utiliser Whisper sans avoir besoin de coder. Vous pouvez accéder à ce notebook en cliquant sur le lien ci dessous :
Étape 2 : Installer Whisper
Une fois que vous êtes dans le notebook, vous verrez une section intitulée "Step One". Pour installer Whisper, passez votre souris sur le code sous cette section. Vous verrez un logo play, cliquez dessus et attendez que l'installation soit terminée. Cette étape va installer le dernier commit du dépôt OpenAI sur Github.
Étape 3 : Installer ffmpeg
Après avoir installé Whisper, faites défiler vers le bas jusqu'à "Step Two". Ici, vous devez installer ffmpeg, une solution multiplateforme pour enregistrer, convertir et diffuser de l'audio et de la vidéo. Cliquez sur le bouton play également et attendez la fin de l'installation.
Étape 4 : Uploader votre fichier audio
Maintenant, ouvrez le dossier de fichiers dans le coin gauche de votre notebook Colab. Faites glisser le fichier .mp3 que vous souhaitez transcrire dans la section "Fichiers". Le fichier audio sera alors téléchargé sur votre Google Drive.
Étape 5 : Transcrire le fichier audio
Pour transcrire un .mp3, il suffit de copier et coller le titre de votre fichier .mp3 dans la ligne de commande ci-dessous. N'oubliez pas les guillemets ! Appuyez sur play une fois le nom du fichier écrit.
Étape 6 : Récupérer les résultats
Attendez la fin de la transcription. À la fin, vous trouverez dans votre Google Drive plusieurs fichiers, dont votre transcription audio. Vous pouvez également copier et coller le texte directement si vous le souhaitez.
Comment traduire la transcrption audio
Pour traduire un fichier .mp3, il suffit de copier et de coller le titre de votre fichier .mp3 dans la ligne de commande ci-dessous et de lancer la cellule. Vous pouvez changer la langue si nécessaire dans la ligne de commande, et l'anglais est la langue de sortie par défaut. N'oubliez pas les guillemets !
!whisper "pandia.mp3" --task translate --language french