Voicebox : la première IA générative pour la parole avec des performances de pointe

Le 16 juin 2023, les chercheurs de Meta AI ont fait une percée remarquable dans le domaine de l'IA générative pour la parole. Ils ont développé Voicebox, le premier modèle capable de généraliser les tâches de génération de la parole pour lesquelles il n'a pas été spécifiquement formé, avec des performances à la pointe de la technologie.

0:00
/2:43

De quoi parle-t-on ?

Semblable aux systèmes génératifs pour les images et le texte, Voicebox est capable de créer des productions dans une vaste variété de styles. Il peut créer des sorties à partir de zéro aussi bien que modifier un échantillon qui lui est donné. Mais au lieu de créer une image ou un passage de texte, Voicebox produit des clips audio de haute qualité. Le modèle peut synthétiser la parole en six langues différentes, en plus d'effectuer la suppression du bruit, l'édition de contenu, la conversion de style, et la génération d'échantillons divers.

Avant l'arrivée de Voicebox, l'IA générative pour la parole nécessitait une formation spécifique pour chaque tâche en utilisant des données d'entraînement soigneusement préparées. Voicebox utilise une nouvelle approche pour apprendre simplement à partir de l'audio brut et d'une transcription qui l'accompagne. Contrairement aux modèles autorégressifs pour la génération audio, Voicebox peut modifier n'importe quelle partie d'un échantillon donné, pas seulement la fin d'un clip audio qui lui est donné.

Comment Voicebox surpasse les modèles existants

Voicebox est basé sur une méthode appelée "Flow Matching", qui s'est avérée améliorer les modèles de diffusion. Voicebox surpasse le modèle anglais actuel de pointe, VALL-E, en termes d'intelligibilité (5,9 % contre 1,9 % de taux d'erreur de mot) et de similarité audio (0,580 vs 0,681), tout en étant jusqu'à 20 fois plus rapide. Pour le transfert de style cross-lingual, Voicebox surpasse YourTTS pour réduire le taux d'erreur de mot moyen de 10,9 % à 5,2 %, et améliore la similarité audio de 0,335 à 0,481.

Voicebox réalise de nouveaux résultats de pointe, surpassant Vall-E et YourTTS en termes de taux d'erreur de mots. Voicebox atteint également de nouveaux résultats de pointe sur les métriques de similarité de style audio en anglais et sur les référentiels multilingues.

Cependant, en raison des risques potentiels de mauvaise utilisation, Meta AI ne rend pas le modèle Voicebox ou le code public à ce stade. Bien qu'il soit important d'être ouvert avec la communauté de l'IA et de partager nos recherches pour faire avancer l'état de l'art en matière d'IA, il est également nécessaire de trouver le bon équilibre entre ouverture et responsabilité. Aujourd'hui, ils partagent des échantillons audio et un document de recherche détaillant l'approche et les résultats obtenus.

Une nouvelle approche pour la génération de la parole

L'une des principales limites des synthétiseurs de parole existants est qu'ils ne peuvent être formés que sur des données qui ont été préparées expressément pour cette tâche. Ces entrées, connues sous le nom de données propres et monotones, sont difficiles à produire, donc elles n'existent qu'en quantités limitées, et elles donnent des résultats qui sonnent de manière monotone.

0:00
/0:22

Voicebox a été construit sur le modèle de Flow Matching, qui est la dernière avancée de Meta sur les modèles génératifs non autorégressifs qui peuvent apprendre une correspondance hautement non déterministe entre le texte et la parole. Cela permet à Voicebox d'apprendre à partir de données de parole variées sans que ces variations aient à être soigneusement étiquetées. Cela signifie que Voicebox peut s'entraîner sur des données plus diversifiées et à une échelle beaucoup plus grande.

Voicebox a été formé avec plus de 50 000 heures de discours enregistré et de transcriptions provenant de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais. Voicebox est formé pour prédire un segment de parole lorsqu'il est donné le discours environnant et la transcription du segment. Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite appliquer cela à travers des tâches de génération de la parole, y compris la génération de portions au milieu d'un enregistrement audio sans avoir à recréer l'entrée entière.

Quels sont les futurs usages ?

Il y a de nombreuses applications passionnantes pour les modèles de discours génératifs. Parmi celles-ci, la synthèse de texte à la parole en contexte, le transfert de style interlinguistique, la débruitage et l'édition de la parole et l'échantillonnage diversifié de la parole. Ces capacités pourraient être utilisées pour aider les gens à communiquer de manière naturelle et authentique, même s'ils ne parlent pas les mêmes langues, pour faciliter le nettoyage et l'édition de l'audio, ou pour générer des données synthétiques pour aider à mieux former un modèle d'assistant vocal.

En fin de compte, Voicebox représente une avancée importante dans la recherche sur l'IA générative. En tant que premier modèle polyvalent et efficace qui réalise avec succès la généralisation des tâches, Voicebox pourrait inaugurer une nouvelle ère de l'IA générative pour la parole.

Pour plus d'informations et pour écouter des échantillons de Voicebox, vous pouvez lire l'article complet et écouter plus d'échantillons de Voicebox ici.

Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance
Voicebox is a state-of-the-art speech generative model based on a new method proposed by Meta AI called Flow Matching. By learning to solve a text-guided speech infilling task with a large scale of data, Voicebox outperforms single-purpose AI models across speech tasks through in-context learning.