ChatGPT par OpenAI : Nouvelles capacités vocales et visuelles

L'évolution rapide des technologies d'intelligence artificielle continue d'offrir des interfaces plus intuitives. Récemment, OpenAI a introduit de nouvelles capacités pour ChatGPT, permettant non seulement la reconnaissance vocale, mais aussi l'analyse d'images.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Fonctionnalités vocales avancées

Désormais, les utilisateurs peuvent s'engager dans une conversation bidirectionnelle avec ChatGPT simplement en parlant. Cette mise à jour s'accompagne d'une option pour choisir parmi cinq voix différentes, rendant l'expérience plus personnalisable.

Ces capacités vocales sont rendues possibles grâce à un nouveau modèle de synthèse vocale qui peut générer de l'audio presque humain à partir d'un simple texte et de quelques secondes d'échantillon vocal. Cette avancée a été rendue possible grâce à une collaboration avec des acteurs de voix professionnels et l'utilisation de Whisper, le système de reconnaissance vocale open-source d'OpenAI.

Reconnaissance et analyse d'images

En plus des capacités vocales, ChatGPT peut maintenant reconnaître et interpréter des images. Que ce soit pour diagnostiquer pourquoi un appareil ne démarre pas, planifier un repas en fonction du contenu du réfrigérateur, ou analyser un graphique complexe, cette mise à jour ouvre de nouvelles possibilités.

Pour parvenir à cette capacité, OpenAI utilise des modèles multimodaux basés sur GPT-3.5 et GPT-4. Ces modèles combinent des compétences linguistiques avec la capacité d'analyser une large gamme d'images.

Déploiement progressif pour garantir la sécurité

OpenAI adopte une approche graduelle pour le déploiement de ces nouvelles fonctionnalités, priorisant la sécurité et la réduction des risques potentiels. Bien que ces capacités ouvrent de nouvelles avenues pour les applications créatives et axées sur l'accessibilité, elles présentent également des défis. Les risques potentiels incluent l'utilisation malveillante de voix synthétiques pour l'usurpation d'identité ou la fraude.

De même, les modèles basés sur la vision nécessitent une attention particulière pour éviter des erreurs d'interprétation ou la violation de la vie privée.

Vers un accès élargi

OpenAI prévoit de proposer ces nouvelles capacités à ses utilisateurs Plus et Entreprise dans les semaines à venir, avec l'intention d'étendre l'accès à d'autres groupes d'utilisateurs prochainement.

En conclusion, avec ces nouvelles mises à jour, ChatGPT établit une nouvelle norme pour les interfaces utilisateur, tout en mettant l'accent sur la sécurité et la responsabilité.