PandIA is now for sale. For inquiries, please contact us.

PandIA

ChatGPT par OpenAI : Nouvelles capacités vocales et visuelles

ChatGPT par OpenAI : Nouvelles capacités vocales et visuelles
ChatGPT par OpenAI : Nouvelles capacités vocales et visuelles

L'évolution rapide des technologies d'intelligence artificielle continue d'offrir des interfaces plus intuitives. Récemment, OpenAI a introduit de nouvelles capacités pour ChatGPT, permettant non seulement la reconnaissance vocale, mais aussi l'analyse d'images.

Fonctionnalités vocales avancées

Désormais, les utilisateurs peuvent s'engager dans une conversation bidirectionnelle avec ChatGPT simplement en parlant. Cette mise à jour s'accompagne d'une option pour choisir parmi cinq voix différentes, rendant l'expérience plus personnalisable.

Ces capacités vocales sont rendues possibles grâce à un nouveau modèle de synthèse vocale qui peut générer de l'audio presque humain à partir d'un simple texte et de quelques secondes d'échantillon vocal. Cette avancée a été rendue possible grâce à une collaboration avec des acteurs de voix professionnels et l'utilisation de Whisper, le système de reconnaissance vocale open-source d'OpenAI.

Reconnaissance et analyse d'images

En plus des capacités vocales, ChatGPT peut maintenant reconnaître et interpréter des images. Que ce soit pour diagnostiquer pourquoi un appareil ne démarre pas, planifier un repas en fonction du contenu du réfrigérateur, ou analyser un graphique complexe, cette mise à jour ouvre de nouvelles possibilités.

Pour parvenir à cette capacité, OpenAI utilise des modèles multimodaux basés sur GPT-3.5 et GPT-4. Ces modèles combinent des compétences linguistiques avec la capacité d'analyser une large gamme d'images.

Déploiement progressif pour garantir la sécurité

OpenAI adopte une approche graduelle pour le déploiement de ces nouvelles fonctionnalités, priorisant la sécurité et la réduction des risques potentiels. Bien que ces capacités ouvrent de nouvelles avenues pour les applications créatives et axées sur l'accessibilité, elles présentent également des défis. Les risques potentiels incluent l'utilisation malveillante de voix synthétiques pour l'usurpation d'identité ou la fraude.

De même, les modèles basés sur la vision nécessitent une attention particulière pour éviter des erreurs d'interprétation ou la violation de la vie privée.

Vers un accès élargi

OpenAI prévoit de proposer ces nouvelles capacités à ses utilisateurs Plus et Entreprise dans les semaines à venir, avec l'intention d'étendre l'accès à d'autres groupes d'utilisateurs prochainement.

En conclusion, avec ces nouvelles mises à jour, ChatGPT établit une nouvelle norme pour les interfaces utilisateur, tout en mettant l'accent sur la sécurité et la responsabilité.

ChatGPT can now see, hear, and speak
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

Recevez les dernières actualités sur l'IA dans votre boite mail

envelope
Si vous souhaitez recevoir un résumé de l'actualité ainsi que nos derniers guides sur l'IA rejoignez nous !
Actualités Guides Liste IA Prompts Newsletter