Comment fonctionne ChatGPT d'OpenAI, l'IA qui interagit de manière conversationnelle

Introduction à ChatGPT

ChatGPT est un modèle d'intelligence artificielle développé par OpenAI qui interagit avec les utilisateurs de manière conversationnelle. Contrairement à d'autres modèles, il est capable de répondre à des questions de suivi, admettre ses erreurs, contester des prémisses incorrectes et rejeter des demandes inappropriées. Il s'agit d'un modèle lié à InstructGPT, qui est entraîné pour suivre une instruction dans une invite et fournir une réponse détaillée.

Interface de ChatGPT

Comment fonctionne et apprend ChatGPT ?

Entraînement initial

ChatGPT est entraîné à l'aide d'une technique appelée Reinforcement Learning from Human Feedback (RLHF). Pour ce faire, OpenAI a commencé par entraîner un modèle initial en utilisant une fine-tuning supervisée. Des conversations ont été fournies par des formateurs humains qui jouaient les deux rôles, utilisateur et assistant IA. Ces formateurs avaient accès aux suggestions écrites par le modèle pour les aider à composer leurs réponses.

Pour en apprendre plus sur les méthodes d'apprentissage :

Les principales méthodes d’apprentissage en Intelligence Artificielle (IA)
L’apprentissage est au cœur de l’intelligence artificielle (IA), permettant aux algorithmes et aux modèles d’acquérir de la connaissance à partir de données et de s’améliorer avec le temps. Il existe plusieurs méthodes d’apprentissage utilisées en IA, chacune ayant ses propres avantages et applicati…

Création d'un modèle de récompense pour l'apprentissage par renforcement

Pour créer un modèle de récompense pour l'apprentissage par renforcement, OpenAI a eu besoin de collecter des données de comparaison, qui consistent en deux réponses ou plus classées par qualité. Pour ce faire, ils ont sélectionné des conversations que les formateurs IA ont eues avec le chatbot, choisi un message écrit par le modèle, généré plusieurs alternatives, puis demandé aux formateurs IA de les classer.

Système d'apprentissage

Fine-tuning et optimisation de la politique

En utilisant ces modèles de récompense, OpenAI a affiné le modèle à l'aide de Proximal Policy Optimization, en effectuant plusieurs itérations de ce processus. Le modèle ChatGPT est basé sur GPT-3.5, qui a été entraîné sur une infrastructure de supercalcul AI Azure.

Limitations de ChatGPT

ChatGPT présente plusieurs limitations :

Réponses incorrectes ou dénuées de sens

Il peut produire des réponses plausibles mais incorrectes ou dénuées de sens. Cela peut être dû au fait qu'il n'y a pas de source de vérité absolue pendant l'entraînement par renforcement, ou parce que l'entraînement supervisé peut induire le modèle en erreur.

Sensibilité à la formulation de la question

ChatGPT est sensible aux variations de formulation de la question. Par exemple, avec une formulation, le modèle peut prétendre ne pas connaître la réponse, mais avec une légère reformulation, il peut répondre correctement.

Verbosité excessive

Le modèle peut être excessivement verbeux et utiliser trop souvent certaines phrases. Ces problèmes proviennent de biais dans les données d'entraînement et d'issues d'optimisation.

Manque de questions clarifiantes

Au lieu de poser des questions clarifiantes en cas de requête ambiguë, ChatGPT essaie généralement de deviner ce que l'utilisateur voulait dire.

Réponses inappropriées ou biaisées

Malgré les efforts pour que le modèle refuse les demandes inappropriées, il peut parfois répondre à des instructions nuisibles ou présenter un comportement biaisé.

Déploiement itératif et retour d'information

Le déploiement en version de recherche de ChatGPT est une étape importante dans la stratégie d'OpenAI pour déployer des systèmes d'IA de plus en plus sûrs et utiles. Les leçons tirées des déploiements de modèles précédents, tels que GPT-3 et Codex, ont contribué aux mesures de sécurité mises en place pour cette version, notamment une réduction significative des sorties nuisibles et mensongères grâce à l'utilisation du RLHF.

Fournir des commentaires

OpenAI est enthousiaste à l'idée de recevoir les commentaires des utilisateurs sur les forces et les faiblesses de ChatGPT. Pendant la période de recherche, l'utilisation de ChatGPT est gratuite. Vous pouvez l'essayer sur chat.openai.com.

Les utilisateurs sont encouragés à fournir des commentaires sur les résultats problématiques du modèle via l'interface utilisateur, ainsi que sur les faux positifs/négatifs du filtre de contenu externe, également intégré à l'interface. OpenAI est particulièrement intéressé par les retours concernant les sorties nuisibles qui pourraient se produire dans des conditions réelles et non adverses, ainsi que par les commentaires permettant de découvrir et de comprendre de nouveaux risques et des mesures d'atténuation possibles.

Nous vous recommandons la vidéo de ScienceEtonnante sur le sujet :

Conclusion

OpenAI espère que la mise à disposition d'une interface accessible à ChatGPT permettra de recueillir des commentaires précieux sur les problèmes encore inconnus. Les leçons tirées de ce déploiement serviront pour le déploiement de systèmes plus performants, tout comme les déploiements antérieurs ont contribué à celui-ci. ChatGPT est une étape passionnante dans le développement de l'intelligence artificielle conversationnelle et montre le potentiel de ces systèmes pour améliorer les interactions entre les humains et les machines.