Stability AI présente StableVicuna, le premier Chatbot LLM RLHF open source du monde de l'IA

Contexte

Ces derniers mois, le développement et la sortie de chatbots ont connu une nette accélération. Suite au lancement de Character.ai au printemps dernier, puis de ChatGPT en novembre et de Bard en décembre, l'expérience utilisateur offerte par les modèles de langage adaptés au chat est devenue un sujet brûlant. L'émergence d'alternatives en accès libre et open source a renforcé cet intérêt.

L'environnement actuel des chatbots open source

Le succès de ces modèles de chat repose sur deux paradigmes d'entraînement : l'affinement des instructions et l'apprentissage par renforcement avec retour humain (RLHF). Bien que des efforts importants aient été déployés pour créer des cadres open source facilitant l'entraînement de ces modèles, tels que trlX, trl, DeepSpeed Chat et ColossalAI, il manque des modèles en accès libre et open source combinant les deux paradigmes. Dans la plupart des modèles, l'affinement des instructions est appliqué sans entraînement RLHF en raison de sa complexité.

Récemment, Open Assistant, Anthropic et Stanford ont commencé à rendre les ensembles de données de chat RLHF disponibles au public. Ces ensembles de données, combinés à l'entraînement simplifié du RLHF offert par trlX, constituent la base du premier modèle à grande échelle avec affinement des instructions et entraînement RLHF présenté aujourd'hui : StableVicuna.

Présentation du premier chatbot LLM RLHF open source à grande échelle

StableVicuna est le premier chatbot open source à grande échelle entraîné par apprentissage par renforcement avec retour humain (RLHF). StableVicuna est une version de Vicuna v0 13b affinée et entraînée en RLHF. Pour en savoir plus sur Vicuna, vous pouvez consulter ici.

Benchmark

Voici quelques exemples d'utilisation de StableVicuna :

  • Demandez-lui de faire des calculs simples
  • Demandez-lui d'écrire du code
  • Demandez-lui de vous aider avec la grammaire

De même, voici quelques comparaisons de performances entre StableVicuna et d'autres chatbots open source de taille similaire.

Obtention de StableVicuna-13B

StableVicuna est disponible sur HuggingFace Hub ! Le modèle est téléchargeable sous forme de delta de poids par rapport au modèle LLaMA original. Pour obtenir StableVicuna-13B, il est possible de télécharger le delta de poids ici. Cependant, il faut également avoir accès au modèle LLaMA original, ce qui nécessite de demander séparément les poids LLaMA en utilisant le lien fourni dans le dépôt GitHub ou ici. Une fois que les delta de poids et les poids LLaMA sont en votre possession, vous pouvez utiliser un script fourni dans le dépôt GitHub pour les combiner et obtenir StableVicuna-13B.

Annonce de l'interface de chat à venir

En parallèle du chatbot, Stability AI prévoit de lancer prochainement une interface de chat en cours de développement. Les captures d'écran suivantes offrent un aperçu de ce à quoi les utilisateurs peuvent s'attendre.

Engagement envers l'amélioration continue

Ce n'est que le début pour StableVicuna ! Dans les semaines à venir, Stability AI prévoit d'itérer sur ce chatbot et de déployer un bot Discord sur le serveur Stable Foundation. Ils encouragent les utilisateurs à essayer StableVicuna et à fournir des retours précieux pour les aider à améliorer l'expérience utilisateur. Pour le moment, il est possible d'essayer le modèle sur un espace HuggingFace en visitant ce lien.

StableVicuna - a Hugging Face Space by CarperAI
Discover amazing ML apps made by the community