StableVicuna : Le premier chatbot LLM RLHF open source

StableVicuna est le premier chatbot LLM (Large Language Model) open source à grande échelle entraîné via un apprentissage renforcé à partir des retours humains (Reinforcement Learning from Human Feedback - RLHF).

Interface de StableVicuna chat

Contexte

Récemment, il y a eu une poussée significative dans le développement et la publication de chatbots. L'expérience utilisateur créée en adaptant les modèles de langage pour le chat est devenue un sujet brûlant. L'émergence d'alternatives en accès libre et open source a encore alimenté cet intérêt.

Environnement actuel des chatbots open source

Le succès de ces modèles de chat est dû à deux paradigmes d'entraînement : l'affinage par instruction et l'apprentissage renforcé par les retours humains (RLHF). Cependant, il manque des modèles en accès libre et open source qui ont les deux paradigmes appliqués.

Présentation du premier chatbot LLM RLHF open source à grande échelle

StableVicuna est une version de Vicuna v0 13b affinée par instruction et entraînée par RLHF. Pour obtenir des performances solides, trois ensembles de données sont utilisés pour l'affinage supervisé (Supervised Fine Tuning - SFT) :

  1. OpenAssistant Conversations Dataset (OASST1)
  2. GPT4All Prompt Generations
  3. Alpaca

Ensuite, trlX est utilisé pour entraîner un modèle de récompense à partir des ensembles de données de préférences RLHF suivants :

  1. OpenAssistant Conversations Dataset (OASST1)
  2. Anthropic HH-RLHF
  3. Stanford Human Preferences (SHP)

Finalement, trlX est utilisé pour effectuer l'apprentissage renforcé par optimisation de la politique proximale (Proximal Policy Optimization - PPO) pour arriver à StableVicuna.

Obtenir StableVicuna-13B

StableVicuna est disponible sur HuggingFace Hub ! Pour obtenir StableVicuna-13B, il faut télécharger le delta des poids à partir de ici et avoir accès au modèle LLaMA original en postulant pour les poids LLaMA.

Interface de chatbot à venir

En plus de notre chatbot, nous prévoyons de lancer prochainement une interface de chat qui est en phase finale de développement.

Engagement envers l'amélioration continue

Dans les semaines à venir, StableVicuna sera amélioré et un bot Discord sera déployé sur le serveur Stable Foundation. Les utilisateurs sont encouragés à essayer StableVicuna et à fournir des retours pour améliorer l'expérience utilisateur. Pour l'instant, vous pouvez essayer le modèle sur un espace HuggingFace en visitant ce lien.