Dolly 2.0 : Le premier modèle de langage complètement open source sous licence pour l'utilisation commerciale

Introduction à Free Dolly

Deux semaines après la sortie de Dolly, un modèle de langage entraîné pour moins de 30 $ pour offrir une interactivité humaine de type ChatGPT, l'équipe de Databricks présente Dolly 2.0, le premier LLM open-source adapté aux instructions et affiné sur un ensemble de données d'instructions générées par l'homme, sous licence pour la recherche et l'utilisation commerciale.

Caractéristiques de Dolly 2.0

Dolly 2.0 est un modèle de langage de 12 milliards de paramètres basé sur la famille de modèles EleutherAI Pythia et affiné exclusivement sur un nouvel ensemble de données d'instructions générées par l'homme de haute qualité, issu de la foule parmi les employés de Databricks.

L'intégralité de Dolly 2.0 est open-source, y compris le code d'entraînement, l'ensemble de données et les poids du modèle, tous adaptés à un usage commercial. Ainsi, toute organisation peut créer, posséder et personnaliser de puissants LLM capables de dialoguer avec les gens, sans payer pour l'accès à l'API ou partager des données avec des tiers.

Le jeu de données databricks-dolly-15k

Le jeu de données databricks-dolly-15k contient 15 000 paires de questions-réponses de haute qualité générées par l'homme, spécialement conçues pour l'ajustement des instructions des grands modèles de langage. Sous les termes de la licence databricks-dolly-15k (Creative Commons Attribution-ShareAlike 3.0 Unported License), toute personne peut utiliser, modifier ou étendre cet ensemble de données à des fins quelconques, y compris des applications commerciales.

À notre connaissance, cet ensemble de données est le premier ensemble de données d'instructions générées par l'homme en open-source spécifiquement conçu pour faire en sorte que les grands modèles de langage présentent l'interactivité magique de ChatGPT. Databricks-dolly-15k a été créé par plus de 5 000 employés de Databricks au cours des mois de mars et avril 2023. Ces enregistrements de formation sont naturels, expressifs et conçus pour représenter un large éventail de comportements, allant de la génération d'idées et de contenu à l'extraction d'informations et à la synthèse.

Pourquoi avons-nous créé un nouvel ensemble de données ?

Suite à la sortie de Dolly 1.0, de nombreuses personnes ont souhaité l'essayer et ont demandé s'ils pouvaient l'utiliser à des fins commerciales. Cependant, les conditions de service de ChatGPT cherchent à empêcher quiconque de créer un modèle concurrent d'OpenAI. La réponse à cette question était donc "probablement pas !". Tous les modèles existants bien connus (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation, interdisant une utilisation commerciale. Pour contourner ce problème, l'équipe de Databricks a cherché à créer un nouvel ensemble de données exempt de restrictions pour un usage commercial.

Avantages de l'utilisation de Dolly 2.0

Liberté d'utilisation et de personnalisation : Avec Dolly 2.0 en open-source, les organisations peuvent adapter et personnaliser le modèle en fonction de leurs besoins spécifiques sans avoir à se conformer aux restrictions imposées par une API propriétaire ou à partager des données sensibles avec des tiers.
Coût réduit : En ayant accès au code source et aux poids du modèle, les organisations peuvent économiser sur les coûts d'accès aux API et de partage de données.
Innovation et collaboration : La mise à disposition de Dolly 2.0 en open-source permet à la communauté de chercheurs et de développeurs de contribuer à l'amélioration du modèle, de résoudre les problèmes et d'innover ensemble pour créer des LLM encore plus performants.

Utilisations possibles de Dolly 2.0

Les applications potentielles de Dolly 2.0 sont vastes et incluent :

Services clients et chatbots
Rédaction automatisée de contenu
Analyse et synthèse de données
Aide à la décision et recommandations
Apprentissage automatique et formation continue
Traduction automatique et interprétation
Assistance virtuelle personnalisée

Conclusion

Dolly 2.0 marque une étape importante dans la démocratisation des modèles de langage à grande échelle, offrant une alternative open-source et commercialement viable aux modèles propriétaires. En rendant Dolly 2.0 accessible à tous, l'équipe de Databricks espère stimuler l'innovation et la collaboration dans la communauté IA, tout en offrant aux organisations les outils dont elles ont besoin pour créer des LLM personnalisés et interactifs.

La mise en open source de Dolly 2.0 et de l'ensemble de données databricks-dolly-15k souligne l'engagement de Databricks à soutenir la recherche en IA et à promouvoir une utilisation éthique et responsable des technologies de l'IA. Ensemble, nous pouvons repousser les limites de ce qui est possible avec les modèles de langage à grande échelle et contribuer à un avenir plus équitable et collaboratif pour tous.

Source : DataBricks