PandIA is now for sale. For inquiries, please contact us.

PandIA

Stanford publie la base de données "Stanford Human Preferences", qui comprend un set de 385 000 préférences humaines.

Stanford publie la base de données "Stanford Human Preferences", qui comprend un set de 385 000 préférences humaines.
Stanford Human Preferences

Le SHP est un ensemble de 385 000 préférences humaines collectives concernant les réponses à des questions/instructions dans 18 domaines différents, de la cuisine aux conseils juridiques. Les préférences sont censées refléter l'utilité d'une réponse par rapport à une autre, et sont destinées à être utilisées pour l'entraînement des modèles de récompense RLHF et des modèles d'évaluation NLG (par exemple, SteamSHP).

Comment cela fonctionne

Chaque exemple est un message Reddit avec une question/instruction et une paire de commentaires de haut niveau pour ce message, où un commentaire est plus préféré par les utilisateurs de Reddit (collectivement). Le PSM exploite le fait que si le commentaire A a été écrit après le commentaire B mais a néanmoins un score plus élevé, alors A est ostensiblement plus préféré que B. Si A avait été écrit avant B, nous ne pourrions pas en conclure cela, puisque son score plus élevé pourrait être le résultat d'une plus grande visibilité. Nous avons choisi des données où l'étiquette de préférence est censée refléter la réponse la plus utile plutôt que la moins nuisible, cette dernière étant le point central de nombreux travaux antérieurs.

Étudiant en doctorat
📢 Les modèles comme #ChatGPT sont formés à partir de tonnes de commentaires humains. Mais leur collecte coûte cher !
C'est pourquoi nous publions le Stanford Human Preferences Dataset (🚢SHP), une collection de 385K préférences humaines naturelles collectives sur du texte.

Des modèles précis

L'équipe a également publié plusieurs modèles de préférence, ou SteamSHPs, qui sont calibrés pour déterminer la réponse la plus avantageuse. Les incroyables modèles FLAN-T5 ont servi d'inspiration pour les modèles de préférence SteamSHP. Meilleur sur des sujets comme le conseil juridique (80,7 %) ou la philosophie (69,1 %), SteamSHP-XL prédit les préférences humaines avec 72,8 % de précision dans toutes les disciplines.

Consultez l'ensemble des données sur Hugging Face. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de jetter un oeil aux autres articles, où nous partageons les dernières nouvelles de la recherche en IA, les projets d'IA intéressants, etc.

Recevez les dernières actualités sur l'IA dans votre boite mail

envelope
Si vous souhaitez recevoir un résumé de l'actualité ainsi que nos derniers guides sur l'IA rejoignez nous !
Actualités Guides Liste IA Prompts Newsletter