Classement des LLMs Open Source : Évaluation et Comparaison IA (Open LLM Leaderboard par Hugging Face)

Face à l'augmentation incessante des modèles de langage large (MLL) et des chatbots lancés chaque semaine, il peut s'avérer difficile de faire la part des choses. Les performances souvent vantées par leurs créateurs ne facilitent pas la distinction entre les véritables avancées de la communauté open-source et les prétentions marketing. Dans ce contexte, le classement des MLL Ouverts de Hugging Face joue un rôle précieux : il permet de suivre, classer et évaluer les MLL et les chatbots dès leur lancement.

Participation de la Communauté

L'un des principaux atouts de ce classement est son ouverture à la communauté. En effet, n'importe quel membre de la communauté peut soumettre un modèle pour une évaluation automatisée sur le cluster de GPU de Hugging Face. La seule condition est que le modèle soit un modèle Transformers de Hugging Face avec des poids disponibles sur leur Hub. Par ailleurs, l'évaluation de modèles avec des poids delta pour les modèles sous licence non commerciale, comme LLaMa, est également supportée.

Méthodologie d'Évaluation

La méthodologie d'évaluation se divise en deux principales étapes, accessibles via deux onglets distincts. Le premier onglet, intitulé "Benchmarks MLL", permet d'évaluer les modèles sur quatre critères clés provenant du cadre d'évaluation Eleuther AI Language Model. Ce cadre unifié permet de tester les modèles de langage génératifs sur un grand nombre de tâches d'évaluation différentes.

Le second onglet, "Évaluations Humaines et GPT-4", consiste à comparer les complétions d'un ensemble de modèles de langage open-source populaires sur un ensemble secret de prompts d'instruction. Ces évaluations sont effectuées à la fois par des humains et par GPT-4, le dernier né des modèles de langage de OpenAI.

Benchmarks Utilisés

Quatre benchmarks populaires sont utilisés pour l'évaluation :

Le "Défi de Raisonnement AI2 (25-shot)" est un ensemble de questions scientifiques de niveau école primaire.
"HellaSwag (10-shot)" est un test d'inférence de bon sens, facile pour les humains (~95%) mais difficile pour les modèles de pointe.
"MMLU (5-shot)" mesure la précision multitâche d'un modèle de texte sur 57 tâches comprenant entre autres les mathématiques élémentaires, l'histoire des États-Unis, l'informatique et le droit.
Enfin, "TruthfulQA (0-shot)" est un test conçu pour mesurer la propension d'un modèle à reproduire des informations erronées couramment trouvées sur internet.

Ces benchmarks ont été choisis car ils testent une variété de compétences en raisonnement et en connaissances générales dans un large éventail de domaines, dans des configurations de "few-shot" et "zero-shot". En somme, ils constituent un outil d'évaluation robuste pour mesurer la performance d'un modèle d'intelligence artificielle.