Falcon, le nouveau modèle IA open-source, surpasse Meta et Google
Le sommet de l'intelligence artificielle : Falcon 180B
L'univers de l'intelligence artificielle se réjouit de la sortie du Falcon 180B, un modèle de langage de grande taille en open-source, doté de 180 milliards de paramètres et formé sur une quantité phénoménale de données. Ce dernier dépasse ses prédécesseurs en plusieurs aspects.
L'annonce par Hugging Face
Révélé dans un article de blog par la communauté AI de Hugging Face, le Falcon 180B a été lancé sur le Hugging Face Hub. La dernière architecture du modèle s'appuie sur la série précédente de LLM open-source Falcon, intégrant des innovations comme l'attention multi-requêtes pour évoluer jusqu'à 180 milliards de paramètres formés sur 3,5 trillions de tokens.
Il s'agit de la plus longue préformation d'une seule époque pour un modèle open-source jusqu'à ce jour. Pour atteindre de tels chiffres, 4,096 GPUs ont été utilisés simultanément pendant environ 7 millions d'heures GPU, en utilisant Amazon SageMaker pour la formation et l'affinement.
Falcon 180B en chiffres
Pour mettre en perspective la taille de Falcon 180B, il est doté de paramètres 2,5 fois supérieurs au modèle LLaMA 2 de Meta. LLaMA 2 était précédemment considéré comme le LLM open-source le plus performant après son lancement plus tôt cette année, avec 70 milliards de paramètres formés sur 2 trillions de tokens.
Falcon 180B dépasse LLaMA 2 et d'autres modèles à la fois en échelle et en performance sur diverses tâches de traitement du langage naturel (NLP). Il est classé en tête de liste pour les modèles en libre accès avec 68,74 points et atteint une quasi-parité avec des modèles commerciaux tels que PaLM-2 de Google sur des évaluations comme le benchmark HellaSwag.
Plus précisément, Falcon 180B égale ou dépasse PaLM-2 Medium sur des benchmarks couramment utilisés, tels que HellaSwag, LAMBADA, WebQuestions, Winogrande, et bien d'autres. Il se situe essentiellement au même niveau que le PaLM-2 Large de Google. Cela traduit une performance exceptionnelle pour un modèle en open-source, même comparé à des solutions développées par de grands acteurs du secteur.
Lors de la comparaison avec ChatGPT, le modèle se révèle plus puissant que la version gratuite mais légèrement moins capable que le service payant "plus".
"Falcon 180B se situe généralement entre GPT 3.5 et GPT4 selon le benchmark d'évaluation, et il sera très intéressant de suivre les ajustements ultérieurs de la communauté maintenant qu'il est ouvertement publié." - extrait du blog.
Vers l'avenir avec Falcon 180B
La sortie de Falcon 180B illustre le progrès fulgurant récemment réalisé avec les LLM. Au-delà de la simple augmentation des paramètres, des techniques telles que LoRAs, la randomisation des poids et la Perfusion de Nvidia ont rendu la formation de grands modèles IA nettement plus efficace.
Avec Falcon 180B désormais librement accessible sur Hugging Face, on s'attend à ce que le modèle bénéficie d'améliorations supplémentaires développées par la communauté. Néanmoins, sa démonstration de capacités avancées en traitement du langage naturel dès sa sortie est une évolution palpitante pour l'IA en open-source.