Le non-déterminisme dans GPT-4 est causé par Sparse MoE
Nous savons déjà que GPT-4/GPT-3.5-turbo est non-déterministe, même à une température de 0.0. C'est un comportement étrange si on est habitué aux modèles décodeurs denses, où une température de 0 devrait impliquer un échantillonnage avide, donc un déterminisme complet, parce que les logits pour le...