PandIA is now for sale. For inquiries, please contact us.

PandIA

Une nouvelle étude valide les rumeurs d'utilisateur sur les performances dégradées de GPT-4

Une nouvelle étude valide les rumeurs d'utilisateur sur les performances dégradées de GPT-4
Une nouvelle étude valide les rumeurs d'utilisateur sur les performances dégradées de GPT-4

Une nouvelle étude vient de confirmer les rumeurs circulant parmi les utilisateurs à propos d'une baisse de performance du modèle de langage GPT-4. Cette étude, intitulée "Surveillance du Drift dans les Grands Modèles de Langage : Une analyse de GPT-3.5 et GPT-4", a été publiée sur ArXiv en juillet 2023.

Introduction

L'étude commence par expliquer l'importance des Grands Modèles de Langage (LLMs) comme GPT-3.5 et GPT-4, qui sont largement utilisés mais opaques en ce qui concerne leurs mises à jour. Cette recherche a été motivée par le besoin de comprendre comment ces mises à jour affectent le comportement et la performance de ces LLMs. Des modifications pourraient potentiellement perturber les flux de travail plus importants et entraver la reproductibilité des résultats.

Contexte

Des milliers d'utilisateurs ont signalé une dégradation significative de la qualité des réponses de ChatGPT utilisant GPT-4 au cours des huit à dix dernières semaines. Cette étude quantifie une partie de la variance signalée par les utilisateurs sur le subreddit.

Cette baisse de performance pourrait être partiellement responsable de la diminution de l'utilisation du produit ChatGPT. Alors que le produit connaissait un succès fou et une croissance rapide à son lancement, plusieurs sources montrent maintenant une baisse de l'intérêt et des utilisateurs actifs quotidiens.

Méthodologie

L'étude a examiné comment le comportement de différents LLMs change avec le temps. Pour ce faire, l'étude a défini quels services LLM surveiller, sur quels scénarios d'application se concentrer, et comment mesurer les dérives de LLM dans chaque scénario.

Deux services LLM ont été surveillés dans l'étude - GPT-3.5 et GPT-4 - et l'attention s'est portée sur les changements dans leur comportement et leur performance entre mars et juin 2023.

Résultats clés

La performance et le comportement de GPT-3.5 et GPT-4 ont grandement varié sur la période de trois mois. Par exemple, alors que GPT-4 (mars 2023) était très doué pour identifier les nombres premiers (précision de 97,6%), la version de juin 2023 a mal performé sur ces mêmes questions (précision de 2,4%). Fait intéressant, la performance de GPT-3.5 sur cette tâche s'est améliorée entre mars et juin 2023.

Figure 1 : Performances des versions de mars 2023 et de juin 2023 du GPT-4 et du GPT-3.5 dans quatre tâches : résolution de problèmes mathématiques, réponse à des questions délicates, génération de code et raisonnement visuel. Les performances des versions GPT-4 et GPT-3.5 peuvent varier considérablement dans le temps, et pour le pire dans certaines tâches.

Une autre observation notable est la diminution de la volonté de GPT-4 de répondre à des questions sensibles en juin par rapport à mars. De plus, GPT-3.5 et GPT-4 ont produit plus d'erreurs de formatage dans la génération de code en juin qu'en mars. Les chercheurs ont observé : "Pour GPT-4, le pourcentage de générations qui sont directement exécutables a chuté de 52,0% en mars à 10,0% en juin. La baisse était également importante pour GPT-3.5 (de 22,0% à 2,0%)."

Conclusion et futurs travaux

L'étude a conclu qu'il est nécessaire de surveiller et d'évaluer continuellement le comportement des LLMs dans les applications de production. Les auteurs ont l'intention de poursuivre cette étude à long terme, en évaluant régulièrement GPT-3.5, GPT-4, et d'autres LLMs sur diverses tâches dans le temps.

Pour encourager davantage de recherche sur les dérives des LLMs, les chercheurs ont mis à disposition leurs données d'évaluation et les réponses de ChatGPT sur Github.

Les entreprises qui développent des produits basés sur ces LLMs encourent un risque significatif de dérive des performances du modèle. En essence, cette étude attire l'attention sur l'importance de surveiller et de comprendre les changements dans les services LLM au fil du temps, car ils peuvent avoir un impact significatif sur leur qualité et leur utilité dans diverses applications. Elle souligne l'urgence pour les fournisseurs de services de reconnaître ces problèmes, de les adresser, et de maintenir une communication transparente avec leurs utilisateurs.

Réaction d'OpenAI

En réponse à ces conclusions, le VP Product d'OpenAI a récemment tweeté : "Non, nous n'avons pas rendu GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente. Hypothèse actuelle : lorsque vous l'utilisez de manière plus intensive, vous commencez à remarquer des problèmes que vous n'aviez pas vus auparavant."

Ce tweet souligne l'importance d'une utilisation réfléchie et équilibrée des LLMs. Si la performance peut varier au fil du temps, il est essentiel de comprendre que ces modèles évoluent et sont optimisés pour s'améliorer à chaque mise à jour. Il rappelle également que l'utilisation intensive peut révéler des problèmes auparavant inaperçus, suggérant ainsi que la perception d'une dégradation des performances peut être due à une prise de conscience accrue de leurs limites.

Source

Recevez les dernières actualités sur l'IA dans votre boite mail

envelope
Si vous souhaitez recevoir un résumé de l'actualité ainsi que nos derniers guides sur l'IA rejoignez nous !
Actualités Guides Liste IA Prompts Newsletter