Quand dire à une IA de "respirer profondément" améliore ses performances
Optimisation par l'encouragement
Dans un monde où l'intelligence artificielle (IA) évolue à un rythme effréné, Google DeepMind fait des vagues avec une approche innovante pour améliorer les capacités mathématiques des modèles de langage IA. Plutôt que d'utiliser des optimiseurs mathématiques traditionnels, les chercheurs se sont tournés vers une approche basée sur le langage naturel.
L'astuce réside dans les "prompts", ces instructions écrites qui guident les IAs dans leurs tâches. Un papier récemment publié sur arXiv par des scientifiques de DeepMind présente OPRO (Optimization by PROmpting), une méthode qui s'appuie sur le langage quotidien pour améliorer les performances des grands modèles de langage (LLMs) comme ChatGPT de OpenAI et PaLM 2 de Google.
Langage naturel vs Optimisation mathématique
L'optimisation traditionnelle dans l'apprentissage machine utilise des algorithmes pour améliorer les performances des modèles IA. Mais OPRO change la donne. Plutôt que d'utiliser des définitions mathématiques, OPRO utilise des meta-prompts en langage naturel pour guider le processus d'optimisation.
Pour clarifier, au lieu de formuler des définitions mathématiques pour résoudre un problème, OPRO décrit le problème en langage naturel et laisse ensuite le LLM générer de nouvelles solutions basées sur cette description et sur les solutions précédemment trouvées.
"Au lieu de définir formellement le problème d'optimisation et de dériver l'étape de mise à jour avec un solveur programmé, nous décrivons le problème en langage naturel, puis nous demandons au LLM de générer de manière itérative de nouvelles solutions en fonction de la description du problème et des solutions précédemment trouvées." - Extrait du papier de DeepMind.
Le pouvoir de l'encouragement humain
La partie la plus fascinante de cette étude est peut-être l'effet de certaines phrases sur les performances des IAs. Des expressions telles que "pensons étape par étape" ont permis d'améliorer la précision des IAs lorsqu'elles étaient testées sur des jeux de données mathématiques.
Mais ce qui a vraiment retenu l'attention, c'est qu'une phrase telle que "Respire profondément et travaille sur ce problème étape par étape" a été la plus efficace avec le modèle de langage PaLM 2 de Google. Cette simple phrase a permis d'atteindre une précision étonnante de 80,2% sur GSM8K, un ensemble de problèmes mathématiques destinés aux élèves du primaire.
Pourquoi est-ce efficace ?
Il est évident que les modèles de langage ne peuvent pas "respirer profondément" ni "réfléchir" comme les humains. Cependant, ces phrases peuvent aider les IAs à accéder à de meilleures réponses ou à produire de meilleurs exemples de raisonnement issus des données qu'elles ont assimilées pendant leur formation.
L'avenir des prompts
Si le fait de comprendre comment encourager de manière "humaine" un LLM reste un mystère, OPRO, en revanche, s'avère être un outil précieux. Les chercheurs de DeepMind estiment que la plus grande victoire d'OPRO réside dans sa capacité à parcourir de nombreux prompts pour trouver celui qui offre les meilleurs résultats pour un problème spécifique. Un tel progrès pourrait permettre d'obtenir des résultats bien plus utiles et précis des LLM à l'avenir.