Les agents IA qui "s'auto-réfléchissent" performent mieux dans des environnements changeants
Dans le monde réel, les choses changent rapidement. Des chercheurs de Stanford ont inventé la méthode d'entraînement "curious replay" basée sur l'étude des souris pour aider les agents IA à explorer et à s'adapter avec succès à des environnements changeants.
Une compétition entre une souris et un agent IA
Qui choisiriez-vous pour gagner dans une compétition en tête-à-tête - un agent IA de pointe ou une souris ? Isaac Kauvar, chercheur postdoctoral interdisciplinaire à l'Institut de neurosciences Wu Tsai, et Chris Doyle, chercheur en apprentissage automatique à Stanford, ont décidé de les mettre l'un contre l'autre pour le découvrir. Travaillant dans le laboratoire de Nick Haber, professeur assistant à la Stanford Graduate School of Education, Kauvar et Doyle ont conçu une tâche simple basée sur leur intérêt de longue date pour un ensemble de compétences dans lequel les animaux excellent naturellement : explorer et s'adapter à leur environnement.
Kauvar a placé une souris dans une petite boîte vide et a de même placé un agent IA simulé dans une arène virtuelle 3D vide. Ensuite, il a placé une balle rouge dans les deux environnements. Kauvar a mesuré pour voir lequel serait le plus rapide à explorer le nouvel objet.
Le test a montré que la souris s'approchait rapidement de la balle et interagissait avec elle à plusieurs reprises au cours des minutes suivantes. Mais l'agent IA ne semblait pas la remarquer. "Cela n'était pas prévu", a déclaré Kauvar. "Déjà, nous nous rendions compte qu'il y avait des lacunes dans les performances, même avec un algorithme de pointe."
L'inspiration des comportements animaux pour améliorer les systèmes IA
Cette question a catalysé Kauvar, Doyle, l'étudiant diplômé Linqi Zhou, et Haber pour concevoir une nouvelle méthode d'entraînement appelée "curious replay", qui programme les agents IA pour s'auto-réfléchir sur les choses les plus nouvelles et intéressantes qu'ils ont récemment rencontrées. L'ajout de "curious replay" était tout ce qui était nécessaire pour que l'agent IA s'approche et s'engage avec la balle rouge beaucoup plus rapidement. De plus, cela a considérablement amélioré les performances sur un jeu basé sur Minecraft, appelé Crafter.
L'apprentissage par la curiosité
Il peut sembler que la curiosité n'offre que des avantages intellectuels, mais elle est cruciale pour notre survie, à la fois pour éviter des situations dangereuses et pour trouver des nécessités comme la nourriture et l'abri. Cette balle rouge dans l'expérience pourrait fuir un poison mortel ou couvrir un repas nourrissant, et il serait difficile de savoir lequel si nous l'ignorons.
C'est pourquoi des laboratoires comme celui de Haber ont récemment ajouté un signal de curiosité pour diriger le comportement des agents IA et, en particulier, des agents d'apprentissage par renforcement profond basés sur des modèles. Ce signal leur dit de choisir l'action qui conduira à un résultat plus intéressant, comme ouvrir une porte plutôt que de l'ignorer.
Un futur curieux
Le succès de la méthode "curious replay" dans des tâches simples et complexes suggère qu'elle sera importante pour un vaste éventail de recherches en IA à l'avenir. "L'objectif global de ce travail - faire en sorte que les agents puissent tirer parti de l'expérience antérieure et s'adapter bien en explorant efficacement de nouveaux environnements ou des environnements changeants - conduira à des technologies beaucoup plus adaptatives et flexibles, allant de la robotique domestique aux outils d'apprentissage personnalisés", a déclaré Haber.
Kauvar, dont le travail postdoctoral est conjointement encadré par Haber et le neuroscientifique Karl Deisseroth, le professeur D.H Chen dans les départements de bioingénierie et de psychiatrie, est enthousiaste à l'idée de continuer le thème de l'inspiration du comportement animal pour améliorer les systèmes IA - il prévoit de continuer à tester les souris et les agents IA sur des tâches plus compliquées pour comparer leur comportement et leurs capacités.