Vers une Ère de Robots Polyvalents: le Nouveau Modèle d'IA de Google, RT-2

Introduction à RT-2

Les robots ont longtemps été perçus comme une promesse de la science-fiction, une perspective d'un futur où ils joueraient des rôles clés dans divers domaines. Cette vision se rapproche de la réalité grâce à l'annonce récente de Google DeepMind d'un nouveau modèle d'intelligence artificielle, baptisé Robotics Transformer 2 ou RT-2.

Selon Vincent Vanhoucke, scientifique éminent et responsable de la robotique chez Google DeepMind, RT-2 est un modèle inédit de vision-langage-action (VLA). Inspiré des modèles de type Transformer et entraîné sur des textes et images du web, RT-2 est capable de générer directement des actions robotiques. En d'autres termes, RT-2 "parle robot".

Les Défis de l'Apprentissage Robotique

Le développement de robots polyvalents représente un défi majeur. Pour être capables d'effectuer des tâches générales dans le monde réel, les robots doivent pouvoir gérer des tâches complexes et abstraites dans des environnements extrêmement variables, y compris ceux qu'ils n'ont jamais rencontrés auparavant.

Contrairement aux chatbots, les robots doivent être "ancrés" dans le monde réel et leur apprentissage ne se limite pas à la connaissance théorique. Par exemple, il ne suffit pas pour un robot de connaître toutes les informations sur une pomme, il doit également être capable de reconnaître une pomme dans un contexte donné, de la distinguer d'une balle rouge, de comprendre à quoi elle ressemble et, surtout, de savoir comment la saisir.

Jusqu'à présent, cela nécessitait un entraînement des robots sur des milliards de points de données, directement, pour chaque objet, environnement, tâche et situation du monde physique, une perspective coûteuse en temps et en ressources.

Les Avancées de RT-2

Des travaux récents ont amélioré la capacité des robots à raisonner, leur permettant même d'utiliser des indications en chaîne pour résoudre des problèmes en plusieurs étapes. Des modèles de vision, comme PaLM-E, ont aidé les robots à mieux comprendre leur environnement. RT-1 a démontré que les Transformers, connus pour leur capacité à généraliser l'information à travers les systèmes, pouvaient aider différents types de robots à apprendre les uns des autres.

Cependant, jusqu'à présent, les robots fonctionnaient sur des piles de systèmes complexes, où les systèmes de raisonnement de haut niveau et de manipulation de bas niveau devaient jouer un jeu de téléphone imparfait pour faire fonctionner le robot. RT-2 simplifie cela en permettant à un seul modèle d'effectuer à la fois le raisonnement complexe et de générer des actions robotiques.

De plus, il a été démontré que, avec une petite quantité de données d'entraînement robotique, le système est capable de transférer les concepts intégrés dans ses données d'entraînement en langage et en vision pour diriger les actions robotiques, même pour des tâches qu'il n'a jamais été formé à effectuer.

Vers un Avenir Plus Lumineux pour la Robotique

La capacité de RT-2 à transférer les informations en actions montre une promesse pour les robots d'adaptation plus rapide à des situations et des environnements nouveaux. Dans plus de 6 000 essais robotiques, l'équipe a découvert que RT-2 fonctionnait aussi bien que le modèle précédent, RT-1, pour les tâches déjà rencontrées. Il a presque doublé sa performance sur les scénarios inédits, passant à 62% contre 32% pour RT-1.

En d'autres termes, avec RT-2, les robots sont capables d'apprendre davantage comme nous le faisons, en transférant des concepts appris à de nouvelles situations.

Non seulement RT-2 démontre comment les avancées en IA se répercutent rapidement sur la robotique, mais il montre également une grande promesse pour des robots plus polyvalents. Bien qu'il reste encore un énorme travail à accomplir pour permettre l'existence de robots utiles dans des environnements centrés sur l'homme, RT-2 nous offre une vision passionnante d'un futur robotique à portée de main.

Pour plus de détails, consultez l'article complet sur le blog de Google DeepMind.