CM3leon, une nouvelle approche de la génération de textes et d'images par Meta
Meta a récemment dévoilé CM3leon, un modèle générateur d'intelligence artificielle qui s'oriente vers la production de texte et d'images. Dans le monde de l'IA, les modèles génératifs ont connu une accélération significative grâce aux avancées dans le traitement du langage naturel, permettant aux machines de comprendre et d'exprimer le langage. De plus, ils sont désormais capables de générer des images à partir d'instructions textuelles. CM3leon vise à unifier ces deux fonctionnalités en un seul modèle.
Fonctionnement et objectifs de CM3leon
Le modèle CM3leon est le premier du genre à être entraîné en suivant une recette adaptée des modèles linguistiques textuels uniquement, comprenant une phase de pré-entraînement augmentée de récupération à grande échelle et une deuxième phase de réglage fin supervisé multitâche. Cela démontre que les transformateurs basés sur des tokeniseurs peuvent être entraînés aussi efficacement que les modèles génératifs de diffusion existants.
Il est intéressant de noter que CM3leon est capable de générer des séquences de texte et d'images en fonction de séquences arbitraires d'autres contenus d'image et de texte. Cette caractéristique élargit considérablement les fonctionnalités des modèles précédents qui étaient soit uniquement de texte à image, soit uniquement d'image à texte.
En matière de performances, CM3leon parvient à obtenir des résultats comparables aux modèles précédents en utilisant cinq fois moins de ressources de calcul pour son entraînement.
Application de CM3leon
Un exemple d'application de CM3leon est la génération d'images à partir de consignes textuelles. De nombreux modèles de génération d'images ont du mal à reproduire les formes globales et les détails locaux. Selon Meta, CM3leon offre une performance solide dans ce domaine.
En plus de la génération d'images, CM3leon peut également effectuer une gamme de tâches liées au langage. Par exemple, en fonction des instructions textuelles, le modèle peut générer des légendes courtes ou longues et répondre à des questions sur une image.
Comparaison des performances de CM3leon
En ce qui concerne la performance, sur le benchmark de génération d'images le plus largement utilisé (zero-shot MS-COCO), CM3leon atteint un score FID (Fréchet Inception Distance) de 4.88. Cette réalisation souligne le potentiel de l'augmentation par récupération et met en évidence l'impact des stratégies d'augmentation sur la performance des modèles autorégressifs.
En outre, CM3leon semble montrer une capacité impressionnante à générer des objets compositionnels complexes, comme un cactus en pot portant des lunettes de soleil et un chapeau. Il effectue bien une variété de tâches de langage-visuel, y compris la réponse aux questions visuelles et le sous-titrage à longue forme.
Architecture de CM3leon
L'architecture de CM3leon utilise un transformateur uniquement décodeur, similaire à des modèles textuels bien établis. Cependant, la distinction se fait par sa capacité à entrer et générer à la fois du texte et des images. Cela donne à CM3leon la possibilité de gérer la variété de tâches mentionnées précédemment.
L'entraînement de CM3leon a été augmenté par récupération, en suivant les travaux récents de Meta. Cette méthode améliore considérablement l'efficacité et la contrôlabilité du modèle résultant.
Préoccupations et défis futurs
Comme l'industrie de l'IA continue d'évoluer, les modèles génératifs comme CM3leon deviennent de plus en plus sophistiqués. Ils apprennent la relation entre les visuels et le texte en s'entraînant sur des millions d'images exemples, mais ils peuvent aussi refléter les biais présents dans les données d'entraînement.
Meta a donc formé CM3leon en utilisant un ensemble de données sous licence. Cela démontre qu'une performance solide est possible avec une distribution de données très différente de celle utilisée par tous les modèles précédents.
En conclusion
CM3leon représente une tentative de Meta d'unifier les capacités de génération de texte et d'image en un seul modèle d'IA. Alors que le modèle est encore à ses débuts, il promet une nouvelle direction pour l'industrie de l'IA, combinant les capacités de plusieurs modèles en un seul.