Imagen : modèle Diffusion de text-to-image

Imagen est une avancée majeure dans le domaine de la synthèse texte-image. Ce modèle innovant combine un degré de photoréalisme sans précédent avec un haut niveau de compréhension du langage. Imagen est basé sur des modèles de langage transformateurs, qui permettent une compréhension approfondie du texte, ainsi que sur des modèles de diffusion, qui garantissent une génération d'images de haute qualité.

Une découverte importante a été faite lors du développement d'Imagen : les grands modèles de langage génériques peuvent être utilisés efficacement pour coder du texte en vue de la synthèse d'images. En augmentant la taille du modèle de langage, la fidélité de l'échantillon et l'alignement image-texte peuvent être améliorés plus efficacement que par l'augmentation de la taille du modèle de diffusion d'images.

Les performances d'Imagen sont remarquables : il a atteint un score FID de pointe de 7,27 sur l'ensemble de données COCO, sans jamais s'entraîner sur COCO. Les échantillons générés par Imagen ont été évalués par des êtres humains qui ont constaté un alignement image-texte exceptionnel.

Pour évaluer les modèles texte-image de manière plus approfondie, les développeurs ont créé DrawBench, un benchmark complet et difficile. En comparant Imagen à des méthodes récentes telles que VQ-GAN+CLIP, Latent Diffusion Models et DALL-E 2, les évaluateurs humains ont préféré Imagen pour la qualité de ses échantillons et son alignement image-texte.