DeepFloyd IF : Transformer le texte en images avec précision
Stability AI, en collaboration avec son laboratoire de recherche multimodal DeepFloyd, a annoncé la sortie de DeepFloyd IF, un modèle de génération de texte en image à la pointe de la technologie.
Description et caractéristiques
Compréhension approfondie des prompts textuelles
Le pipeline de génération utilise le grand modèle linguistique T5-XXL-1.1 comme encodeur de texte. De nombreuses couches de cross-attention texte-image permettent une meilleure alliance entre les prompts et les images.
Intégration de descriptions textuelles dans les images
En s'appuyant sur l'intelligence du modèle T5, DeepFloyd IF génère du texte cohérent et clair à côté d'objets aux propriétés diverses apparaissant dans différentes relations spatiales.
Degré élevé de photoréalisme
Ce modèle atteint un score FID de 6,66 sur le jeu de données COCO, reflétant un degré élevé de photoréalisme.
Changement de rapport d'aspect
DeepFloyd IF peut générer des images avec un rapport d'aspect non standard, vertical ou horizontal, ainsi que le rapport d'aspect carré standard.
Traductions image-à-image en zero-shot
La modification d'image est réalisée en redimensionnant l'image originale à 64 pixels, en ajoutant du bruit par diffusion avant, puis en utilisant une diffusion arrière avec un nouveau prompt pour débruiter l'image. Le style peut être encore modifié via des modules de super-résolution en utilisant une description textuelle de prompt.
Exemples de prompts
DeepFloyd IF peut créer différents concepts de fusion en utilisant des prompts pour organiser textes, styles et relations spatiales selon les besoins des utilisateurs.
high quality dslr photo, a photo product of a lemon inspired by natural and organic materials, wooden accents, intricately decorated with glowing vines of led lights, inspired by baroque luxury
paper quilling, extremely detailed, paper quilling of a nordic mountain landscape, 8k rendering
letters made of candy on a plate that says "diet"
a photo of a violet baseball cap with yellow text: "deep floyd". 50mm lens, photo realism, cine lens. violet baseball cap says "deep floyd". reflections, render. yellow stitch text "deep floyd"
Définitions et processus
DeepFloyd IF est un modèle modulaire, en cascade et de diffusion de pixels. Il se compose de plusieurs modules neuronaux dont les interactions dans une même architecture créent une synergie.
La génération de données haute résolution est réalisée de manière en cascade, en utilisant une série de modèles entraînés individuellement à différentes résolutions. Les modèles de base et de super-résolution sont des modèles de diffusion, où une chaîne de Markov d'étapes est utilisée pour injecter du bruit aléatoire dans les données avant que le processus ne soit inversé pour générer de nouveaux échantillons de données à partir du bruit.
Entraînement sur un ensemble de données
DeepFloyd IF a été entraîné sur un ensemble de données LAION-A de haute qualité et personnalisé, qui contient 1 milliard de paires (image, texte).
Licence
Initialement, DeepFloyd IF est publié sous une licence de recherche. L'objectif est de passer à une licence permissive après avoir reçu des commentaires et des retours d'expérience.
Recherche future
Les chercheurs sont encouragés à explorer des questions de recherche techniques, académiques et éthiques pour améliorer les performances, l'efficacité et les applications potentielles du modèle.
Pour en savoir plus sur DeepFloyd IF, consultez les ressources suivantes :
- Espace Hugging Face : https://huggingface.co/spaces/DeepFloyd/IF
- Repo GitHub : https://github.com/deep-floyd/IF