Stability AI présente DeepFloyd IF, un modèle puissant qui intègre le texte dans les images

Le 28 avril, Stability AI et son laboratoire de recherche en IA multimodale, DeepFloyd, ont annoncé la sortie de DeepFloyd IF, un puissant modèle de diffusion de pixels en cascade de texte à l'image.

DeepFloyd IF est un modèle de pointe de texte à l'image publié sous une licence non commerciale et réservée à la recherche. Il offre aux laboratoires de recherche la possibilité d'examiner et d'expérimenter des approches avancées de génération de texte dans l'image. Comme pour les autres modèles de Stability AI, DeepFloyd IF sera entièrement open source à une date ultérieure.

DeepFloyd IF — DeepFloyd

DeepFloyd0

Description et fonctionnalités

Compréhension approfondie des invites textuelles :

Le pipeline de génération utilise le modèle de langage T5-XXL-1.1 comme encodeur de texte. Un grand nombre de couches de cross-attention texte-image permettent une meilleure alliance entre les invites et les images.

Application de la description textuelle dans les images :

En intégrant l'intelligence du modèle T5, DeepFloyd IF génère du texte cohérent et clair aux côtés d'objets de différentes propriétés apparaissant dans diverses relations spatiales. Jusqu'à présent, ces cas d'utilisation ont été un défi pour la plupart des modèles texte-image.

Un haut degré de photoréalisme :

Cette propriété se traduit par un impressionnant score FID (Fréchet Inception Distance) de 6.66 sur l'ensemble de données COCO (le FID est une métrique principale utilisée pour évaluer la performance des modèles texte-image ; plus le score est faible, meilleur est le modèle).

Changement de rapport d'aspect :

La capacité à générer des images avec un rapport d'aspect non standard, vertical ou horizontal, ainsi que le rapport d'aspect carré standard.

Traductions d'image à image en zero-shot :

La modification de l'image est réalisée en redimensionnant l'image originale à 64 pixels, en ajoutant du bruit par diffusion avant, puis en utilisant la diffusion arrière avec une nouvelle invite pour débruiter l'image (en mode inpainting, le processus se déroule dans la zone locale de l'image). Le style peut être modifié davantage grâce à des modules de super-résolution via une description textuelle d'invite. Cette approche permet de modifier le style, les motifs et les détails en sortie tout en conservant la forme de base de l'image source, et ce sans besoin d'ajustement fin.

Entraînement sur l'ensemble de données

DeepFloyd IF a été entraîné sur un ensemble de données personnalisé et de haute qualité, LAION-A, qui contient 1 milliard de paires (image, texte). LAION-A est un sous-ensemble esthétique de la partie anglaise de l'ensemble de données LAION-5B et a été obtenu après déduplication basée sur le hachage de similarité, un nettoyage supplémentaire et d'autres modifications apportées à l'ensemble de données d'origine. Des filtres personnalisés de DeepFloyd ont été utilisés pour supprimer les contenus protégés par un filigrane, les contenus inappropriés et autres.