DALL·E 2 : la création d'image à partir d'un texte par OpenAI
DALL-E est une version à 12 milliards de paramètres de GPT-3 entraînée à générer des images à partir de descriptions textuelles, en utilisant un ensemble de paires texte-image. Nous avons constaté qu'il dispose d'un ensemble de capacités diverses, notamment la création de versions anthropomorphisées d'animaux et d'objets, la combinaison de concepts non liés de manière plausible, le rendu de texte et l'application de transformations à des images existantes.
Pour en apprendre plus sur DALL-E :
Vue d'ensemble
Comme GPT-3, DALL-E est un modèle de langage transformateur. Il reçoit à la fois le texte et l'image sous la forme d'un flux unique de données contenant jusqu'à 1280 tokens, et est entraîné à utiliser le maximum de vraisemblance pour générer tous les tokens, les uns après les autres.
Cette procédure d'apprentissage permet à DALL-E non seulement de générer une image à partir de zéro, mais aussi de régénérer toute région rectangulaire d'une image existante qui s'étend jusqu'au coin inférieur droit, d'une manière qui soit cohérente avec l'invite textuelle.
Capacités
DALL-E est capable de créer des images plausibles pour une grande variété de phrases qui explorent la structure compositionnelle du langage. Les échantillons montrés pour chaque légende dans les visuels sont obtenus en prenant les 32 meilleurs sur 512 après le reclassement avec CLIP.
Voir aussi, comment modifier une image avec DALL-E :