Nvidia présente Perfusion, un générateur d'images par IA ultra-léger et rapide à former

Dans le paysage en constante évolution des outils de création artistique par IA, les chercheurs de Nvidia ont introduit une méthode innovante de personnalisation de textes en images appelée Perfusion. Cette solution n'est pas un modèle lourd comme ses concurrents. Avec une taille de seulement 100 Ko et un temps de formation de 4 minutes, Perfusion offre une flexibilité créative significative tout en préservant l'identité des concepts personnalisés.

La nouvelle approche : Le Key-Locking

Perfusion a été présenté dans un article de recherche créé par Nvidia et l'Université de Tel-Aviv en Israël. Malgré sa petite taille, il est capable de surpasser des générateurs d'art par IA tels que Stable Diffusion v1.5 de Stability AI, Stable Diffusion XL (SDXL) récemment lancé, et MidJourney en termes d'efficacité d'éditions spécifiques.

La principale innovation de Perfusion est appelée "Key-Locking". Cette méthode fonctionne en reliant de nouveaux concepts qu'un utilisateur souhaite ajouter, comme un chat ou une chaise spécifiques, à une catégorie plus générale lors de la génération de l'image. Par exemple, le chat serait lié à l'idée plus large de "félin".

Cette approche aide à éviter le surapprentissage, qui se produit lorsque le modèle est trop spécifiquement ajusté aux exemples d'entraînement. Le surapprentissage rend difficile pour l'IA de générer de nouvelles versions créatives du concept.

En reliant le nouveau chat à la notion générale de félin, le modèle peut représenter le chat dans de nombreuses poses, apparences et environnements différents. Mais il conserve toujours l'essentiel "catness" qui le fait ressembler au chat voulu, et non à n'importe quel félin aléatoire.

En termes simples, le Key-Locking permet à l'IA de représenter de manière flexible des concepts personnalisés tout en conservant leur identité de base. C'est comme donner à un artiste les directives suivantes : "Dessine mon chat Tom, pendant qu'il dort, joue avec de la laine, et renifle des fleurs".

Pourquoi Nvidia pense que moins c'est plus

Perfusion permet également de combiner plusieurs concepts personnalisés dans une seule image avec des interactions naturelles, contrairement aux outils existants qui apprennent les concepts en isolation. Les utilisateurs peuvent guider le processus de création d'image par des invites textuelles, en fusionnant des concepts comme un chat et une chaise spécifiques.

Perfusion offre une caractéristique remarquable qui permet aux utilisateurs de contrôler l'équilibre entre la fidélité visuelle (l'image) et l'alignement textuel (l'invite) pendant l'inférence en ajustant un seul modèle de 100 Ko. Cette capacité permet aux utilisateurs d'explorer facilement le front de Pareto (similarité du texte vs similarité de l'image) et de sélectionner le compromis optimal qui convient à leurs besoins spécifiques, sans avoir besoin de réentraînement.

Il est important de noter que la formation d'un modèle nécessite une certaine finesse. Se concentrer trop sur la reproduction du modèle conduit à ce que le modèle produise la même sortie encore et encore, et le faire suivre l'invite trop de près sans aucune liberté produit généralement un mauvais résultat. La flexibilité pour ajuster la proximité du générateur à l'invite est un élément important de personnalisation.

Une révolution dans les générateurs d'images par IA

D'autres générateurs d'images par IA ont des moyens pour les utilisateurs de peaufiner la sortie, mais ils sont encombrants. Par exemple, une LoRA est une méthode de fine tuning populaire utilisée dans Stable Diffusion. Elle peut ajouter de quelques dizaines de mégaoctets à plus d'un gigaoctet (Go) à l'application. Une autre méthode, les embeddings d'inversion textuelle, sont plus légers mais moins précis. Un modèle formé en utilisant Dreambooth, la technique la plus précise en ce moment, pèse plus de 2 Go.

En comparaison, Nvidia affirme que Perfusion produit une qualité visuelle et un alignement sur les invites supérieurs aux techniques d'IA mentionnées précédemment. La taille ultra-efficace permet de ne mettre à jour que les parties nécessaires lorsqu'il fine tune la production d'une image, par rapport à l'empreinte de plusieurs Go des méthodes qui fine-tunent le modèle entier.

Source