Un nouvel outil d'IA expérimental permet de transformer les images d'un simple clic

L'intelligence artificielle continue d'évoluer à un rythme rapide, offrant des outils de plus en plus sophistiqués. Parmi eux, un nouvel outil appelé DragGAN, qui pourrait révolutionner la façon dont nous interagissons avec les images numériques.

Have you thought about interactively 'dragging' objects in the image? Our #SIGGRAPH2023 work #DragGAN makes this come true!🥳

Paper: https://t.co/B3qC0kl1IT
Project page: https://t.co/ZqAEPHNMNF https://t.co/UQXarwl481 pic.twitter.com/LrWjEsIVHs
— Xingang Pan (@XingangP) May 19, 2023

Les outils d'IA générative : une évolution constante

Les outils d'IA générative, tels que ChatGPT et Stable Diffusion, sont de plus en plus présents dans notre quotidien. Ces outils peuvent générer des images ou du texte utiles à partir de simples instructions décrivant ce que l'utilisateur souhaite découvrir ou le type de travail qu'il cherche à accomplir. Lorsqu'ils fonctionnent correctement, ces services semblent presque magiques. Cependant, lorsqu'ils échouent, ils nous rappellent à quel point nous sommes encore loin de remplacer la créativité humaine par l'IA. En effet, beaucoup de ces outils sont "entraînés" sur des œuvres créées par des humains et nécessitent une supervision humaine pour améliorer leur production à un niveau significatif.

DragGAN : une nouvelle étape dans la manipulation d'images

Malgré ces défis, de nouvelles recherches en IA montrent que des progrès sont toujours en cours, en particulier dans le domaine de la manipulation d'images. Un groupe de scientifiques de Google, du MIT, de l'Université de Pennsylvanie et de l'Institut Max Planck pour l'informatique en Allemagne a publié un article détaillant un outil expérimental qui pourrait rendre l'édition d'images plus facile et plus accessible pour le grand public.

Avec ce nouvel outil, il est possible de modifier significativement l'apparence d'une personne ou d'un objet en cliquant simplement et en faisant glisser une caractéristique particulière. Il est également possible de faire des choses comme modifier l'expression sur le visage de quelqu'un, modifier les vêtements d'un mannequin de mode, ou faire pivoter le sujet d'une photo comme s'il s'agissait d'un modèle 3D. Les démonstrations vidéo sont certainement impressionnantes, bien que l'outil ne soit pas encore disponible pour le public à l'heure actuelle.

DragGAN : plus qu'un simple Photoshop amélioré

Cet outil peut ressembler à une version améliorée de Photoshop, mais il a suscité suffisamment d'intérêt pour faire planter le site web de l'équipe de recherche. En effet, les instructions textuelles peuvent sembler simples en théorie, mais elles nécessitent beaucoup d'ajustements lorsque vous avez besoin de quelque chose de très spécifique ou nécessitant plusieurs étapes pour générer le résultat souhaité.

C'est là qu'intervient DragGAN. Les chercheurs expliquent que DragGAN peut "halluciner" le contenu occulté, déformer un objet ou modifier un paysage. Ils notent que DragGAN peut transformer le contenu d'une image en quelques secondes seulement en utilisant la carte graphique GeForce RTX 3090 de Nvidia, car leur mise en œuvre n'a pas besoin d'utiliser plusieurs réseaux neuronaux pour obtenir les résultats souhaités.

Vers l'édition de modèles 3D ?

La prochaine étape sera de développer un modèle similaire pour l'édition de modèles 3D basée sur des points. Pour ceux qui souhaitent en savoir plus sur DragGAN, ils peuvent consulter l'article de recherche ici. Les résultats de cette recherche seront également présentés à la conférence SIGGRAPH en août.

En conclusion, l'outil DragGAN représente une avancée significative dans le domaine de l'IA générative et de la manipulation d'images. Il pourrait rendre l'édition d'images plus accessible au grand public et ouvrir la voie à de nouvelles formes de créativité numérique.

Source :

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Synthesizing visual content that meets users’ needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a pr…

Xingang Pan