Stability AI lance son dernier modèle de génération d'images, Stable Diffusion XL 1.0
L'entreprise spécialisée en intelligence artificielle, Stability AI, continue de perfectionner ses modèles d'IA générative malgré une concurrence accrue et des défis éthiques.
Aujourd'hui, Stability AI a annoncé le lancement de Stable Diffusion XL 1.0, un modèle texte-image qu'elle décrit comme sa version "la plus avancée" à ce jour. Disponible en open source sur GitHub, en plus de l'API de Stability et des applications consommateurs Clipdrop et DreamStudio, Stable Diffusion XL 1.0 offre des couleurs "plus vibrantes" et "précises" ainsi qu'un meilleur contraste, des ombres et un éclairage améliorés par rapport à son prédécesseur, affirme Stability.
Des performances impressionnantes
Dans une entrevue avec TechCrunch, Joe Penna, responsable de l'apprentissage machine appliqué chez Stability AI, a indiqué que Stable Diffusion XL 1.0, qui contient 3,5 milliards de paramètres, peut produire des images de pleine résolution de 1 mégapixel "en quelques secondes" dans plusieurs ratios d'aspect. Les "paramètres" sont les parties d'un modèle apprises à partir des données d'entraînement et définissent essentiellement la compétence du modèle sur un problème, en l'occurrence la génération d'images.
"Stable Diffusion XL 1.0 est personnalisable, prêt pour le réglage fin pour des concepts et des styles", a déclaré Penna. "Il est également plus facile à utiliser, capable de designs complexes avec des prompts de traitement naturel du langage basiques."
Note : Le modèle peut être consulté via ClipDrop aujourd'hui avec une API à venir.
Améliorations dans la génération de texte
Stable Diffusion XL 1.0 s'est également amélioré dans le domaine de la génération de texte. Alors que de nombreux des meilleurs modèles texte-image ont du mal à générer des images avec des logos lisibles, sans parler de la calligraphie ou des polices, Stable Diffusion XL 1.0 est capable de générer du texte "avancé" et lisible, affirme Penna.
"Nous espérons qu'en diffusant ce modèle open source beaucoup plus puissant, la résolution des images ne sera pas la seule chose à quadrupler, mais également les avancements qui bénéficieront grandement à tous les utilisateurs", a-t-il ajouté.
Problématiques éthiques et morales
Comme avec les versions précédentes de Stable Diffusion, le modèle soulève des problèmes moraux délicats.
La version open source de Stable Diffusion XL 1.0 peut, en théorie, être utilisée par des acteurs malveillants pour générer du contenu toxique ou nuisible, comme des deepfakes non consensuels. C'est en partie le reflet des données qui ont été utilisées pour l'entraîner : des millions d'images provenant du web.
De nombreux tutoriels démontrent comment utiliser les outils de Stability AI, dont DreamStudio, une interface frontend open source pour Stable Diffusion, pour créer des deepfakes. D'innombrables autres montrent comment affiner les modèles de base Stable Diffusion pour générer du contenu pornographique.
Penna ne nie pas que l'abus est possible, et reconnaît que le modèle contient certains biais. Cependant, il ajoute que Stability AI a pris des "mesures supplémentaires" pour atténuer la génération de contenu nuisible en filtrant les données d'entraînement du modèle pour les images "non sécuritaires", en émettant de nouveaux avertissements liés à des prompts problématiques et en bloquant autant de termes individuels problématiques dans l'outil que possible.
Respect des artistes et intégration avec Amazon
Avec la sortie de Stable Diffusion XL 1.0, Stability AI sort également en bêta une fonction de réglage fin pour son API qui permettra aux utilisateurs d'utiliser aussi peu que cinq images pour "spécialiser" la génération sur des personnes, des produits et plus encore. L'entreprise apporte également Stable Diffusion XL 1.0 à Bedrock, la plateforme cloud d'Amazon pour héberger des modèles d'IA générative, élargissant ainsi sa collaboration précédemment annoncée avec AWS.
"Le dernier modèle SDXL représente la prochaine étape de l'héritage d'innovation de Stability AI et de sa capacité à mettre sur le marché les modèles en accès libre les plus avancés pour la communauté de l'IA", a déclaré Emad Mostaque, PDG de Stability AI, dans un communiqué de presse. "La présentation de 1.0 sur Amazon Bedrock démontre notre fort engagement à travailler aux côtés d'AWS pour fournir les meilleures solutions pour les développeurs et nos clients."
Malgré ces avancées, Stability AI se trouve dans une période de ralentissement dans ses efforts commerciaux. En avril, Semafor a rapporté que Stability AI, qui a recueilli plus de 100 millions de dollars en capital de risque à ce jour, brûlait de l'argent, ce qui a entraîné la clôture d'une note convertible de 25 millions de dollars en juin et une chasse aux exécutifs pour aider à stimuler les ventes. Mais avec ces nouveaux développements, l'entreprise semble prête à surmonter ces obstacles et à continuer à innover dans le domaine de l'IA générative.
Essayer le nouveau modèle :