Stable Diffusion XL : enchaînement de mises à jour pour concurrencer Midjourney

Le 04/07/2023

Dans Graphisme

Stable Diffusion c’est l’IA générative créée par Stability AI. Son originalité : être open source et alimenter un nombre croissant de plateformes text-to-image. Dans la course à la qualité des images générées, il s’agit d’un concurrent sérieux à Midjourney et Dall-e. La version 0.9 de Stable Diffusion XL vient de sortir avant une version 1.0 annoncée pour juillet.

SDXL 0.9 : bond en avant ?

Stable Diffusion XL c’est une nouvelle génération qui remplace les versions 1 et 2 accessibles sur différentes plateformes. C’est la promesse d’aboutir à des images de meilleure qualité tout en utilisant des prompts plus courts. 

Après la lancement de la version bêta en avril, SDXL 0.9, lancé fin juin, améliore en particulier la génération de visages et la précision des détails dans les compositions. Le changement est particulièrement perceptible dans le style photoréaliste. Il y a également une nette amélioration de la génération de texte dans les images, un talon d’Achille de la plupart des IA disponibles actuellement. 

À la manière d’autres solutions, notamment Adobe Firefly, la version XL de Stable Diffusion permet les trois fonctions qui révolutionnent en ce moment la créativité visuelle :

  • l’inpainting qui facilite l’ajout de modifications à l’intérieur d’une image,
  • l’outpainting qui permet d’étendre une image originale au delà de son cadre initial
  • l’image-to-image qui permet d’orienter un prompt créatif grâce à une image source.

Tests et exemples de réalisation

Vous pouvez tester la dernière version de Stable Diffusion sur les différentes plateformes proposées par Stability AI : clipdrop.co et dreamstudio

Et si vous souhaitez comparer les performances des dernières versions entre elles ou face à Dall-e, rendez-vous sur l’excellent Nightcafe.studio.

Les exemples proposés sur le site de Stability.ai montrent les progrès réalisés (SDXL beta puis SDXL 0.9). Nous laissons les prompts en anglais, c’est encore un gage de meilleure compréhension des instructions.

Prompt :  aesthetic aliens walk among us in Las Vegas, scratchy found film photograph

Prompt :  A wolf in Yosemite National Park, chilly nature documentary film photography
Negative prompt : 3d render, smooth, plastic, blurry, grainy, low-resolution, anime, deep-fried, oversaturated

Prompt : aesthetic manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
Negative prompt : 3d render, smooth, plastic, blurry, grainy, low-resolution, animed

Et pour finir, voici notre propore comparatif entre l'image générée par la première version de Stable Diffusion et le même prompt traité par SDXL0.9. 

Prompt : Face of a knight, in a futuristic armor, Hyperrealistic, splash art, concept art, mid shot, intricately detailed, color depth, dramatic, 2/3 face angle, side light, colorful background