画像生成AI は日々進歩しています。
先ごろstability ai 社からまた新しいテクノロジーが発表されました。
その名も「SDXL Turbo」一体どのあたりが「Turbo」なのか気になりますよね。
今回は「SDXL Turbo」が一体どんな物なのかを解説していきます。
SDXL Turboとは?
SDXL Turbo は、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)と呼ばれる新しい蒸留技術に基づき、わずか1つのステップで画像出力を合成することができます。
今までは20steps以上かけてデノイジングしていた工程をわずか1stepで済ませてしまうので、爆速で画像が仕上がります。
ただ、Stable Diffusionの通常の使い方とは異なるパラメーターのセッテイングであったり、またネガティブプロンプトの効果が無いなど画像が作りにくい面もある為、実用性という点ではまだまだな部分があります。
とは言ってもまだまだ発表されたばかりの新しい技術です。stability aiも非商用研究ライセンスとしてモデルを公開している段階ですので、画像生成AIにまた新しい技術が登場したんだな、ぐらいの気持ちで触ってみてください。
SDXL Turboの使い方
一番簡単に使う方法はstability aiが公開しているβ版を使う事です。
ここはプロンプトを打ち込むだけで画像を生成することが可能です。
これでは物足りない方は自分の環境で使ってみましょう。
SDXL Turboを自分の環境で使うには
SDXLが使える環境でなくてはいけません。
Stable Diffusion Web UIのバージョンがv1.5.0以降でないとSDXLは使用できませんので、バージョンを確認しましょう。
VAEがSDXL用である必要があります。持っていない方はこちらからダウンロードしてください。
そしてweb ui を起動して、Settings → Stable Diffusion → SD VAE に 「sdxl_vae.safetensors」を選択して、Apply Settings を押してください。
もしもこの辺でわからない所があれば以下の記事が参考になりますので、こちらをご覧ください。
次に、SDXL Turbo モデルをこちらからダウンロードします。
ダウンロードしたモデルは Stable-Diffusion-webui → models → Stable Diffusion に保存して、 通常通りにcheckpointに設定してください。
- Stable Diffusionのプロンプトの見本が知りたい
- 画像生成が思ったようにできない
- 色々なプロンプトを探したい
SDXL Turboを使って画像を生成してみた!
では画像を生成してみますが、その前にいくつか通常の画像生成と異なる点があるので注意してください。
・Sampling steps を 「1」に(1~4stepsで生成できます。それ以上では画像が破綻します。)
・Sampling method は 「Euler a」もしくは「Karras系」
・画像サイズは512×512(他のサイズでは画像が破綻します。)
・CFG Scale は「1」に(1以上では画像が破綻します。)
そのほか冒頭にも書きましたが、ネガティブプロンプトに効果が無かったり、またLoraやembeddings等の各ステップで効果を出す機能も効果がありません。
では生成したものを以下に並べてみます。(プロンプトも載せます)
Cute baby, hight quality, phot real
通常の生成と同じで、手の破綻がありますが、生成自体は1stepなので本当に早いです。
((Best quality:1.4 , 8k)), (Anime style ), realistic , 1 Japanese woman ,extremely beautiful , hair bun , Clear eyes, beautiful eyes , on the street , beautiful detailed Kimono , grin , upper body , soft lighting , detailed face , red lips
このモデルはイラスト調でも描けます。プロンプトもきちんと反映されています。
(Best quality ) , detailed , beautiful ocean view , (sunset) , shiny ocean , ((background only )), Beautiful mountains, harsh nature
景色は特に綺麗に描けています。通常の生成に引けを取らない感じです。
A lion, a wild animal living in an African savannah, is attacking a Zebra. The most realistic photo
キメラが誕生しました。ネガティブプロンプトが使えないので、このような画像を修正する方法がありません。
closeup young warrior man in a chinese dress sparring kung fu in a feng shui garden at night, rain, 8k, epic realistic, high detail
そこそこちゃんと生成されてはいますが、もうちょっと明るく仕上げたくてもLoraなどでの調整も効きません。
さて、生成したものをいくつかご覧いただきましたが、画像そのもののクオリティーとしては正直まだまだ通常生成には及びません。
また、サイズも512×512に限定されていたり、ネガティブプロンプトやembeddingsでの修正が効かない事も画像の作りにくさにつながっています。
ただし、これはあくまでも非商用研究ライセンスのモデルです。
まだまだ実験段階ですので、今後の発展に期待しましょう。
SDXL Turboのすごさは本当?
SDXL Turboに使用されている敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)について詳しく知りたい方はこちらから元論文をご覧ください。
最先端の高速サンプラーとの定性的比較でもADD1stepの方が良好な値を出すなどADDの優秀さを示すデータが上がっています。
技術的には今までものより確実に発展していますし、先ほど画像を生成した際に生じていた問題点なども、類似のの技法によってLoraやembeddingsが作成できて、解決できる可能性は十分にあり得ます。
何よりも1stepで画像が生成できるって、これまでStable Diffusionを触ってきた人間からすると革命的にすごいです。
爆速の画像生成を心のままに楽しみましょう。
まとめ
いかがでしたでしょうか?
リアルタイムで画像生成ができる『SDXL Turbo』の使い方!について解説してきました。
今回のポイントをまとめると、以下のようになります。
- お気軽に楽しみたい方はβ版で使ってみましょう
- それで物足りない方はご自身の環境で使ってみる(SDXL環境のある方はモデルのダウンロードのみで使うことができます)
元論文を読んでいただくとわかるのですが、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)は現在のところサンプルの多様性が減ってしまうようです。
生成した赤ちゃんや女性の画像が似通っていたのは、そのような理由もあるようです。
でも新しい技術がどんどん出てきています。いずれは解決できてしまうことでしょう。
是非皆さんもこの新しい技術に触れて、爆速画像生成を楽しんでください。
- Stable Diffusionのプロンプトの見本が知りたい
- 画像生成が思ったようにできない
- 色々なプロンプトを探したい