イラストの破綻を防ぎ高画質化する『Hires.fix』の使い方！

Stable Diffusionは言わずと知れた画像生成AIです。

プロンプトを書いてボタンを押せば、画像を生成してくれます。

では、できた画像のクオリティーをさらに上げたい時にどんな方法があるでしょうか？

今回はそんな時に使える、『Hires.fix』についてご紹介します。

※Stable Diffusionの立ち上げ方や使い方については、以下の記事で詳しく解説しています。

高解像度化できる『Hires.fix』とは
「Hires.fix」の使い方
- 「Hires.fix」を有効化する方法
- 「Hires.fix」のパラメータ設定について
「Hires.fix」のアップスケーラーについて比較検証！
まとめ

高解像度化できる『Hires.fix』とは

Hires.fixは高解像度の画像が生成できるStable Diffusonのオプション機能です。

画像をアップスケールしながら、ノイズや歪みなどを除去してクリアで鮮明な画像が生成できます。

ただ、パラメーターの設定を誤るとデザインが大きく変わったり、生成時間が遅いという問題が起きるので注意してください。

生成される画像の違い

具体的に通常生成した画像と、「Hires.fix」で高解像度にアップスケールしたものとを見比べてみましょう。

引きではわかりづらいので、目元をアップにしてみます。

書き込み量が増えていますね。

このように Hires.fix を使うと、高解像度の画像を生成することができます。

ここで一つ疑問が生まれます。

Hires.fix をかけずに、ただのスケールアップではダメなのでしょうか？

上の画像と同じ条件でスケールを 800×800 にして生成すると・・・

（生成条件は以下のとおりです。）

(kawaii:1),(looking at viewer:1),focused,(cowboy shot:1),masterpiece, best quality, highres,8k, intricate, elegant, highly detailed,dynamic lighting,(blurry background:1),(half updo:1),(blunt bangs:1),(sidelocks:1)
extremely detailed eyes and face and skin,(symmetrical clear eyes:1.2), (slim face:1.2),Corset dress,Negative prompt: EasyNegative, bad-hands-5,low quality
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2017968390, Size: 800×800, Model hash: bc2f30f4ad, Model: beautifulRealistic_v60, RNG: CPU, Version: v1.3.2

違う画像が生成されました。

実はStable Difffusionはサイズによって、生成される画像が変わる事があります。

なので、小さめのサイズで生成してみて、よければアップスケールする生成方法が、一般的に使われています。

「Hires.fix」の仕組み

公式情報はこのように記載しています。

A convenience option to partially render your image at a lower resolution, upscale it, and then add details at a high resolution. In other words, this is equivalent to generating an image in txt2img, upscaling it via a method of your choice, and running a second pass on the now upscaled image in img2img to further refine the upscale and create the final result.
https://github.com/xinntao/Real-ESRGAN

訳しますと、

画像を低解像度で部分的にレンダリングし、アップスケールし、高解像度で詳細を追加する便利なオプションです。言い換えれば、これはtxt2imgで画像を生成し、選択した方法でアップスケーリングし、img2imgで現在アップスケーリングされた画像に2番目のパスを実行して、アップスケールをさらに洗練し、最終結果を作成するのと同じです。

要は画像を生成して、拡大して、仕上げまでやってくれるって事です。

詳細は github で確認できます。気になる方はこちらからどうぞ

Hires. fix

注意点：「Hires.fix」を利用する際に必要なスペック

Stable Diffusionの使用にあたってGPU（グラフィックボード）の性能は1番重要といっても過言ではありません。 GPUは画像処理などを行う部分であるため、ここの性能が画像生成の速さなどに直結します。具体的な性能としては、最低でVRAMが8GB、推奨はVRAMが12GB以上とされています。

「Hires.fix」は通常の画像生成よりも多くのVRAMを多く使用します。

512×512の画像を1024×1024にアップスケールする際に、どのくらい使用しているかを私の環境で確認したところ、Xformersがあると10GB、無しだとおよそ18GBでした。

Xformersがすごく役立っています。

ただXformersはNVIDIA系のグラフィックボードでないと使えません。環境的に厳しい場合は「Hires.fix」の倍率（Upscale by）を下げることで、対応してください。

「Hires.fix」の使い方

「Hires.fix」はtxt2img で画像を生成する時に有効化しておくことで、tet2imgの画像を生成後、そのまま高解像度にアップスケールしてくれます。

実際に使い方を見てみましょう。

「Hires.fix」はStable Diffusion のバージョン(V1.6)からUIに変更がありました。これは見た目が少し変わったでけで、基本的な使用方法に変更はありません。

「Hires.fix」を有効化する方法

バージョン(V1.6)の方は触るだけで有効化されます。

それ以前のバージョンをお使いの方はHires. fixにチェックを入れて有効化しましょう。

次に各パラメーターを設定していきます。

「Hires.fix」のパラメータ設定について

そこまで難しいのはありません。

Upscaler – 低解像度の元画像を拡大する際に用いるアルゴリズムの種類を指定します。10種類以上ありますが、それぞれ特徴や出力結果が異なります。
Hires steps – 高解像度化する際のステップ数。ステップ数が多いほど緻密になりますが、時間もかかります。0にするとSampling stepsの値と同じになります。Sampling methodをDDIMにしてSampling stepを下げて生成している場合（高速化のため）やSampling stepを上げて生成している場合は適切な範囲（１０〜２０）で設定しましょう。
Denoising strength – txt2imgで生成した画像をどの程度変化させるかの割合です。0ではアップスケール自体ができませんし、大きくすると元の画像からの変化も大きくなります。
Upscale by – アップスケールの倍率です。あまりに大きすぎるとメモリ不足でエラーが出る場合があります。

「Hires.fix」のアップスケーラーについて比較検証！

３つのUpscalerを実際に使用して画像の出来を比較してみます。

Latent

まずはLatentです。Upscaler の設定をしないとLatentが選択されますが、こいつの実力はどんなもでしょうか？

Hires.fixの効果がわかりやすいようにちょっと凝った画像を生成して、アップスケールしてみます。

生成条件は以下のとおりです。

ExpeditionStyle prompt! dream symmetry!! stunning portrait of empty space myth!! by victo ngai, kilian eng vibrant colours, dynamic lighting, digital art, winning award masterpiece, fantastically beautiful, illustration, aesthetically inspired by beksinski and dan mumford, trending on artstation, art by greg rutkowski, 8 k, colorful, desert environment, treasure seeking, transparent prompt! dream symmetry!! stunning portrait of empty space myth!! by victo ngai, kilian eng vibrant colours, dynamic lighting, digital art, winning award masterpiece, fantastically beautiful, illustration, aesthetically inspired by beksinski and dan mumford, trending on artstation, art by greg rutkowski, 8 k prompt! dream symmetry!! stunning portrait of empty space myth!! by victo ngai, kilian eng vibrant colours, dynamic lighting, digital art, winning award masterpiece, fantastically beautiful, illustration, aesthetically inspired by beksinski and dan mumford, trending on artstation, art by greg rutkowski, 8 k, (Masterpiece:1.3) (best quality:1.2) (high quality:1.1)
Negative prompt: watermark, low quality, ugly, blurry, lowres, bad hand, blurry eye, EasyNegative
Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 2843712324, Size: 512×512, Model hash: ac68270450, Model: beautifulRealistic_brav5, RNG: CPU, Version: v1.3.2

512×512では結構粗めの仕上がりです。この画像をLatentで2倍にアップスケールしていきます。

Denoising strengthをデフォルトの0.7で生成したところ、解像度はいい感じですが、元画像からかなりかけ離れてしまいました。以下はDenoising strengthを0.1刻みで下げて生成した画像です。

まだかけ離れています。

これもかなり違います。

だいぶ近くなってきました。

Denoising strength0.3では画像がぼやけています。

全部並べてみます。

Denoising strength が高いと元の画像を保てず、低いとピンボケになる。ちょっとこれでは実用性が無いです。

ですので、LatentはHires.fixのアップスケーラーとしてはお勧めできません。

次はR-ESRGAN-4x+を見てみましょう。

R-ESRGAN-4x+

生成条件は以下のとおりです。

photo RAW,(a girl in a wasteland, blonde messy bun, explorer suit, alien planet, space, starfield, kid, Alpine Meadow), masterpiece, award winning photography, natural light, perfect composition, high detail, hyper realistic
Negative prompt: low quality,medium quality, 3d,frame,bw,watermark,logo,((letters)),paint,draw,(text),(worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, bad hands, normal quality, ((monochrome)), ((grayscale))
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 395117765, Size: 512×512, Model hash: ac68270450, Model: beautifulRealistic_brav5, Version: v1.3.2

この画像をR-ESRGAN-4x+でDenoising strengthを変えながら、2倍にアップスケールしていきます。

Denoising strength0.7でもさほど構図の変更もさほど気になりません。0.4まで下げると空の星の位置もほぼ同じになります。

顔や髪の毛も問題なく描けています。

STABLE DIFFUSION ART公式もR-ESRGAN-4x+を推奨していますので、実写系モデルに「Hires.fix」を使う際はR-ESRGAN-4x+を使えば良いでしょう。

ちなみにSTABLE DIFFUSION ARTはこちらからどうぞ

Stable Diffusion Art - Tutorials, prompts and resources

Stable Diffusion is a free AI model that turns text into images. This site offers easy-to-follow tutorials, workflows and structured courses to teach you everyt...

次はイラスト系のモデルにR-ESRGAN-4x+-Anime6Bを使用してみます。

R-ESRGAN-4x+-Anime6B

生成条件は以下のとおりです。

create an awe-inspiring and meticulously detailed anime style artwork featuring a captivating 1girl character holding a kitten with vibrant neon hair. Her gaze is both enchanting and mysterious, drawing the viewer into her world of wonder. The image should be in 4K resolution for maximum impact and showcase intricate patterns, shadows, and highlights that bring out every detail of this stunning masterpiece. 3d style, <lora:elise2-v1-000016:0.7>
Negative prompt: cartoon, (anime:1.2), manga, render, CG, 3d, monochrome, watermark, signature, label, cropped, jpeg artifacts, signature, watermark, username, worst quality, low quality, EasyNegative ,bad-hands-5
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 4036674487, Size: 512×512, Model hash: 354b8c571d, Model: aamAnyloraAnimeMixAnime_v1, RNG: CPU, Lora hashes: “elise2-v1-000016: 5911fd0d978e”, Version: v1.3.2