【Stable Diffusion 3.5】ローカル環境での使い方から各モデルの違いまで徹底解説 | romptn Magazine

【Stable Diffusion 3.5】ローカル環境での使い方から各モデルの違いまで徹底解説

Stable Diffusion

2024年10月に突如リリースされたStable Diffusion 3.5。前作のSD3が期待に応えられなかったことから、Stability AIは大幅な改良を加え、コミュニティからのフィードバックを取り入れた最新モデルを発表しました。

本記事では、Stable Diffusion 3.5のローカル環境での使い方から各モデルの特徴、インストール方法、さらには他モデルとの比較まで、あらゆる疑問に答える完全ガイドをお届けします!

この記事では、初心者でも理解できるように段階的に説明していくので、画像生成AIをこれから始めたい方にも、すでに使っていて最新モデルに移行したい方にも役立つ内容となっています。

今回の記事で分かること
  • Stable Diffusion 3.5とは?
  • Stable Diffusion 3.5のローカル環境での導入方法
  • Stable Diffusion 3.5の使い方とプロンプトのコツ
  • Stable Diffusion 3.5とFLUX.1/SD3との比較
  • LoRAとファインチューニングについて
  • Stable Diffusion 3.5のライセンスと商用利用

※Stable Diffusionの使い方については、下記記事で詳しく解説しています!

スポンサーリンク

Stable Diffusion 3.5とは?

Stable Diffusion 3.5はStability AIが2024年10月22日に発表した最新の画像生成AIモデルです。前作のStable Diffusion 3 Mediumで失敗した反省から、カスタマイズ性を重視して開発されました。SD3.5は以下の3つのモデルで構成されています。

Stable Diffusion 3.5 Large

  • パラメータ数: 80億
  • 特徴: Stable Diffusionファミリーの中で最強の性能
  • 解像度: 1メガピクセル(1024×1024など)対応
  • 用途: プロフェッショナルな使用に最適
  • 必要VRAM: 24GB以上推奨

このモデルはプロンプト(指示文)への忠実度が非常に高く、細部まで正確に再現します。様々なスタイルの画像生成が可能で、特に複雑な構図や細かいディテールが求められる場合に力を発揮します。

Stable Diffusion 3.5 Large Turbo

  • パラメータ数: 80億
  • 特徴: Largeモデルの高速版
  • ステップ数: わずか4ステップで高品質な画像生成
  • 速度: SD3.5 Largeより大幅に高速
  • 必要VRAM: 24GB以上推奨

通常のLargeモデルは20〜30ステップかかる処理をわずか4ステップで実行でき、素早いイテレーションが必要な場面で大きな威力を発揮します。画質やプロンプト忠実度もLargeに近い水準を維持しています。

Stable Diffusion 3.5 Medium

  • パラメータ数: 26億
  • 特徴: 改良されたMMDiT-Xアーキテクチャ採用
  • 解像度: 0.25〜2メガピクセル対応
  • 用途: 一般消費者向けハードウェアでの使用に最適
  • 必要VRAM: 9.9GB程度(NVIDIA GeForce RTX 3080以上推奨)

2024年10月29日に後発でリリースされたMediumは、一般的なゲーミングPCでも快適に動作するよう最適化されています。カスタマイズ性と画質のバランスが取れており、効率的な画像生成が可能です。

各モデルの共通点として、前バージョンと比較して大幅な品質向上が見られ、3D、写真、絵画、線画など幅広いスタイルの画像を生成できる柔軟性を備えています

Stable Diffusionの画像生成を最速で学びたいあなたへ!
  • Stable Diffusionの基礎を2時間でマスター!
  • 高スペックPCがない方向けに徹底解説。
  • ControlNetなど、必須級の拡張機能も網羅。
  • 今話題のSDXL、AI動画生成も。
  • 特典として、大人気「おすすめ拡張機能・モデル解説」「プロンプト大全」つき!
\このボタン限定!70%オフキャンペーン実施中!/
70%オフキャンペーン実施中!/

Stable Diffusion 3.5のローカル環境での導入方法

SD3.5をローカル環境で使うには、いくつかの選択肢があります。ここでは主要な方法を紹介します。

ComfyUIでの導入方法(初心者向け)

ComfyUIは現在SD3.5を使うための最も安定した方法です。以下の手順で導入しましょう。

必要なファイルのダウンロード

  1. Stability Matrixをダウンロード・インストール
  2. SD3.5モデルファイルのダウンロード
  3. CLIPファイル(テキストエンコーダー)のダウンロード

かなりの容量が必要となりますので、ご注意ください!

ファイルの配置

  1. モデルファイルの配置
    • Stability Matrix使用時:StabilityMatrix\Data\Models\StableDiffusionフォルダ
    • ComfyUI単独使用時:ComfyUI\models\checkpointsフォルダ
  2. CLIPファイルの配置
    • Stability Matrix使用時:StabilityMatrix\Data\Models\CLIPフォルダ
    • ComfyUI単独使用時:ComfyUI\models\clipフォルダ

ワークフローの設定

  1. ComfyUI_examplesからSD3.5ワークフロー用のサンプル画像をダウンロード
  2. ComfyUIを起動し、ダウンロードした画像をドラッグ&ドロップしてワークフローをインポート
  3. 「Load Checkpoint」ノードで使用したいSD3.5モデルを選択
  4. 「TripleCLIPLoader」ノードで3つのCLIPファイルを選択(clip_g.safetensors、clip_l.safetensors、t5xxl_fp8_e4m3fn.safetensors)
  5. SD3.5 Large Turboを使用する場合は「KSampler」ノードで、
    • stepsを「20」から「4」に変更
    • cfgを「5.5」から「1.2」に変更
  6. Queue Promptボタンをクリックして画像生成開始

VRAM要件に関して、SD3.5 Mediumは約10GB程度で動作可能ですが、Largeモデルは24GB以上のVRAMを推奨しています。

Forge WebUIでの導入

現在、SD WebUI ForgeでもSD3.5対応が進められていますが、完全な互換性はまだ確立されていません。最新の対応状況はForge GitHubで確認してください。

Automatic1111 WebUIでの導入(非推奨)

Automatic1111はまだSD3.5の公式サポートを行っていないため、現時点では推奨されません。開発が進み次第、対応する予定です。

プロンプトジェネレーターで画像生成プロンプトの参考に!
  • Stable Diffusionのプロンプトの見本が知りたい
  • 画像生成が思ったようにできない
  • 色々なプロンプトを探したい
など、画像生成AIのプロンプトに関する疑問が解決するかもしれません。

Stable Diffusion 3.5の使い方とプロンプトのコツ

ここでは、SD3.5の性能を最大限に引き出すためのテクニックを紹介します。

基本的なプロンプト構成

SD3.5は以下の要素を含めることで、より精度の高い画像生成が可能です。

  1. スタイル指定: 「photorealistic」「oil painting」「3D render」など
  2. 主題と動作: 被写体とその動きを明確に
  3. 構図とフレーミング: 「close-up」「wide angle」など視点を指定
  4. 照明と色彩: 「soft lighting」「vibrant colors」など
  5. 技術的パラメータ: 「8K resolution」「shallow depth of field」など

※詳しくは、下記記事で解説しています!

ネガティブプロンプト活用法

SD3.5では特に指の表現やテキスト表示に課題があることがわかっています。ですので、以下のようなネガティブプロンプトが効果的です。

bad finger, distorted fingers, extra fingers, nsfw, ugly, normal quality, bad quality, blurry

※詳しくは、下記記事で解説しています!

Stable Diffusion 3.5とFLUX.1/SD3との比較

SD3.5は他の主要モデルと比較して、どのような特徴があるのでしょうか?分かりやすく表にまとめてみましたので、参考にしてください!

SD3.5 LargeFLUX.1SD3
プロンプト忠実度最もプロンプトに忠実で、
細かい指示も再現
独自の解釈をする傾向あり、
芸術性が高い
SD3.5より大幅に劣る
画質と美的センス細部の再現性は高いが、
独特の「SD感」がある
全体的な美的センスと
自然な表現力が最も高い
人物表現に大きな課題あり
処理速度4ステップという超速生成を実現標準的な速度比較的時間がかかる
特殊な能力多様な人種表現、テキスト表示の改善芸術性の高い表現、独自の解釈力(特筆すべき強みなし)

LoRAとファインチューニングについて

SD3.5ではLoRA対応が進んでおり、世界的に有名なKohya氏がLoRA学習スクリプト「sd-scripts」をSD3.5対応に更新しています。

LoRAの学習方法は、以下の通りです。

  1. Kohya_ssの最新版をダウンロード
  2. SD3.5対応設定でLoRA学習を実行
  3. 生成したLoRAファイルをComfyUIで使用

※詳しい作成方法については、下記記事で解説していますので参考にしてください!

そして、SD3.5はカスタマイズ性を高めるためにQuery-Key Normalizationをトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善しています。これにより個人でもより簡単にファインチューニングが可能になりました。

Stable Diffusion 3.5のライセンスと商用利用

SD3.5は「Stability AI Community License」の下で提供されており、以下のルールが適用されます。

  • 非営利目的: 個人・組織とも無料で使用可能
  • 商用利用: 年間収益100万ドル未満の企業・クリエイターは無料
  • 著作権: 生成した画像の著作権はユーザーに帰属
  • 大企業向け: 年間収益100万ドル以上の企業はエンタープライズライセンスが必要

まとめ

いかがでしたでしょうか?

Stable Diffusion 3.5のローカル環境での使い方から各モデルの特徴、インストール方法、さらには他モデルとの比較まで詳しく解説してきました。

この記事で紹介したことをまとめると次のようになります。

  • SD3.5は3種類のモデル(Large、Large Turbo、Medium)があり、それぞれ特徴が異なる
  • ローカル環境での利用にはComfyUIが最も安定している
  • SD3.5 Mediumは一般的なGPU(VRAM 10GB程度)でも動作可能
  • プロンプト忠実度は高いが、指の表現などに課題がある
  • 年間収益100万ドル未満なら商用利用も無料で可能

画像生成AIの導入を検討している方や、より高品質な画像を生成したいという方に、かなり役立つ情報だったのではないでしょうか?

ぜひ、SD3.5を使って画像を生成してみてください!