2023年7月にリリースされたSDXL(Stable Diffusion XL)は、従来のStable Diffusionモデルと比較して学習画像のサイズや生成能力が大幅に向上しています。
SDXLで思い通りの高品質な画像を生成するためには、適切なプロンプト(指示文)の入力が不可欠です。本記事では、SDXLプロンプトの基本から応用テクニック、実践的なコツまで詳しく解説します!
- SDXLとは?
- 【SDXL】プロンプトの基本と書き方
- 【SDXL】ネガティブプロンプトの活用法
- SDXLで使えるプロンプト例
SDXLとは?

SDXLは、Stable Diffusionの後続モデルとして2023年7月にリリースされた画像生成AIモデルです。従来のモデルと比較して様々な面で進化しています。
従来モデルとの主な違い
従来のStable Diffusionモデルとの違いは、以下の5つです。


- デフォルトの画像サイズが1024×1024
- 従来の512×512から大幅に拡大され、高解像度の画像を直接生成可能に
- 短辺を1024として、例えば1024:1536などのアスペクト比で生成するのが理想的
- 複雑な構図の画像生成能力が向上
- 多くの要素を含む画像や立体的な構図を自然に生成できる
- 短いプロンプトでも高品質な画像を作りやすい
- 従来モデルでは必須だった「masterpiece(傑作)」などの品質タグが不要に
- 固有名詞の概念も理解しやすくなっている(例:「The Red Square」と入力すると赤の広場が生成される)
- パラメータ数の増加
- 従来の約10億から、Baseモデルで35億、Refinerモデルで66億に増加
- より豊かな表現力を獲得
- 2つのテキストエンコーダーの活用
- OpenCLIP-ViT/G(自然言語特化モデル)とCLIP-ViT/L(単語特化モデル)の2種類を搭載
大きな違いとしては、BaseモデルとRefinerモデルの2段階の画像処理が導入されたことで、画像が高品質で鮮明に生成されるようになったことです。
必要なPCスペック
SDXLをローカル環境で使用するには、高いPCスペックが必要です。
推奨GPUメモリ(VRAM)は、16GB以上となっており、GPUメモリが不足すると、画像生成に時間がかかったり、そもそも生成できない場合もあるので注意が必要です!
※Stable Diffusionに必要なPCスペックについては、下記記事でも詳しく解説しています。
【SDXL】プロンプトの基本と書き方
SDXLでのプロンプト作成は、従来のモデルとは少し異なるアプローチが効果的です。
※SDXLの使い方については、下記記事で詳しく解説しています。
プロンプトの基本要素
Stable Diffusionでプロンプトを構成する際には、以下の4つの要素を含めて考えましょう。
- コアプロンプト(主題):シンプルであるほど良い
- 画像の中心となる被写体や主題(例:「a cat」「cool guy」)
- スタイル指定:SDXLは認識できないスタイルの場合、デフォルトのスタイルを使用
- 画風を決めるワード(例:「Realistic」「Oil painting」「cel anime」)
- 画風参照:複数のアーティストを組み合わせることで、ユニークな画風も生成可能、なくてもよい
- 実在するアーティストの名前で画風を指定(例:「Paul Cézanne」「Leonardo da Vinci」)
- 詳細設定:作品で強調したい要素を追加
- 画質向上のための追加要素(例:「digital paint」「8k」「dramatic lighting」)
SDXL向けのプロンプト構造の基本
上記とは変わって、SDXLは2つのテキストエンコーダーを持っているため、プロンプトも2つの部分に分けて考えると効果的です。
- キーワード部分(CLIP-ViT/L向け):カンマ区切りがおすすめ
- キャラクターの特徴、スタイル、品質タグなどを記述
- 自然言語部分(OpenCLIP-ViT/G向け):文章形式がおすすめ
- シーンや背景、光の状態などを詳細に記述
プロンプトの順番について
SDXLでは、プロンプトの順序が結果に大きく影響します。以下のプロンプトの順番に関するルールを覚えておくと良いでしょう。


- 前に記述する単語ほど優先度が高くなる
- 基本的に75単語(トークン)で1グループとして認識される
- 76単語(トークン)目からは新しいグループとして扱われ、影響力が変わる
※下記記事も参考になります。
- Stable Diffusionのプロンプトの見本が知りたい
- 画像生成が思ったようにできない
- 色々なプロンプトを探したい

【SDXL】プロンプトの効果的な強調方法
プロンプトで特定の要素を強調することで、生成される画像に大きな影響を与えることができます。
強調構文の使い方
プロンプトの強調構文とは、特定のトークン(文字列)を強くするためにプロンプトに挿入する文字列です。
主には「Break」や「括弧」を、プロンプト内に書き込みます。
①Break構文
Break構文は、強調したいプロンプトの1つ前に挿入します。括弧で囲む場合は、強調したいプロンプトを括弧で囲むだけです。
例えば、青い目を強調した画像を生成したい時は、下記のようにプロンプトを書きます。
1 girl,standing pose,cute,cute eyes,detailed hair,anime,highlight hair,front sun light,beautiful hair,illustration,face up,smile,white teeth, school uniform, blue ribbon,gentle smiling expression of a woman,black hair,break,Blue eyes, acing front,
『blue eyes』の前にBreak構文を入れた結果、きちんと青い瞳になっていますね。

※詳しくは、以下の記事を参考にしてください。
②括弧でくくる
括弧で強調する方法には、以下の3パターンがあります。
- (プロンプト):括弧内のプロンプトが1.1倍強くなる
- ((プロンプト)):括弧内のプロンプトが1.1倍×1.1倍の、合計1.21倍になる
- (プロンプト:数値):書き込んだ数値分だけ強くなる(1.4と書いた場合、プロンプトが1.4倍強くなる)
括弧を使う場合、修正しながらそれぞれ試してみてください。
※詳しくは、以下の記事を参考にしてください。
実写系とアニメ系でのプロンプトの違い
SDXLでは、実写とアニメそれぞれに特化したプロンプト書き方があります。
実写系プロンプトの特徴


- 「photorealistic」「hyperrealistic」などのタグが効果的
- 照明や環境の詳細な描写が重要
例:A stunning young model, 21 years old, with a summer dress, smiling face, photorealism, HDR, 8k, DSLR, ultra-detailed, cinematic lighting
アニメ系プロンプトの特徴


- 「anime style」「cel shading」などのタグが有効
- キャラクターの特徴をより詳細に記述
例:1girl, long blue hair, big expressive eyes, school uniform, anime style, vibrant colors, cel shading, clean lines
【SDXL】ネガティブプロンプトの活用法
ネガティブプロンプトは、生成画像から排除したい要素を指定するもので、画質向上に大きく貢献します。
ネガティブプロンプトの基本

- 生成画像に含めたくない要素を指定する
- ボディパーツのエラーや欠損を防ぎ、作画の矛盾や崩壊を抑制する
- モデルによっては空のネガティブプロンプトでも高品質な出力が可能な場合もある
基本的な品質向上のネガティブプロンプト例としては、以下のようなものがあります。ぜひコピペして使ってみてください!
low quality, worst quality, bad anatomy, missing arms, extra arms, mutated hands, extra legs, bad hands, poorly drawn hands, malformed hands, missing limb, floating limbs, out of focus, ugly, error, JPEG artifacts, low resolution, blurry, bokeh, long neck, long body, deformed
※詳しくは、下記記事でも解説しています!
Textual Inversionによるネガティブプロンプト
AUTOMATIC1111のWebUIでは、「Textual Inversion」機能を使用してembedding(埋め込みの重み付け)ファイルを追加することで、簡単に効果的なネガティブプロンプトを指定できます。

例えば、CounterfeitXLというモデルでは、一緒に使ってほしいネガティブプロンプトを自動で適用してくれるnegativeXLを配布しています。
生成する画像のスタイルによって、以下の種類を使い分けましょう。
- negativeXL_A: Standard(標準)
- negativeXL_B: Realistic(リアル系)
- negativeXL_C: Anime like(アニメ系)
- negativeXL_D: fixed(修正版)
これらのembeddingファイルは「順番に影響がある」「混ぜることができる(最大2種類程度が効果的)」という2つの特性があります。
※詳しい使い方は、下記記事で解説しています!
SDXLで使えるプロンプト例3選!
では、実際のプロンプト例を見ながら、具体的な表現テクニックを学びましょう!
①髪型や表情を細かく指定したプロンプト例
髪型指定の例
1girl, long wavy blonde hair, hair between eyes, side swept bangs, twintails

表情指定の例
1girl, smiling, happy expression, closed eyes, blushing, open mouth

②画風や品質を向上させるプロンプト
高画質化プロンプト例
high resolution, 8k, ultra-detailed, intricate details, cinematic lighting, professional photography, HDR

特定の画風を指定する例
oil painting, impressionism, vibrant colors, detailed brushstrokes, gallery quality

③リアルな人物像を生成するコツ
- 年齢や体型、顔の特徴を具体的に記述
- 照明や環境の詳細を加える
- ポートレート撮影の専門用語を使用する
プロンプト例
A 30-year-old Asian woman with shoulder-length black hair, sharp jawline, high cheekbones, natural makeup, shallow depth of field, golden hour lighting, outdoor portrait, professional photoshoot, Canon EOS R5, 85mm lens

【SDXL】プロンプトは日本語対応している?
SDXLは基本的に英語で学習されているため、高品質な画像生成には英語のプロンプトが効果的です。
日本語入力に特化したJapanese Stable Diffusion XL(JSDXL)があるので、ぜひ試してみてください!(商用利用にはライセンス購入が必要)

【FAQ】SDXLのプロンプトに関するよくある質問
- QSDXLでおすすめのモデルはありますか?
- A
SDXLをベースにした様々なモデルが公開されています。Civitaiなどのプラットフォームで、用途に合わせたモデルを探すことができます。
※詳しくは、下記記事が参考になります。
- QSDXLは商用利用できますか?
- A
公式モデルのSDXL 1.0については商用利用が可能です。ただし、共有プラットフォームで配布されているモデルについては、各モデルの利用規約を確認する必要があります。
※詳しくは、下記記事が参考になります。
- QSDXLでプロンプトの文字数制限はありますか?
- A
明確な文字数制限はありませんが、75単語ごとにグループ化されるという特性があります。効果的なプロンプトは簡潔さとディテールのバランスが重要です。
- QSDXL Turboとは何ですか?
- A
SDXL Turboは、SDXLモデルの高速化バージョンです。画像生成にかかる時間が大幅に短縮され、プロンプト入力直後に画像を出力できます。品質もSDXLと大きな違いがなく、速さを重視するユーザーに向いています。商用利用にはライセンスの購入が必要です。
※詳しくは、以下の記事で解説しています。
まとめ
いかがでしたでしょうか?SDXLのプロンプトを効果的な書き方をご紹介してきました!
この記事のポイントをまとめると、以下の通りです。
- 基本サイズは短辺1024を基準に
- 2つのテキストエンコーダーを意識したプロンプト設計
- ネガティブプロンプトの適切な活用
- プロンプトの順序と強調に注意
- 言語は基本的に英語で
SDXLは従来のStable Diffusionモデルより大きいサイズ(1024×1024)の画像で学習したモデルで、短いプロンプトでも高品質な画像生成が可能です。これらのテクニックを活用して、SDXLの可能性を最大限に引き出してください!
Stable Diffusionのプロンプトについてさらに詳しく知りたい方は、下記の記事もぜひご覧ください。