Z-Image-TurboをComfyUIで動かす完全手順!8ステップで最初の1枚

Z-Image-TurboをComfyUIで動かす完全手順!8ステップで最初の1枚のアイキャッチ画像 画像生成AI

「Z-Image-Turbo を自分のPCで動かしたいけれど、どのファイルをどこに置けばいいのか、設定でつまずいて最初の1枚にたどり着けない」——そんな悩みは、つまずきポイントさえ押さえれば一気に解消できます。

Z-Image-Turbo は、わずか8ステップで画像を生成できる高速モデルです。RTX 3060 / 4060 クラスのGPUでも、正しく導入すれば手元で快適に画像生成を楽しめます。

この記事では、必要な3ファイルのダウンロードと配置先、最大のハマりどころである「CLIP の type を Lumina 2 にする」設定、そして KSampler を8ステップで動かして最初の1枚を出すまでを、順番どおりに進めていきます。低VRAM環境での FP8 / GGUF の選び方や、黒画像が出たときの対処までカバーするので、この記事をなぞるだけで導入を完了できます。

内容をまとめると…

  • Z-Image-Turboは8ステップ・Apache 2.0で、RTX 3060/4060クラスでもローカル生成できる

  • 必要なのは拡散モデル・qwen_3_4b・VAEの3ファイルで、置くフォルダが決まっている

  • 最大のつまずきはCLIPのtypeをLumina 2にすること、KSamplerはsteps=8・cfg=1.0が基本

  • 6〜8GBの低VRAMならBF16ではなくFP8やGGUFに切り替える

  • 黒画像はCLIP設定の確認とBF16からFP8への切り替えで直ることが多い

きれいな画像を作れるようになっただけで、収益化できずに止まってませんか?

romptn ai では、実際に画像生成AIで稼いでいるプロを講師に招いた完全無料のAIクリエイターセミナーを開催しています。

2時間のオンラインセミナーで、実際に稼いでいる人が使う最新画像生成AIツールや上級者にステップアップするための必須スキルなどの知識面はもちろんのこと、ゼロから収益化を実現するための具体的なロードマップ体験談ベースで詳しく学ぶことができます。

また、豪華な無料参加特典も用意していますので、ぜひご興味を持った方はお気軽に下記のボタンから詳細をチェックしてみてください!

\ 現役の画像生成AIのプロから学べる! /

無料セミナーの詳細をみる
監修者_SD以外
監修者プロフィール
森下浩志
日本最大級のAI情報プラットフォーム「romptn ai」編集長。著書に「0からはじめるStable Diffusion」「0からはじめるStable Diffusion モデル・拡張機能集編」など、AmazonベストセラーのAI関連書籍を多数執筆。AIにおける情報の非対称性を解消するための社内研修や出張講義も行う。

Z-Image-Turboとは?まず押さえる3つの特徴

Z-Image-Turbo(ゼットイメージ ターボ)は、Alibaba の Tongyi Lab が開発した画像生成モデルです。難しい用語を使わずに言うと、「文章を入力すると、その内容の画像をローカル(自分のPC)で作れる」モデルで、しかも生成がとても速いのが特徴です。

まず押さえておきたいポイントは次の3つです。

  • わずか8ステップで生成できる:通常の画像生成は数十ステップかけますが、Turbo は蒸留という技術で8ステップ前後まで短縮されています。そのぶん1枚あたりの待ち時間が短く済みます。
  • 6Bパラメータでも品質が高い:オープンソースの画像モデルを評価するランキングでもトップクラスに位置づけられており、軽量ながら実用的な仕上がりが期待できます。
  • 日本語環境でも扱いやすく、ライセンスも明快:英語と中国語の文字描画に強く、ライセンスは Apache 2.0 で、個人利用から商用利用まで幅広く使えます。

細かい数値は次の表のとおりです。なお、Z-Image そのものの概要や料金プランを先に知りたい方は、概要記事のほうがまとまっています。

項目内容
開発元Alibaba Tongyi Lab(Tongyi-MAI)
モデル規模6B(60億)パラメータ
生成ステップ8ステップ(Turbo は蒸留版)
ライセンスApache 2.0(商用利用可)
公開時期2025年11月下旬

この記事では、この Z-Image-Turbo を画像生成ツール「ComfyUI」に組み込み、最初の1枚を出すところまでを順番に進めていきます。

導入前の準備とPCスペックの目安

導入を始める前に、2つだけ準備を確認しておきましょう。これがそろっていれば、後の手順でつまずきにくくなります。

1つ目は ComfyUI 本体です。ComfyUI はノードをつないで画像生成の流れを組み立てるツールで、Z-Image-Turbo はこの ComfyUI 上で動かします。まだ入れていない場合は公式サイト(https://www.comfy.org/)から導入し、起動できる状態にしておいてください。Z-Image-Turbo は比較的新しいモデルなので、ComfyUI は最新版に更新しておくと対応ノードが正しく読み込まれます。

2つ目は GPU と VRAM(ビデオメモリ)の容量です。どのモデル版を選ぶかが、ここで決まります。標準の BF16 版は16GBクラスのVRAMが前提ですが、RTX 3060 / 4060 のような6〜8GBの環境では、容量を抑えた FP8 版や GGUF 版を選ぶのが現実的です。

VRAMの目安選ぶモデル版ひとこと
16GB以上BF16(標準)公式サンプルそのままで動かしやすい
8GB前後FP8 / GGUF(Q8_0)ファイルが軽く、メモリに収まりやすい
6GB前後GGUF(Q4_K_M)もっとも省メモリ寄りの選択肢

自分のVRAMが分からないときは、Windows ならタスクマネージャーの「パフォーマンス」タブでGPUのメモリ量を確認できます。まずはこの表で「自分はどの版か」をざっくり決めておけば大丈夫です。次の章で、実際のファイルをダウンロードしていきます。

必要な3ファイルのダウンロードと配置先

ここがこの記事の中心です。Z-Image-Turbo を動かすには、役割の違う3つのファイルを ComfyUI の決まったフォルダに置く必要があります。ファイル名と置き場所を1文字でも間違えると ComfyUI が認識しないので、下の表のとおりに配置してください。

3ファイルはいずれも公式の配布元(Hugging Face の Comfy-Org/z_image_turbo リポジトリ)にまとまっています。リポジトリ内の split_files フォルダから、それぞれ対応するファイルを取得します。

役割ファイル名置くフォルダ
拡散モデル本体z_image_turbo_bf16.safetensorsComfyUI/models/diffusion_models/
テキストエンコーダqwen_3_4b.safetensorsComfyUI/models/text_encoders/
VAEae.safetensorsComfyUI/models/vae/

ポイントを補足します。テキストエンコーダの qwen_3_4b は、入力した文章を画像生成が理解できる形に変換する部品です。VAE の ae.safetensors は Flux 系と同じVAEで、最終的な画像の描き出しを担います。拡散モデルは、6〜8GBのVRAM環境なら前章のとおり FP8 版や GGUF 版に置き換えてかまいません(置くフォルダは BF16 と同じ diffusion_models です)。

3つとも正しいフォルダに入れたら、ComfyUI 側でファイルを読み込めるよう、次の章でワークフローを開きます。

ComfyUIでワークフローを読み込む

ComfyUIでワークフローを読み込むの手順をまとめた図解
ComfyUIでワークフローを読み込むの手順

ファイルを置いたら、次はそれらをつなぐ「ワークフロー」を ComfyUI に読み込みます。ゼロからノードを組む必要はなく、公式が用意したサンプルをそのまま使うのが一番の近道です。

読み込み方法は主に2通りです。

  1. テンプレートから開く:ComfyUI のメニューから Z-Image 用のサンプルワークフローのテンプレートを選ぶと、必要なノードが最初から並んだ状態で開きます。
  2. サンプル画像をドラッグする:公式が配布しているサンプル画像には、生成に使ったワークフローの情報が埋め込まれています。その画像を ComfyUI の画面にドラッグ&ドロップすると、同じワークフローが復元されます。

どちらの方法でも、読み込んだ直後にモデルやVAEを選ぶ欄が表示されるので、前の章で配置したファイルを選びます。

もし赤いノードが出たり「ノードが見つからない」と表示されたりした場合は、ComfyUI のバージョンが古いことが原因のことがほとんどです。ComfyUI を最新版に更新してから再起動すると、対応ノードが読み込まれて解消します。ここまでで土台は完成です。次の章から、初心者がもっとも引っかかりやすい設定を1つずつ潰していきます。

ハマりどころNo.1:CLIPのtypeをLumina 2にする

Z-Image-Turbo の導入で一番つまずきやすいのが、このテキストエンコーダ(CLIP)の設定です。ここを間違えると、エラーになったり、思ったような画像にならなかったりします。逆に言えば、ここさえ押さえれば大きな山は越えられます。

設定のポイントは次の2つです。

  • CLIPローダーの type を「Lumina 2」にする:テキストエンコーダを読み込むノード(CLIPローダー)には、どの方式で読むかを選ぶ type という項目があります。Z-Image-Turbo ではこれを Lumina 2 に設定し、ファイルとして前章で置いた qwen_3_4b を指定します。初期値のままだと正しく動かないので、必ず切り替えてください。
  • ModelSamplingAuraFlow を通す:Z-Image-Turbo は、サンプリングの調整に ModelSamplingAuraFlow というノードを組み合わせる構成が前提です。公式サンプルのワークフローには最初から含まれているので、サンプルを使っていれば自動的に満たせます。

この2つは、既存の Stable Diffusion や Flux の設定とは共有できません。「他のモデルでは動いていたのに」という場合でも、Z-Image-Turbo 専用にこの設定を見直す必要があります。

CLIP の type を Lumina 2 にできたら、いよいよ生成の設定に進みます。

KSampler設定と8ステップで最初の1枚を生成

設定の最後は、生成の進め方を決める KSampler です。Z-Image-Turbo は蒸留された高速モデルなので、通常のモデルとは推奨値が違います。下の表の値に合わせるのが基本です。

項目推奨値補足
steps(ステップ数)8Turbo は8ステップ前提。増やしても伸びにくい
cfg1.0蒸留モデルなのでガイダンスは効かせない
sampler_nameeulerまずは標準的な euler から
schedulersimpleeuler と組み合わせる
画像サイズ1024×1024公式が推奨する基本サイズ

cfg を1.0にするのがポイントです。Z-Image-Turbo はガイダンス(cfg)を内部に取り込む形で蒸留されているため、通常のモデルのように cfg を高くする必要がありません。むしろ高くすると崩れやすくなります。ネガティブプロンプト(避けたい要素の指定)も、この構成では基本的に効きません。

値を入れたら、あとはプロンプト欄に作りたいものを書いて生成を実行するだけです。たとえば次のような短い指定から試すと、結果を確認しやすいでしょう。

a cute corgi sitting on a sofa, soft lighting, photo
KSampler設定と8ステップで最初の1枚を生成のプロンプトで生成した画像サンプル
KSampler設定と8ステップで最初の1枚を生成の生成サンプル

実行ボタンを押し、数十秒ほどで1枚目が表示されれば導入は成功です。ここまで来れば、あとはプロンプトを変えて自由に試せます。

低VRAM(6〜8GB)で動かす:FP8とGGUFの選び方

RTX 3060 / 4060 のようにVRAMが6〜8GBの環境では、標準の BF16 版だとメモリが足りないことがあります。そのときは、容量を抑えた FP8 版か GGUF 版に置き換えます。どちらも「拡散モデルのファイルを軽くしたもの」で、置くフォルダは BF16 と同じです。

選び方の目安は次のとおりです。

環境おすすめ必要な準備
VRAM 8GB前後FP8、またはGGUFのQ8_0FP8はそのまま、GGUFはノード追加が必要
VRAM 6GB前後GGUFのQ4_K_Mノード追加が必要

FP8 版は、拡散モデルのファイルを diffusion_models フォルダに置き換えるだけで使えるので、手軽さで選ぶならこちらです。

GGUF 版を使う場合は、ComfyUI に GGUF を読み込むためのノード(City96 氏の ComfyUI-GGUF)を ComfyUI Manager から追加してから、対応する読み込みノードに差し替えます。ファイル名の末尾にある Q8_0 や Q4_K_M は圧縮の強さを表し、数字が小さいほどファイルが軽く、省メモリになります。6GBならまず Q4_K_M、8GBなら Q8_0 から試すとバランスを取りやすいです。

自分のVRAMに合った版を選べば、低スペックのPCでも8ステップ生成を十分楽しめます。

黒画像・メモリ不足など詰まった時の対処

最後に、つまずいたときの対処をまとめます。代表的なトラブルは原因がだいたい決まっているので、上から順に確認すれば解決しやすいです。

  • 画面が真っ黒のまま、何も映らない:まず CLIP の type が Lumina 2 になっているか、ModelSamplingAuraFlow がワークフローに含まれているかを確認します。それでも改善しないときは、BF16 版を FP8 版に切り替えると直ることがあります。BF16 は環境によって真っ黒になりやすく、FP8 のほうが安定するためです。
  • メモリ不足(out of memory)で止まる:VRAMが足りていません。前章を参考に FP8 版や GGUF 版へ切り替え、画像サイズを1024×1024より大きくしないようにします。同時に開いている他のアプリを閉じるのも有効です。
  • ノードが赤くなる・見つからない:ComfyUI のバージョンが原因のことが多いです。最新版に更新して再起動してください。GGUF を使う場合は、対応ノードの追加も忘れずに行います。
  • 更新したら動きが変わった:ComfyUI はバージョンによって挙動が変わることがあります。安定して動いていたバージョンを覚えておくと、切り分けが楽になります。

トラブルの多くは、設定の確認とモデル版の切り替えで解決できます。落ち着いて1つずつ試してみてください。

よくある質問(FAQ)

Q
Z-Image-Turbo は無料で使えますか?商用利用は可能ですか?
A

はい。Z-Image-Turbo は Apache 2.0 ライセンスで公開されており、無料で利用でき、商用利用も認められています。モデル自体の料金はかからないので、ローカルで動かすぶんには追加費用なしで使えます。

Q
RTX 3060(6GB)でも動きますか?どのモデル版を選べばいいですか?
A

動きます。標準の BF16 版は16GBクラス向けですが、6GBなら GGUF の Q4_K_M、8GBなら FP8 や GGUF の Q8_0 を選べば現実的に動かせます。拡散モデルのファイルを置き換えるだけなので、まずは軽い版から試してください。

Q
生成した画像が真っ黒になります。どうすればいいですか?
A

まず CLIP の type が Lumina 2 か、ModelSamplingAuraFlow が含まれているかを確認します。それでも直らない場合は、BF16 版を FP8 版に切り替えると改善することが多いです。BF16 は環境により真っ黒になりやすい傾向があります。

Q
ステップ数やCFGはいくつにすればいいですか?
A

steps は8、cfg は1.0 が基本です。Z-Image-Turbo は8ステップで生成できるよう蒸留されており、ガイダンス(cfg)も内部に取り込んでいるため、cfg を上げる必要はありません。むしろ上げると崩れやすくなります。

Q
既存の Stable Diffusion / Flux のモデルと同じ設定で使えますか?
A

同じ設定では使えません。Z-Image-Turbo は CLIP の type を Lumina 2 にし、ModelSamplingAuraFlow を組み合わせる専用構成が必要です。VAE は Flux 系と共通ですが、テキストエンコーダやサンプリングの設定は Z-Image-Turbo 用に分けて用意してください。

まとめ:Z-Image-Turboをローカルで使いこなすために

Z-Image-Turbo を ComfyUI に導入し、最初の1枚を出すまでの流れを振り返ります。一度通してしまえば、あとはプロンプトを変えるだけで何枚でも高速に生成できます。

つまずかないための勘所は次の3点です。

  • 3つのファイルを正しいフォルダに置く:拡散モデル・qwen_3_4b・VAE を、それぞれ diffusion_models / text_encoders / vae に配置する。
  • CLIP の type を Lumina 2 にする:ここが最大のハマりどころ。ModelSamplingAuraFlow とセットで使う。
  • KSampler は steps=8・cfg=1.0:Turbo 専用の推奨値。低VRAMなら FP8 や GGUF に切り替える。

まずは公式サンプルのワークフローを読み込み、この記事の表のとおりに設定して、短いプロンプトで1枚生成してみてください。うまくいったら、サイズやプロンプトを少しずつ変えて自分の用途に合わせていくのがおすすめです。Z-Image そのものの特徴や料金をあらためて知りたいときは、概要記事も合わせて確認すると理解が深まります。ComfyUI やモデルは更新が続く分野なので、動かなくなったときは本記事のトラブル対処を起点に、最新版へ追従していきましょう。

実際に稼いでいる人の画像生成AIのスキルと収益化方法を知っていますか?

romptn ai が開催する完全無料のAIクリエイターセミナーでは、現場で活躍するプロから下記のような内容を学べます。

  • ゼロから画像生成AIで収益化を達成するための具体的なロードマップ
  • 実績のある講師が実践する初心者を脱出するための必須スキルと最新ツール
  • Nano Banana や Grokなどスマホからでもできる本格的な画像生成AI活用方法
  • 広告画像や映像など実際の制作過程をイメージするための講師によるライブデモ

2時間のオンラインセミナーで、ただ画像生成AIや動画生成AIの上級スキルや最新ツールを知るだけでなく、実際に収益化を達成する一歩を踏み出すための必須知識を学ぶことができます。

沖
講師 沖@画像生成
画像生成クリエイター Xフォロワー 5.5万人 romptn ai 監修者
  • 大手企業6社と契約実績(TOYOTA, mercari, 伊藤園 等)
  • AI映画制作3本、WORLD AI FILM FESTIVAL 2026 in KYOTO にて2冠達成
  • Best AI Anime 受賞
  • Japan Best AI Film(グランプリ)受賞(応募431作品中)
  • 経歴:元WEBデザイナー・マーケター → 2023年に生成AIと出会い転身 → プロのAIクリエイターへ
受付中 完全無料 先着限定 オンライン

本物のプロとハンズオン形式で学ぶ2026年版画像生成AI最前線セミナー

セミナー内容詳細をみる 今すぐ予約する方もこちら
画像生成AIのプロから無料で学べる! クリエイターセミナーの詳細をみる