Z-Image Turbo/Base/Editの違いと選び方

Z-Image Turbo/Base/Editの違いと選び方のアイキャッチ画像 画像生成AI

Z-Image を使おうとして、Z-Image-TurboZ-Image(通称 Base)・Z-Image-Edit と名前が並び、「結局どれを落とせばいいの?」と手が止まっていませんか。実はこの3つは、目的がはっきり分かれています。この記事では、Turbo・Base・Edit それぞれの役割を整理し、速度・品質・編集というあなたの目的から逆引きで1つに選べるように、比較表と選び方までまとめて解説します。読み終えるころには、自信を持って最初の1本を選べるはずです。

内容をまとめると…

  • Turbo・Base・Edit は「速度」「品質と学習の土台」「指示編集」で役割が分かれる

  • 推奨ステップ数・CFG・想定VRAM・公開状況は比較表で一目で把握できる

  • 目的から逆引きすれば、迷わず1つのチェックポイントに選べる

  • 入手は HuggingFace と ComfyUI、Edit の現況はコレクションで確認できる

プロンプト・導入・制作フローをまとめて学びたい方向けに、AI制作に役立つ無料資料を用意しています。

画像生成だけでなく、AIに作業を任せるためのエージェント活用資料もあわせて受け取れます。

監修者_SD以外
監修者プロフィール
森下浩志
日本最大級のAI情報プラットフォーム「romptn ai」編集長。著書に「0からはじめるStable Diffusion」「0からはじめるStable Diffusion モデル・拡張機能集編」など、AmazonベストセラーのAI関連書籍を多数執筆。AIにおける情報の非対称性を解消するための社内研修や出張講義も行う。

Z-Imageとは?モデルが複数ある理由

Z-Image(ゼットイメージ)は、Alibaba の Tongyi Lab が公開している画像生成モデルです。約60億パラメータの単一ストリーム型 DiT(Scalable Single-Stream DiT)というアーキテクチャを採用し、英語と日本語を含む文字をきれいに描けるバイリンガル文字描画と、写実的な表現に強みがあります。ライセンスは商用利用もしやすい Apache-2.0 です。

戸惑いやすいのは、Z-Image が「1つのモデル」ではなく、目的の違う複数のチェックポイントに分かれている点です。HuggingFace や ComfyUI では Z-Image-TurboZ-Image(通称 Base)・Z-Image-Edit といった名前が並び、どれを選べばよいか迷いがちです。

この分かれ方はシンプルで、「速さ」のTurbo・「品質と学習の土台」のBase・「指示で編集」のEdit という役割分担になっています。次章から、それぞれの中身と選び方を順に整理していきます。

3つのバリアントの役割

3つのバリアントの役割の要点をまとめた図解
3つのバリアントの役割の要点

Z-Image のチェックポイントは、ざっくり3つの役割で覚えると混乱しません。

  • Turbo:生成を高速化した蒸留版。少ない計算で素早く1枚を出したいとき向け。
  • Base(foundation):速度より品質と汎用性を優先した非蒸留版。追加学習(LoRA など)の土台にも使われます。
  • Edit:文章の指示で既存画像を編集する派生版(執筆時点では未公開)。

つまり「まず試す・量産する」なら Turbo、「画質を詰める・自分用に育てる」なら Base、「すでにある画像を直す」なら Edit、という住み分けです。

なお、今すぐダウンロードして使えるのは Turbo と Base の2つです。Edit は公式のモデル一覧(Model Zoo)に編集用として挙がっているものの、Turbo・Base の公開からかなり経った執筆時点でもまだ一般公開されていません。次の3つの小見出しで、各チェックポイントをもう少し具体的に見ていきます。

① Turbo:速度重視の蒸留版

Turbo は、生成を高速化するために「蒸留」という手法でチューニングされたチェックポイントです。通常のモデルより大幅に少ないステップ数で1枚を生成でき、ガイダンス(CFG)もオフ前提で動くため、待ち時間が短いのが最大の魅力です。

ハイエンド GPU ではほぼ待たされずに生成でき、必要なメモリも抑えめなので、コンシューマ向けの 16GB クラス GPU でも動かしやすいのが実用上のポイントです。推奨ステップ数や必要メモリの目安は、このあとの一覧で具体的に確認できます。

その代わり、蒸留版は画づくりの「伸びしろ」をやや絞っているため、最高画質や細かな作り込み、追加学習の土台にはあまり向きません。まず Z-Image を触ってみたい人や、枚数を多く出したい人の最初の1本として最適です。迷ったらここから始めるのがおすすめです。

② Base:品質と学習の非蒸留版

Base は、蒸留していない「素」のチェックポイントです。HuggingFace 上の正式なリポジトリ名は単に Z-Image ですが、ComfyUI やコミュニティでは Turbo と区別するため通称「Base」と呼ばれています。

性格は Turbo と正反対です。生成に踏むステップ数は多く時間もかかりますが、その分だけ描き込みの密度や表現の幅が広がり、ネガティブプロンプトの指定もよく効きます。さらに非蒸留ゆえに追加学習(LoRA やファインチューニング)の土台に向くため、自分用のスタイルやモデルを育てたい人に適しています。

なお公式には、生成と編集の両方を想定したさらに素に近い系統として「Omni-Base」も予告されています。少しややこしいですが、本記事でいう Base は「いま使える非蒸留の foundation(=Z-Image)」を指すと考えてください。

③ Edit:指示で編集する派生版

Edit は、自然な文章の指示で既存の画像を編集する image-to-image 系の派生チェックポイントです。「背景を夜にして」「この服を赤に」といった言葉ベースの指定で、狙った部分を書き換えられることを目指したモデルです。

ただし注意したいのは提供状況です。Edit は公式のモデル一覧(Model Zoo)に編集用チェックポイントとして挙がっているものの、本記事の執筆時点では一般公開されていません。Turbo・Base が公開されてからかなりの時間が経っても Edit だけは降りてきておらず、公式も具体的な公開時期を示していないため、「近いうちに使える」と当てにせず未公開のものとして扱うのが安全です。最新の状況は HuggingFace の Z-Image コレクションで確認できます。

いますぐ画像編集をしたい場合は、Edit の公開を待つより、指示ベースの編集に対応した別モデル(Qwen-Image-Edit や FLUX.1 Kontext など)を使うのが現実的です。Z-Image で生成した画像も、これらに渡せば言葉の指示で編集できます。Edit がいずれ公開されれば、Z-Image 単体で生成から編集まで完結しやすくなります。

スペック比較表で違いを把握

3つの違いは、表で並べると一目で掴めます。迷ったときは、まずこの表を基準にしてください(数値は目安で、設定や提供状況によって変わります)。

項目TurboBase(foundation)Edit
位置づけ高速な蒸留版非蒸留の土台指示で編集する派生
蒸留ありなしなし(編集特化)
推奨ステップ約8〜9ステップと少なめ28〜50ステップと多め多め(編集向け)
ガイダンス(CFG)オフ前提(0)3〜5程度あり
速度感非常に速いゆっくり編集処理ベース
想定VRAM16GBクラスでも動かしやすい余裕があるほど安心同程度の想定
向く用途量産・お試し高画質・追加学習既存画像の編集
公開状況公開済み公開済み未公開(時期未定)

表のとおり、速さの Turbo・品質と学習の Base・編集の Edit という軸で性格がはっきり分かれます。次は、この違いを「自分の目的」から逆引きして選ぶ方法を見ていきます。

目的別:どのモデルを選ぶか

どれを選ぶか迷ったら、「何をしたいか」から逆引きするのが早道です。次の基準で1つに絞れます。

  • とにかく速く・手軽に・少ないVRAMで出したいTurbo。最初の1本として最適で、枚数を多く試す用途にも向きます。
  • 画質を最大限に詰めたい/自分用に LoRA などで育てたいBase。時間はかかりますが、描き込みと学習の土台としての強さが効きます。
  • すでにある画像を、言葉の指示で編集したい → 本来は Edit ですが執筆時点では未公開のため、いまは Qwen-Image-Edit や FLUX.1 Kontext など指示編集対応の別モデルで代用します。

実務では「普段は Turbo で素早く当たりを作り、ここぞの仕上げや学習用途だけ Base を使う」という二刀流が扱いやすい組み合わせです。まず Turbo を入れて感触を掴み、必要になったら Base を足す、という順番で十分です。

入手・導入方法とEditの現況

入手・導入方法とEditの現況の手順をまとめた図解
入手・導入方法とEditの現況の手順

入手先は大きく2つです。1つは HuggingFace の Tongyi-MAI のページで、Turbo と Base(Z-Image)のチェックポイントが配布されています。シリーズ全体の公開状況は「Z-Image」コレクションのページを見ると、どれが公開済みでどれが予定かを一覧で確認できます。

もう1つは ComfyUI です。Z-Image は ComfyUI 側が公開と同時に公式ワークフローを用意しており、ノードを組まなくてもテンプレートから動かし始められます。ローカルで画像生成を回している人は、こちらが導入しやすいでしょう。

Edit の現況については、上記の HuggingFace コレクションが一次情報になります。執筆時点ではまだ公開されていないため、「使えるようになったか」を知りたいときは、まずそこをチェックするのが確実です。導入で迷ったら、まず Turbo をダウンロードして ComfyUI のテンプレートで1枚出してみるのが、最短の入口になります。

よくある質問

Q
Z-Image-Edit は今すぐ使えますか?どこで公開状況を確認できますか?
A

執筆時点では、まだ一般公開されていません。公式のモデル一覧には編集用として挙がっていますが、Turbo・Base の公開から時間が経っても Edit は降りてきておらず、具体的な公開時期も示されていません。最新の状況は HuggingFace の Tongyi-MAI「Z-Image」コレクションのページで確認できます。編集をすぐ行いたい場合は、Edit を待つより Qwen-Image-Edit や FLUX.1 Kontext など指示編集に対応した別モデルを使うのが現実的です。

Q
とりあえず Turbo だけ入れておけば十分ですか?
A

多くの人はまず Turbo で十分です。少ないステップで速く生成でき、必要メモリも抑えめなので、お試しや量産に向きます。一方で、画質を最大限に詰めたい、あるいは LoRA などで自分用に学習させたい場合は、非蒸留の Base が必要になります。普段は Turbo、ここぞの場面だけ Base、という使い分けがおすすめです。

Q
通称 Base(foundation)と公式の Omni-Base は何が違うのですか?
A

本記事の Base は、いま使える非蒸留の foundation チェックポイント(HuggingFace 上の名称は Z-Image)を指します。Omni-Base は、生成と編集の両方を想定したさらに素に近い系統として公式が予告しているもので、別物です。まずは「Base=非蒸留の土台」と覚えておけば、実用上は混乱しません。

Q
自分の GPU(VRAM)でも Turbo / Base は動きますか?
A

Turbo はメモリ消費が比較的軽く、16GB クラスのコンシューマ GPU でも動かしやすい設計です。Base はステップ数が多く処理も重いため、VRAM に余裕があるほど安心して回せます。具体的な必要量は環境や設定で変わるため、まずは Turbo で試し、足りなければ設定を軽くする、という進め方が無難です。

まとめ

Z-Image は1つのモデルではなく、目的別のチェックポイント群です。迷ったら、次の3点だけ押さえれば選べます。

  • Turbo:速くて手軽な蒸留版。まず試す・量産するならこれ。
  • Base(foundation):非蒸留で高画質、LoRA などの学習の土台。仕上げや育成向け。
  • Edit:言葉の指示で画像を編集する派生版。執筆時点では未公開で、編集は別モデルで代用する。

基本は「普段は Turbo、画質と学習は Base、編集は当面ほかの編集対応モデル」という住み分けです(Edit は執筆時点では未公開)。ステップ数や CFG、必要 VRAM の目安は前半の一覧で確認できるので、設定に迷ったらそこへ戻れば大丈夫です。まずは Turbo を1本入れて、ComfyUI のテンプレートで生成を試すところから始めてみてください。

画像生成AIを使いこなすには、ツールの使い方だけでなく、プロンプト改善・環境導入・モデル選定・作業フローの理解が重要です。制作に役立つAI資料をまとめて受け取れます。

クリエイター向け資料を受け取る
10秒で受取完了 画像生成完全ガイド無料配布中 無料で受け取る