VideoX-Fun を入れないと Z-Image で ControlNet は使えませんか？

いいえ、執筆時点では VideoX-Fun を別途入れなくても、ComfyUI 標準の機能だけで Z-Image の ControlNet を動かせます。リリース直後は開発元の VideoX-Fun リポジトリ経由が必要でしたが、その後 ComfyUI 側が公式に対応し、専用の workflow テンプレートも配布されています。ネット上には古い前提の解説も残っているため、まずは ComfyUI 本体を最新に更新し、公式テンプレートを起点に進めるのが確実です。

ControlNet 本体は通常の controlnet フォルダに置いてはいけないのですか？

Z-Image の ControlNet 本体は、SD や FLUX で使う controlnet フォルダではなく、model patch 用のフォルダに置きます。ここが SD/FLUX の勘とずれるポイントで、いつもの場所に入れるとノードが赤枠(missing)になって読み込めません。置き場所の詳細は前半の『必要なモデルファイルと置き場所』の章でまとめているので、迷ったらそちらを確認してください。

pose・canny・depth で control の強度の目安は変えるべきですか？

基本は同じ目安レンジから始めて、結果を見て少しずつ振るのが基本です。条件ごとに効き方がどれだけ違うかは公式に数値化されておらず、断定はできません。実際には pose は姿勢、canny は輪郭、depth は奥行きと、効く対象が違うため体感差は出ます。推奨レンジと具体的な振り方は『効き具合の調整と設定の目安』の章に表でまとめているので、そこを基準に微調整してください。

ポーズ・線画・depth 以外の条件(HED や MLSD など)も同じモデルで使えますか？

はい、今回使う ControlNet は複数条件をまとめて扱える Union 型なので、1 つのモデルで pose・canny・depth 以外の条件にも対応できます。 HED や MLSD などを使う場合も、誘導画像を作るプリプロセッサを差し替えるだけで、接続の考え方は pose や canny と同じです。条件ごとにモデルを入れ替える必要はないため、まず 3 条件で流れを掴んでから応用すると迷いません。

SD や FLUX の ControlNet 手順をそのまま流用しても大丈夫ですか？

考え方の大枠は流用できますが、そのままコピーすると詰まる箇所がいくつかあります。具体的には、ControlNet 本体の置き場所が違う点と、Z-Image Turbo が低 step 前提で動く点の 2 つです。SD/FLUX 向けの重いステップ設定をそのまま持ち込む必要はありません。この 2 点だけ Z-Image 用に読み替えれば、ふだんの ControlNet の感覚を活かして進められます。

Z-ImageでControlNetを使う方法！ポーズ・線画・depth誘導の実践ガイド

SD や FLUX で ControlNet を使い慣れていても、Z-Image だけは勝手が違って手が止まる――そんな経験はないでしょうか。ネット上には「ComfyUI 単体では動かず専用リポジトリが要る」という古い解説と「標準で対応済み」という新しい解説が混在し、いまどれが正しいやり方なのかを自分で見分けにくくなっています。

この記事を読めば、現行の正規ルートだけをなぞって、手元の ComfyUI でポーズ固定・線画・depth 誘導を再現できるようになります。つまずきやすいのは ControlNet 本体の置き場所と効き具合の調整くらいで、そこさえ押さえれば SD/FLUX で培った勘はそのまま活きます。

モデルファイルの配置から公式ワークフローの読み込み、3 条件の使い分け、効き具合の詰め方、赤枠が出たときの復旧まで、迷わず手を動かせる順番で通して扱います。

内容をまとめると…

Z-Image の ControlNet は追加リポジトリなしの ComfyUI 標準ルートが現行の正解
ControlNet 本体は通常の controlnet フォルダではなく model patch 扱いの場所に置く
pose・線画・depth は誘導画像を切り替えるだけで、読み込む ControlNet 本体は共通
効きすぎ・効かなすぎは control の強度パラメータを上げ下げして詰める
Z-Image Turbo は低ステップ前提なので、SD/FLUX の重い手順をそのまま持ち込まなくてよい

プロンプト・導入・制作フローをまとめて学びたい方向けに、AI制作に役立つ無料資料を用意しています。

画像生成だけでなく、AIに作業を任せるためのエージェント活用資料もあわせて受け取れます。

クリエイター向け資料を受け取る

Z-ImageのControlNetで何ができるか
今の正規ルートはComfyUI標準対応
必要なモデルファイルと置き場所
公式workflowの読み込みと接続
pose・線画・depthの使い分け
効き具合の調整と設定の目安
よくある詰まりと復旧手順
よくある質問
Z-Image ControlNetのまとめ

Z-ImageのControlNetで何ができるか

まずは、Z-Image で ControlNet を使うと具体的に何ができるのかを押さえておきましょう。

やれることは、SD や FLUX で慣れ親しんだ ControlNet とほぼ同じです。参照画像から人物の姿勢を取り出してポーズを固定したり、線画をなぞらせて形を保ったり、depth(奥行き)マップで前後の立体構成を指定したりできます。この記事では、この 3 つを ComfyUI で再現する手順を一通り扱います。

対象として想定しているのは、SD や FLUX で ControlNet を一度でも触ったことがある方です。ノードをつなぐ感覚や、誘導画像を用意する流れはそのまま活きるので、まったくのゼロからやり直す必要はありません。

ひとつだけ意識しておきたいのが、Z-Image Turbo が「少ないステップ数で一気に仕上げる」蒸留タイプのモデルだという点です。ここで気になるのが、低ステップのまま ControlNet を併用しても、SD や FLUX と同じ感覚で手が動くのか、という不安だと思います。

結論としては、低ステップ前提のまま ControlNet を重ねても問題なく動きます。重い設定をそのまま持ち込む必要はなく、むしろ軽快に試せます。配置の細かい違いや効き具合の調整値は、後ほどの『必要なモデルファイルと置き場所』と『効き具合の調整と設定の目安』の章で具体的に確認していきましょう。

今の正規ルートはComfyUI標準対応

Z-ImageでControlNetを動かすとき、多くの人が最初につまずくのが「どのやり方が正しいのか分からない」という入口の問題です。ここではまず、いま手元のComfyUIで進めるべきルートを確定させます。

公開された当初は、ComfyUI単体ではControlNetを扱えず、開発元の専用リポジトリ(VideoX-Fun)を組み込まないと動かせませんでした。初期の解説の多くは、この外部リポジトリ前提で書かれています。

執筆時点では状況が変わり、ComfyUI本体がZ-Image向けのControlNetに標準で対応しています。公式のワークフローテンプレートも用意され、追加リポジトリなしで素のComfyUIから進められます。

そのためネット上には、古い「VideoX-Fun経由でしか動かない」という前提と、新しい「標準で対応済み」という前提が混在しています。検索で見つけた手順がどちらの時期のものかで、必要な作業はまるごと変わってしまいます。

迷ったら、追加リポジトリのことは気にせず、ComfyUIを最新にして公式ワークフローから入る、とだけ覚えておけば十分です。本記事もこの標準対応のルートで進めます。どのファイルをどこへ置くかは、次の章から順に見ていきます。

必要なモデルファイルと置き場所

正規ルートが固まったら、次はファイルの準備です。ここさえ正しく置いておけば、後の公式workflowは赤枠(missing)を出さずにそのまま読み込めます。

用意するのは、Z-Image Turbo 本体側の3ファイルと、ControlNet 本体の合計4つです。執筆時点では公式workflowが想定している置き場所は、次のとおりです。

ファイルの役割	ファイル名	置き場所
text encoder	qwen_3_4b.safetensors	models/text_encoders/
diffusion model	z_image_turbo_bf16.safetensors	models/diffusion_models/
VAE	ae.safetensors	models/vae/
ControlNet 本体	Z-Image-Turbo-Fun-Controlnet-Union.safetensors	models/model_patches/

つまずきやすいのは4つ目の ControlNet 本体です。SD/FLUX なら ControlNet は controlnet フォルダに入れる、という勘が働きますが、Z-Image ではそこに置いても読み込まれません。

執筆時点では ControlNet 本体は models/model_patches/ に置く前提になっています。ここを取り違えるとノードが赤枠になり、原因の切り分けで時間を取られがちです。

ファイル名・配置先は、ComfyUI やテンプレートの更新で変わることがあります。読み込めないときは、公式の配布元とテンプレートの最新の指定をあわせて確認してください。

公式workflowの読み込みと接続

ファイルの置き場所が決まったら、次はそれらを呼び出す公式 workflow を読み込み、ノードの繋がりを確認します。

公式チュートリアルには Z-Image Turbo 用の ControlNet テンプレートが用意されています。読み込む前に ComfyUI 本体を最新へ更新しておくと、テンプレートが使うノードが一通り揃い、読み込み直後の取りこぼしを減らせます。更新しても一部ノードが読み込めないときの直し方は、後ほどの『よくある詰まりと復旧手順』の章で扱います。

テンプレートを開くと、ControlNet 本体を読み込むノードと、それを生成に適用するノードが組み込まれています。執筆時点では、公式テンプレートでは ControlNet を読み込むノードと「Apply ControlNet」系の適用ノードが置かれ、誘導画像をエンコードしてサンプリングへ渡す流れになっています。

つながりとしては、前処理した誘導画像が ControlNet の適用ノードへ入り、その出力が条件としてサンプラーへ渡ります。SD / FLUX で見慣れた「画像 → ControlNet → サンプリング」の経路と対応しているため、勘所はそのまま使えます。

まずは効きの強さを既定値のまま、素の状態で 1 枚生成し、エラーなく絵が出ることを確認してください。効き具合を変える数値は、後ほどの『効き具合の調整と設定の目安』の章でまとめて扱います。ここで生成が通れば、誘導条件を切り替えていく土台が整います。

pose・線画・depthの使い分け

ここからは、用意したControlNetで実際にどの条件を選べばいいかを整理します。Z-Imageで最初に使うことが多いのはpose・canny(線画)・depthの3つで、それぞれ参照画像から拾う情報が違います。

3つの違いは、参照画像の「何を引き継ぐか」で見分けると迷いません。poseは人物の姿勢、cannyは輪郭線、depthは奥行きという空間構造を引き継ぎます。

条件	引き継ぐもの	向いている場面
pose	人物の姿勢・骨格	立ち方や手足の向きを参照どおりに固定したいとき
canny(線画)	輪郭線	元の形やレイアウトを線でなぞって再現したいとき
depth	奥行き(前後関係)	立体的な空間構成を保ったまま絵柄だけ変えたいとき

どれを選んでも読み込むControlNet本体は共通です。執筆時点では配布されているのが複数条件をまとめて受け持つunion型のため、pose用・canny用とファイルを入れ替える必要はなく、流し込む誘導画像を切り替えるだけで条件を変えられます。

なお同じ枠組みで、HED(やわらかい輪郭)・MLSD(直線)・Gray(白黒からの着色)といった条件も扱えます。まずは使用頻度の高い3つを次の章から順番に見ていき、他の条件はその応用として捉えてください。

①ポーズで人物の姿勢を固定

人物の姿勢を参照画像どおりに揃えたいときは、元画像から骨格(ポーズ)を推定した誘導画像を作り、それを control の入力としてワークフローに読み込ませます。SD や FLUX の openpose と同じ発想で、棒人間(スティックフィギュア)状の骨格マップを用意してから流し込む流れです。

骨格マップは、ポーズ推定のプリプロセッサに元画像を通して書き出します。全身を入れたいなら、元画像の段階で頭から足先までフレームに収めておくと、手足が途中で切れた骨格になりにくく、姿勢が安定して反映されます。

姿勢が思うように乗らないときは、まず誘導画像そのものを確認します。骨格が左右反転していないか、向き(正面・横向き)が意図どおりか、手指の関節まで拾えているかを見ると、原因の切り分けが早くなります。

それでも効きが弱い・強すぎる場合は、control の効きを上げ下げして調整します。具体的な目安レンジは、後ほどの『効き具合の調整と設定の目安』の章にまとめた設定表を参照してください。

②線画(canny)で輪郭をなぞる

canny は、元画像やラフから輪郭線(エッジ)を抽出し、その線に沿って構図や形状をなぞらせる条件です。人物の姿勢ではなく、オブジェクトの形・配置・全体の構図を保ったまま絵柄だけを変えたいときに向きます。公式の workflow テンプレートでも、この線画が入力例として扱われています。

手順は SD / FLUX の canny とほぼ同じ感覚です。元画像にエッジ抽出をかけて線画を作り、それを誘導画像として読み込ませます。手元に線画があれば、抽出をかけずそのまま流し込んでも構いません。

仕上がりの鍵は、どこまで細かい線を拾うかです。線を細く・しきい値を高めにすると主要な輪郭だけが残り、絵柄を生成側に任せる余地が広がります。逆に線を多く拾うほど、元画像のディテールまで強く固定されます。ラフの清書のように形をきっちり守りたいときは線を多めに、構図だけ借りたいときは線を絞ると考えると調整しやすくなります。

なお、似た線ベースの条件に HED があります。canny がくっきりした輪郭線を出すのに対し、HED は柔らかい線になるため、手描き風のラフをなじませたいときの選択肢になります。

③depthで奥行きを指定

depth は、被写体と背景の前後関係や奥行きを誘導画像として渡す指定方法です。元画像の立体的な配置を残したまま、質感や色味だけを大きく描き直したいときに役立ちます。

誘導画像には depth マップ（深度マップ）を使います。近いところほど明るく、遠いところほど暗いグレースケールで、被写体と背景の距離関係を濃淡で表したものです。元画像を depth 用のプリプロセッサに通せば自動で得られます。

うまく前後が分離しているかは、被写体と背景の境目で濃淡がはっきり切り替わっているかで見ます。手前の被写体が背景と同じ明るさに沈んでいると、奥行きが伝わらず平面的な仕上がりになりやすいです。

3 つの誘導の向き先は次のように分かれます。

ポーズ：人物の姿勢そのものを合わせたいとき
線画（canny）：輪郭の形や位置を細かくなぞらせたいとき
depth：空間の前後関係や奥行きだけを踏襲し、輪郭や絵柄は自由に変えたいとき

線をなぞらせる線画と違い、depth は手前と奥の関係を保つことに向いています。元の構成は活かしつつ、ディテールは作り直したい場面で選ぶと噛み合います。

効き具合の振り方は 3 条件で共通なので、強さの目安は後ほどの『効き具合の調整と設定の目安』の章でまとめて扱います。

効き具合の調整と設定の目安

pose・線画・depth を入れて生成できる状態になったので、ここからは「誘導が強すぎる/弱すぎる」を自分で詰めていきます。

効き具合をいちばん大きく動かすのは、ControlNet の適用ノードにある control_context_scale という値です。執筆時点では、次のレンジから始めると扱いやすいです。

項目	執筆時点での目安	メモ
control_context_scale	0.65〜0.80 から開始	上げるほど元画像に忠実、下げるほどプロンプトの自由度が上がる
ステップ数 / NFEs	8 NFEs 前後（低ステップ）	Z-Image Turbo は蒸留モデルで、少ない回数で生成が回る前提
入力画像の長辺	1328 px を意識	学習解像度に寄せると誘導画像とのズレが出にくい
VRAM の目安	16GB 級で動作	consumer GPU でも ControlNet 併用を回せる想定

まず control_context_scale を 0.7 付近に置き、同じ参照画像とシードで生成して反映度合いを確かめます。

元画像に張り付いてプロンプトの指示が通らないと感じたら、scale を 0.05 ずつ下げます。逆にポーズや線の反映が弱く参照を無視されるなら、0.05 ずつ上げて様子を見ます。

pose・線画・depth で最適値が同じとは限らないので、条件を変えたら値も振り直すのが安全です。執筆時点ではこの差は数値として確定していないため、固定値を覚えるより上げ下げで詰める運用が向いています。

なお、画像の一部だけを描き替える inpainting 向けのモードも用意されています。部分修正をしたいときはそちらに切り替える選択肢がある、と覚えておくと迷いにくくなります。

よくある詰まりと復旧手順

ここまでの手順どおりに進めても、再現の途中で手が止まることはあります。この章では、つまずきやすい代表的な2つのパターンと、迷ったときの確認順をまず押さえておきましょう。

詰まりの多くは、次の2系統のどちらかに収まります。ひとつはノードが赤枠(読み込めない状態)になって動かないケース、もうひとつはVRAMやステップ数まわりで生成が重い・落ちるケースです。

どちらの場合も、確認は同じ順番でたどると切り分けが速くなります。

ComfyUIを最新に更新する
不足しているノードがないか確認する
モデルファイルの置き場所を見直す
効き具合などの設定値を見直す

更新と配置を先に確かめるのは、症状の多くが「本体やノードが古い」「ファイルが正しい場所にない」のどちらかに起因するためです。配置の詳細は「必要なモデルファイルと置き場所」、設定値は「効き具合の調整と設定の目安」の章に戻ると確認できます。

具体的な対処は、この後の「赤枠ノードの直し方」と「VRAMと低stepでの注意点」の2つで個別に見ていきます。

①赤枠ノードの直し方

workflow を開いたときにノードが赤枠で表示されるのは、そのノードを ComfyUI が見つけられていない状態です。原因の多くは本体やノードのバージョンが追いついていないことなので、まずは更新から試します。

最初に ComfyUI 本体を最新へ更新し、再起動します。Z-Image の ControlNet は執筆時点では本体側で標準対応しているため、多くの場合はこの更新だけで赤枠が解消します。

それでも赤枠が残るときは、不足分を補います。執筆時点では ComfyUI Manager に「Install Missing Custom Nodes」という項目があり、足りないノードを一覧から選んでまとめて導入できます。導入後に再起動すれば、不足が原因の赤枠は消えます。

ここまでで直らない場合は、未導入ではなく入れ忘れやバージョン不一致を疑います。対象のカスタムノードを個別に入れ直し、本体とノードの双方を最新に揃え直すと、ズレが原因の赤枠も解消しやすくなります。

②VRAMと低stepでの注意点

Z-Image Turbo は蒸留によって軽量化されたモデルで、執筆時点では一般的なミドルレンジの GPU でも生成が回る設計です。SD や FLUX の ControlNet で「重くて待たされる」記憶があっても、ここではその前提をそのまま引きずる必要はありません。

ただし ControlNet を足すと、誘導用のモデルとデータが乗る分だけ必要メモリは増えます。生成が途中で止まる、いわゆる out of memory が出るときは、次のどれかから試すと切り分けが速いです。

生成する画像の解像度を一段下げる
一度に作る枚数(バッチ)を 1 枚に減らす
より軽い側のモデルファイルに差し替える

もう一つ、Turbo は少ないステップ数で仕上がるよう作られている点に注意してください。SD/FLUX の感覚でステップを盛ると、かえって絵が破綻したり無駄に時間がかかったりします。

ControlNet を併用するときも、まずは少ないステップのまま、誘導の強さの側で効き具合を調整するのが基本です。具体的な目安の数値は、先ほどの『効き具合の調整と設定の目安』の章で示しています。

よくある質問

Q VideoX-Fun を入れないと Z-Image で ControlNet は使えませんか？: A
いいえ、執筆時点では VideoX-Fun を別途入れなくても、ComfyUI 標準の機能だけで Z-Image の ControlNet を動かせます。
リリース直後は開発元の VideoX-Fun リポジトリ経由が必要でしたが、その後 ComfyUI 側が公式に対応し、専用の workflow テンプレートも配布されています。
ネット上には古い前提の解説も残っているため、まずは ComfyUI 本体を最新に更新し、公式テンプレートを起点に進めるのが確実です。

Q ControlNet 本体は通常の controlnet フォルダに置いてはいけないのですか？: A
Z-Image の ControlNet 本体は、SD や FLUX で使う controlnet フォルダではなく、model patch 用のフォルダに置きます。
ここが SD/FLUX の勘とずれるポイントで、いつもの場所に入れるとノードが赤枠(missing)になって読み込めません。
置き場所の詳細は前半の『必要なモデルファイルと置き場所』の章でまとめているので、迷ったらそちらを確認してください。

Q pose・canny・depth で control の強度の目安は変えるべきですか？: A
基本は同じ目安レンジから始めて、結果を見て少しずつ振るのが基本です。
条件ごとに効き方がどれだけ違うかは公式に数値化されておらず、断定はできません。実際には pose は姿勢、canny は輪郭、depth は奥行きと、効く対象が違うため体感差は出ます。
推奨レンジと具体的な振り方は『効き具合の調整と設定の目安』の章に表でまとめているので、そこを基準に微調整してください。

Q ポーズ・線画・depth 以外の条件(HED や MLSD など)も同じモデルで使えますか？: A
はい、今回使う ControlNet は複数条件をまとめて扱える Union 型なので、1 つのモデルで pose・canny・depth 以外の条件にも対応できます。
HED や MLSD などを使う場合も、誘導画像を作るプリプロセッサを差し替えるだけで、接続の考え方は pose や canny と同じです。
条件ごとにモデルを入れ替える必要はないため、まず 3 条件で流れを掴んでから応用すると迷いません。

Q SD や FLUX の ControlNet 手順をそのまま流用しても大丈夫ですか？: A
考え方の大枠は流用できますが、そのままコピーすると詰まる箇所がいくつかあります。
具体的には、ControlNet 本体の置き場所が違う点と、Z-Image Turbo が低 step 前提で動く点の 2 つです。SD/FLUX 向けの重いステップ設定をそのまま持ち込む必要はありません。
この 2 点だけ Z-Image 用に読み替えれば、ふだんの ControlNet の感覚を活かして進められます。