最低どれくらいのVRAMが必要ですか？

理想的には45GB以上ですが、軽量化されたバージョンであれば15～16GBのVRAMでも動作可能です。ただし、その場合は解像度やフレーム数などの調整が必要です。

モデルのダウンロードが途中で止まってしまいます。

モデルファイルが非常に大きい（最大25GB程度）ため、安定したインターネット接続が必要です。ダウンロードマネージャーを使用するか、公式のトレントリンクを利用すると良いでしょう。

LTXビデオとLeapFusionのどちらを使うべきですか？

安定性と品質を重視するならLeapFusionがおすすめです。LTXビデオは低フレームレートでの動作が不安定なことがあります。

【動画生成AI】Hunyuan Videoの使い方！ComfyUIで誰でも簡単生成

Q: Hunyuan Videoを実行しようとすると「CUDA out of memory」というエラーが出ます。どうすればいいですか？

VRAM不足が原因です。以下の対策を試してみてください。 UNETLoaderでWeight Typeをfp8に変更する 解像度を下げる（例：720p→540p） フレーム数を減らす（例：73フレーム→50フレーム） VAEDecodeTiledのTile SizeとOverlapを小さくする

最近話題のAI動画生成ツール「Hunyuan Video」をご存知でしょうか？Tencent（テンセント）が開発したオープンソースの動画生成AIで、テキストから高品質な動画を簡単に作成できるツールです。

「AIで動画を作りたいけど難しそう…」「高いスペックのPCが必要なんじゃ…」といった不安を持っている方も多いかもしれませんが、実はComfyUIと組み合わせることで、比較的低スペックのPCでも動画生成が可能になりました。しかも規制が少なく、他の動画生成AIでは難しいような指さしポーズやコスプレ動画なども作りやすいんです！

本記事では、Hunyuan Videoの特徴から始め、ComfyUIでの導入方法、実際の使い方、さらにはテキストだけでなく画像から動画を生成する方法（Image to Video）まで、初心者でもわかりやすく解説していきます。

今回の記事で分かること

Hunyuan Videoとは？
Hunyuan Videoの使い方
Hunyuan VideoのLoRA対応について
Hunyuan Videoの高速化方法

📖この記事のポイント

Hunyuan Videoはテンセントが開発した動画生成AI
Hunyuan VideoはComfyUIで使うのが主流で、i2v、t2vを利用できる
Hunyuan VideoではLoraも使用できる
SHIFT AIでは、他にも様々な動画生成AIを徹底解説！
SHIFT AIの無料セミナーならAIのプロから無料で収入に直結するAIスキル習得から仕事獲得法まで学べる！
今すぐ申し込めば、超有料級の12大特典も無料でもらえる！

\ 累計受講者10万人突破 /

無料AIセミナーを見てみる

Hunyuan Videoとは？
- Hunyuan Videoの動画生成方法は主に3種類
【準備編】Hunyuan VideoをComfyUIで使う方法
【実践編】Hunyuan VideoをComfyUIで使う方法
Hunyuan Videoでのプロンプトの書き方のコツ
Hunyuan VideoでImage to Video（画像から動画生成）を使う方法
- LeapFusionを使用する方法
- LTXビデオを使用する方法
Hunyuan VideoのLoRA対応について
【FastHunyuan】Hunyuan Videoの高速化方法
【FAQ】Hunyuan Videoに関するよくある質問
まとめ

Hunyuan Videoとは？

Hunyuan Videoは、テンセントが開発した130億以上のパラメータを持つ大規模な動画生成AIモデルです。テキストプロンプトから20秒程度の高品質な動画を生成できます。

このモデルの特徴は以下の点です。

オープンソースで無料：コードやモデルが無償公開されています
高品質な動画生成：クローズドモデル（有料サービス）に匹敵する品質
物理法則の遵守：自然な動きや重力など物理法則に基づいた動画生成
高画質出力：最大1104×832ピクセルの解像度で動画生成が可能
カスタマイズ性：LoRAなどで追加学習させて自分好みの動画生成も可能

従来の動画生成AIと比較すると、テキストエンコーダーにMultimodal Large Language Modelを採用しており、より高い画像テキスト整合性を持ち、ユーザーの指示を忠実に解釈する能力に優れています。

また、3D VAEという技術を用いて時空間的な映像情報をコンパクトな潜在表現に圧縮しているため、高い効率で動画生成が可能になっています。

Hunyuan Videoの動画生成方法は主に3種類

Hunyuan Videoを使った動画生成方法は主に以下の3種類があります！

公式より

テキストから動画を生成（Text to Video）
- テキストプロンプトのみで動画を生成する標準的な方法
画像から動画を生成（Image to Video）
- 画像を元に動きのある動画を生成する方法
- LeapFusionやLTXビデオなどの技術と組み合わせて使用
動画から動画を生成（Video to Video）
- 既存の動画を元に新しい動画を生成する方法

【準備編】Hunyuan VideoをComfyUIで使う方法

ComfyUIは画像生成AIを使いやすくするUIツールですが、最近Hunyuan Videoのネイティブサポートが追加され、簡単に動画生成ができるようになりました。

必要な環境と準備

必要なスペックは、以下の通りです。

推奨スペック：VRAM 45〜60GB
最低限の動作：VRAM 15〜16GB程度

スペックが足りない場合は、Google ColaboratoryやPaperspace、Mimic PCなどのクラウドサービスを利用するのがおすすめです。

用意するもの

ComfyUI（最新版）
Hunyuan Video関連モデル
ワークフローファイル

ComfyUIのインストールとアップデート

ComfyUIがまだインストールされていない場合や、アップデートが必要な場合は、以下の手順を参考にしてください。

ComfyUIの公式GitHubからインストール
最新版へのアップデート（EmptyHunyuanLatentVideoノードを使用するため）

詳しくは、下記記事で解説していますので参考にしてください！

必要なモデルファイルのダウンロード

Hunyuan Videoで動画生成を行うには、以下のモデルファイルをダウンロードし、指定のフォルダに配置する必要があります。

メインモデルファイル
- ファイル名：hunyuan_video_t2v_720p_bf16.safetensors
- サイズ：約25.6GB
- 配置場所：ComfyUI/models/diffusion_models

テキストエンコーダーファイル
- ファイル名：clip_l.safetensors（約246MB）
- ファイル名：llava_llama3_fp8_scaled.safetensors（約9.09GB）
- 配置場所：ComfyUI/models/text_encoders

VAEモデルファイル
- ファイル名：hunyuan_video_vae_bf16.safetensors
- サイズ：約493MB
- 配置場所：ComfyUI/models/vae

そして最後に、ワークフローファイルの導入をしましょう。

Hunyuan Video用のワークフローファイルをダウンロード
ComfyUIにドラッグ&ドロップして読み込む

かなりの容量が必要になりますのでご注意ください※

【実践編】Hunyuan VideoをComfyUIで使う方法

では、実際にComfyUIでHunyuan Videoを使った動画生成の手順を解説します。

①ワークフローの設定

ComfyUIにワークフローをロードしたら、以下のノードの設定を確認・変更します。

UNETLoader
- Model: hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type: default（VRAM不足の場合はfp8を選択）
DualCLIPLoader
- CLIP 1: clip_l.safetensors
- CLIP 2: llava_llama3_fp8_scaled.safetensors
- Text Encoder: hunyuan_video
VAELoader
- VAE Model: hunyuan_video_vae_bf16.safetensors

②動画生成のパラメータ設定

・EmptyHunyuanLatentVideo

Hunyuan Videoは以下の解像度設定をサポートしています。

解像度	9:16比率	16:9比率	4:3比率	3:4比率	1:1比率
540p	544×960×129フレーム	960×544×129フレーム	624×832×129フレーム	832×624×129フレーム	720×720×129フレーム
720p (推奨)	720×1280×129フレーム	1280×720×129フレーム	1104×832×129フレーム	832×1104×129フレーム	960×960×129フレーム

パラメータ設定は、以下を参考にしてください。

Width: 動画の幅（例：848）
Height: 動画の高さ（例：480）
Frame Count: フレーム数（例：73）
Batch Size: バッチサイズ（デフォルト1）

・CLIPTextEncode

Text＝ポジティブプロンプト（生成したい内容の説明）：詳細な英語での説明がおすすめ（例：A beautiful cat playing with a red yarn ball on a wooden floor, high quality, realistic）

・FluxGuidance

Guidance Scale＝ガイダンス強度（デフォルト6.0）：値が大きいほどプロンプトに忠実になりますが、動画品質に影響する可能性があります

・KSamplerSelect

Sampler＝サンプリング方法（デフォルトeuler）：その他のオプション[euler_ancestral, dpm++_2mなど]

・BasicScheduler

Scheduler: スケジューリング方式（デフォルトsimple）
Steps: サンプリングステップ数（20-30推奨）
Denoise: ノイズ除去強度（デフォルト1.0）

③動画生成の実行

プロンプトや各種パラメータを設定
「Generate」ボタンをクリックして生成開始
生成完了後、動画が表示されます

生成された動画は以下のノードで保存できます。

・VAEDecodeTiled

VRAM効率を高めるために使用するノードです。

Tile Size: 256（VRAM不足の場合は小さくする）
Overlap: 64（VRAM不足の場合は小さくする）

・SaveAnimatedWEBP

Filename Prefix: ファイル名プレフィックス
FPS: フレームレート（デフォルト24）
Lossless: ロスレス（デフォルトfalse）
Quality: 品質（0-100、デフォルト80）
Filter Type: フィルタータイプ（デフォルトdefault）

Hunyuan Videoでのプロンプトの書き方のコツ

Hunyuan Videoでは、プロンプトの書き方で生成される動画の品質が大きく変わります。

以下のような、プロンプトの順番を意識してみてください！

[主体の説明], [動作の説明], [シーンの説明], [スタイルの説明], [品質要求]

例としては、以下のようなものがあります。

anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background, masterpiece, best quality

訳：巨大なフェネックの耳とふわふわの大きな尻尾を持つアニメ風のアニメの女の子。ブロンドの髪と長い髪、青い目をしており、ピンクのセーターと長い青いスカートを着て、雪山を背景にした美しい屋外の風景の中を歩いています。傑作、最高品質。

具体的な記述：描写を具体的にすることで意図した通りの動画が生成されやすくなります
動作の詳細: 動きを詳しく指定すると、意図した動作が生成されやすくなります
品質指定: masterpiece, best qualityなどのキーワードを入れると品質が向上します
英語での記述: 現状、英語でのプロンプトが最も良い結果を得られます