【動画生成AI】Hunyuan Videoの使い方!ComfyUIで誰でも簡単生成 | romptn Magazine

【動画生成AI】Hunyuan Videoの使い方!ComfyUIで誰でも簡単生成

AIツール

最近話題のAI動画生成ツール「Hunyuan Video」をご存知でしょうか?Tencent(テンセント)が開発したオープンソースの動画生成AIで、テキストから高品質な動画を簡単に作成できるツールです。

「AIで動画を作りたいけど難しそう…」「高いスペックのPCが必要なんじゃ…」といった不安を持っている方も多いかもしれませんが、実はComfyUIと組み合わせることで、比較的低スペックのPCでも動画生成が可能になりました。しかも規制が少なく、他の動画生成AIでは難しいような指さしポーズやコスプレ動画なども作りやすいんです!

本記事では、Hunyuan Videoの特徴から始め、ComfyUIでの導入方法、実際の使い方、さらにはテキストだけでなく画像から動画を生成する方法(Image to Video)まで、初心者でもわかりやすく解説していきます。

今回の記事で分かること
  • Hunyuan Videoとは?
  • Hunyuan Videoの使い方
  • Hunyuan VideoのLoRA対応について
  • Hunyuan Videoの高速化方法
スポンサーリンク

Hunyuan Videoとは?

Hunyuan Videoは、テンセントが開発した130億以上のパラメータを持つ大規模な動画生成AIモデルです。テキストプロンプトから20秒程度の高品質な動画を生成できます。

このモデルの特徴は以下の点です。

  • オープンソースで無料:コードやモデルが無償公開されています
  • 高品質な動画生成:クローズドモデル(有料サービス)に匹敵する品質
  • 物理法則の遵守:自然な動きや重力など物理法則に基づいた動画生成
  • 高画質出力:最大1104×832ピクセルの解像度で動画生成が可能
  • カスタマイズ性:LoRAなどで追加学習させて自分好みの動画生成も可能

従来の動画生成AIと比較すると、テキストエンコーダーにMultimodal Large Language Modelを採用しており、より高い画像テキスト整合性を持ち、ユーザーの指示を忠実に解釈する能力に優れています。

また、3D VAEという技術を用いて時空間的な映像情報をコンパクトな潜在表現に圧縮しているため、高い効率で動画生成が可能になっています。

Hunyuan Videoの動画生成方法は主に3種類

Hunyuan Videoを使った動画生成方法は主に以下の3種類があります!

公式より
  1. テキストから動画を生成(Text to Video)
    • テキストプロンプトのみで動画を生成する標準的な方法
  2. 画像から動画を生成(Image to Video)
    • 画像を元に動きのある動画を生成する方法
    • LeapFusionやLTXビデオなどの技術と組み合わせて使用
  3. 動画から動画を生成(Video to Video)
    • 既存の動画を元に新しい動画を生成する方法

【準備編】Hunyuan VideoをComfyUIで使う方法

ComfyUIは画像生成AIを使いやすくするUIツールですが、最近Hunyuan Videoのネイティブサポートが追加され、簡単に動画生成ができるようになりました。

必要な環境と準備

必要なスペックは、以下の通りです。

  • 推奨スペック:VRAM 45〜60GB
  • 最低限の動作:VRAM 15〜16GB程度

スペックが足りない場合は、Google ColaboratoryやPaperspace、Mimic PCなどのクラウドサービスを利用するのがおすすめです。

用意するもの
  1. ComfyUI(最新版)
  2. Hunyuan Video関連モデル
  3. ワークフローファイル

ComfyUIのインストールとアップデート

ComfyUIがまだインストールされていない場合や、アップデートが必要な場合は、以下の手順を参考にしてください。

  1. ComfyUIの公式GitHubからインストール
  2. 最新版へのアップデート(EmptyHunyuanLatentVideoノードを使用するため)

詳しくは、下記記事で解説していますので参考にしてください!

必要なモデルファイルのダウンロード

Hunyuan Videoで動画生成を行うには、以下のモデルファイルをダウンロードし、指定のフォルダに配置する必要があります。

  1. メインモデルファイル
  1. テキストエンコーダーファイル
  1. VAEモデルファイル

そして最後に、ワークフローファイルの導入をしましょう。

  • Hunyuan Video用のワークフローファイルをダウンロード
  • ComfyUIにドラッグ&ドロップして読み込む

かなりの容量が必要になりますのでご注意ください※

【実践編】Hunyuan VideoをComfyUIで使う方法

では、実際にComfyUIでHunyuan Videoを使った動画生成の手順を解説します。

①ワークフローの設定

ComfyUIにワークフローをロードしたら、以下のノードの設定を確認・変更します。

  • UNETLoader
    • Model: hunyuan_video_t2v_720p_bf16.safetensors
    • Weight Type: default(VRAM不足の場合はfp8を選択)
  • DualCLIPLoader
    • CLIP 1: clip_l.safetensors
    • CLIP 2: llava_llama3_fp8_scaled.safetensors
    • Text Encoder: hunyuan_video
  • VAELoader
    • VAE Model: hunyuan_video_vae_bf16.safetensors

②動画生成のパラメータ設定

・EmptyHunyuanLatentVideo

Hunyuan Videoは以下の解像度設定をサポートしています。

解像度9:16比率16:9比率4:3比率3:4比率1:1比率
540p544×960×129フレーム960×544×129フレーム624×832×129フレーム832×624×129フレーム720×720×129フレーム
720p (推奨)720×1280×129フレーム1280×720×129フレーム1104×832×129フレーム832×1104×129フレーム960×960×129フレーム

パラメータ設定は、以下を参考にしてください。

  • Width: 動画の幅(例:848)
  • Height: 動画の高さ(例:480)
  • Frame Count: フレーム数(例:73)
  • Batch Size: バッチサイズ(デフォルト1)

・CLIPTextEncode

Text=ポジティブプロンプト(生成したい内容の説明):詳細な英語での説明がおすすめ(例:A beautiful cat playing with a red yarn ball on a wooden floor, high quality, realistic)

・FluxGuidance

Guidance Scale=ガイダンス強度(デフォルト6.0):値が大きいほどプロンプトに忠実になりますが、動画品質に影響する可能性があります

・KSamplerSelect

Sampler=サンプリング方法(デフォルトeuler):その他のオプション[euler_ancestral, dpm++_2mなど]

BasicScheduler

Scheduler: スケジューリング方式(デフォルトsimple)
Steps: サンプリングステップ数(20-30推奨)
Denoise: ノイズ除去強度(デフォルト1.0)

③動画生成の実行

  1. プロンプトや各種パラメータを設定
  2. 「Generate」ボタンをクリックして生成開始
  3. 生成完了後、動画が表示されます

生成された動画は以下のノードで保存できます。

・VAEDecodeTiled

VRAM効率を高めるために使用するノードです。

  • Tile Size: 256(VRAM不足の場合は小さくする)
  • Overlap: 64(VRAM不足の場合は小さくする)

・SaveAnimatedWEBP

  • Filename Prefix: ファイル名プレフィックス
  • FPS: フレームレート(デフォルト24)
  • Lossless: ロスレス(デフォルトfalse)
  • Quality: 品質(0-100、デフォルト80)
  • Filter Type: フィルタータイプ(デフォルトdefault

Hunyuan Videoでのプロンプトの書き方のコツ

Hunyuan Videoでは、プロンプトの書き方で生成される動画の品質が大きく変わります。

以下のような、プロンプトの順番を意識してみてください!

[主体の説明], [動作の説明], [シーンの説明], [スタイルの説明], [品質要求]

例としては、以下のようなものがあります。

anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background, masterpiece, best quality

訳:巨大なフェネックの耳とふわふわの大きな尻尾を持つアニメ風のアニメの女の子。ブロンドの髪と長い髪、青い目をしており、ピンクのセーターと長い青いスカートを着て、雪山を背景にした美しい屋外の風景の中を歩いています。傑作、最高品質。
  • 具体的な記述:描写を具体的にすることで意図した通りの動画が生成されやすくなります
  • 動作の詳細: 動きを詳しく指定すると、意図した動作が生成されやすくなります
  • 品質指定: masterpiece, best qualityなどのキーワードを入れると品質が向上します
  • 英語での記述: 現状、英語でのプロンプトが最も良い結果を得られます

Hunyuan VideoでImage to Video(画像から動画生成)を使う方法

Hunyuan Videoでは、既存の画像から動画を生成することも可能です。これには主に2つの方法があります。

LeapFusionを使用する方法

LeapFusionはHunyuan Videoと組み合わせて使うことで、より安定した品質の高い動画を生成できます。元画像の特徴を良く保持できるので、おすすめです!

以下の手順で使用してください。

  1. LeapFusionモデルをダウンロードしてmodelsフォルダに配置
  2. Image to Video用のワークフロー(LeapFusion対応)をComfyUIに読み込む
  3. 元となる画像をアップロード
  4. プロンプトや各種パラメータを調整
  5. 生成を実行

LTXビデオを使用する方法

LTXビデオもImage to Videoで使用できますが、LeapFusionと比較すると安定性に欠ける場合があります。

以下の注意点があるので、チェック必須です!

  • LTXビデオは低フレームレートでの動作が不安定なことがある
  • 10秒程度の動画生成でも安定しないケースが報告されている

Hunyuan VideoのLoRA対応について

Hunyuan Videoの魅力の一つが、LoRA(Low-Rank Adaptation)という技術で自分好みの動画生成ができることです。

LoRAは少ないデータでAIモデルを特定のスタイルや被写体に適応させる技術です。例えば、特定のキャラクターの画像をLoRAで学習させると、そのキャラクターの動画が作れるようになります。

Hunyuan Video用LoRAの入手方法は、以下の2通りです。

  • CivitAIなどのサイトからダウンロード
  • 自分でトレーニング(GUIツールも開発されています)

LoRAの適用方法は、以下の手順で行ってください。

  1. ダウンロードしたLoRAファイルをComfyUI/models/loraに配置
  2. ワークフローにLoRAノードを追加
  3. LoRAの強度を調整(0.0〜1.0)

※LoRAについては、下記記事で詳しく解説しています!

【FastHunyuan】Hunyuan Videoの高速化方法

動画生成にかかる時間が気になる方には、FastHunyuanというモデルもあります。これは通常のHunyuan Videoを最大8倍高速化したバージョンです。

  • 拡散時間: 232秒→27秒
  • エンドツーエンド時間: 267秒→62秒

ただし、元のHunyuan Videoの方が品質が良いという意見もあるため、用途に応じて使い分けると良いでしょう。

【FAQ】Hunyuan Videoに関するよくある質問

Q
Hunyuan Videoを実行しようとすると「CUDA out of memory」というエラーが出ます。どうすればいいですか?
A

VRAM不足が原因です。以下の対策を試してみてください。

  • UNETLoaderでWeight Typeをfp8に変更する
  • 解像度を下げる(例:720p→540p)
  • フレーム数を減らす(例:73フレーム→50フレーム)
  • VAEDecodeTiledのTile SizeとOverlapを小さくする
Q
最低どれくらいのVRAMが必要ですか?
A

理想的には45GB以上ですが、軽量化されたバージョンであれば15~16GBのVRAMでも動作可能です。ただし、その場合は解像度やフレーム数などの調整が必要です。

Q
動画生成に時間がかかりすぎます。どうすれば速くなりますか?
A

以下の方法で生成時間を短縮できます。

  • サンプリングステップ数を減らす(例:25→20)
  • フレーム数を減らす
  • 解像度を下げる
  • FastHunyuanモデルを使用する(通常の8倍速)
Q
生成された動画がぼやけたり不自然な動きをしたりします。どうすれば改善できますか?
A

以下の調整を試してみてください。

  • サンプリングステップ数を増やす(例:20→30)
  • Guidance Scaleを調整する(6.0~8.0がおすすめ)
  • サンプラーを変更する(eulerdpm++_2m_karrasなど)
Q
特定のキャラクターやポーズが上手く生成できません。
A

Hunyuan Videoには苦手な分野があります。

  • 複雑なキャラクターのインタラクション
  • 詳細な顔の表情
  • 非常に早いアクション
  • 複数のキャラクターが登場するシーン

これらを改善するには、LoRAを使用するか、プロンプトを詳しめにしてみてください。

Q
モデルのダウンロードが途中で止まってしまいます。
A

モデルファイルが非常に大きい(最大25GB程度)ため、安定したインターネット接続が必要です。ダウンロードマネージャーを使用するか、公式のトレントリンクを利用すると良いでしょう。

Q
ComfyUIでHunyuan Video用のノードが見つかりません。
A

ComfyUIが最新版でない可能性がありますので、以下の手順を試してください。

  1. ComfyUIを最新版にアップデートする
  2. ComfyUIを再起動する
  3. それでも解決しない場合は、ComfyUIマネージャーを使用して必要な拡張機能をインストールする
Q
LTXビデオとLeapFusionのどちらを使うべきですか?
A

安定性と品質を重視するならLeapFusionがおすすめです。LTXビデオは低フレームレートでの動作が不安定なことがあります。

これらの対策を試しても問題が解決しない場合は、ComfyUIのコミュニティフォーラムやHunyuan VideoのGitHubイシューで質問してみると良いでしょう!開発が活発なので、新しい解決策や改善版が定期的にリリースされていますよ。

まとめ

いかがでしたでしょうか?

Hunyuan Videoの基本的な使い方からComfyUIでの実践的な動画生成方法、画像から動画を作る方法まで詳しく解説しました。

この記事で紹介したことをまとめると次のようになります。

  • Hunyuan Videoはテンセントが開発したオープンソースの高性能動画生成AIモデル
  • ComfyUIを使うことで、VRAM 15~16GB程度でも動作可能に
  • プロンプトは英語で具体的な動作や視覚要素を詳細に記述すると良い結果が得られる
  • 画像から動画を生成するにはLeapFusionとの組み合わせが効果的
  • LoRAを使えば自分好みのキャラクターや特定スタイルの動画生成も可能

Hunyuan Videoを使って動画生成にチャレンジしてみたい方や、他の動画生成AIに満足できずより高品質なものを求めている方に、きっと役立つ情報だったのではないでしょうか?

ぜひ、今回の記事を参考にComfyUIでHunyuan Videoを試して、あなただけのオリジナル動画作りを楽しんでみてください!