【動画生成AI】LTX Videoの導入方法と使い方!高品質な動画をサクッと生成しよう | romptn Magazine

【動画生成AI】LTX Videoの導入方法と使い方!高品質な動画をサクッと生成しよう

AIツール

最近話題のAI動画生成ツール「LTX Video」をご存知ですか?高品質な動画を素早く生成できるモデルとして、海外ローカル民の間で大注目されています。

今回は、そんなLTX Videoの導入方法から基本的な使い方まで、初心者の方にもわかりやすく解説していきます!テキストから動画を生成する方法と画像から動画を生成する方法の両方を紹介するので、ぜひ参考にしてみてください。

今回の記事で分かること
  • LTX Videoとは?
  • LTX Videoの導入方法
  • 画像から動画を生成する方法(Image to Video)
  • テキストから動画を生成する方法(Text to Video)
  • よくあるトラブルと対処法
スポンサーリンク

LTX Videoとは?

LTX VideoはLightricks社が開発したオープンソースの動画生成AIモデルです。DiTベースの動画生成モデルとして、次のような特徴を持っています。

  • 768×512pxの解像度で24FPSの高品質な動画生成
  • 画像からの動画生成(Image to Video)
  • テキストからの動画生成(Text to Video)
  • 比較的軽量なモデル設計(VRAM 8GB~12GBのグラボでも動作可能)
  • ComfyUIとの高い互換性

実際に生成した動画を見ると、特に画像からの動画生成(Image to Video)のクオリティが高く、入力画像の雰囲気を残しながらも自然な動きを付加してくれる点が魅力です。

テキストからの動画生成も可能ですが、個人的には画像から動画を生成するほうがクオリティが高いと感じました。画像生成AIで作った静止画に「動き」を加えるという使い方が特におすすめです!

LTX Studioで動画生成をする方法

まずは、最も手軽なLTX Studioで動画生成(Image to Video)をする方法をご紹介します!

LTX Studioにログインする。

②「Motion Generator」をクリックする

③参照する画像を入れ、プロンプトを入力する。

A young woman with flowing red hair walks through an autumn forest. Her hair gently moves in the breeze as golden leaves fall around her. She wears a dark green coat and reaches out to catch a leaf. The camera slowly pans from left to right, capturing the warm sunlight filtering through the trees. The atmosphere is peaceful and nostalgic, with soft natural lighting creating a dreamy mood. In the background, tall trees with red and orange leaves create a vivid contrast against the clear blue sky.

訳:赤い髪をなびかせた若い女性が秋の森を歩いています。金色の葉が周囲に舞い落ちる中、彼女の髪はそよ風に優しく揺れています。彼女は濃い緑色のコートを着て、葉をつかもうと手を伸ばしています。カメラはゆっくりと左から右へとパンし、木々の間から差し込む暖かい日差しを捉えています。雰囲気は穏やかで懐かしく、柔らかな自然光が夢のようなムードを醸し出しています。背景には、赤やオレンジの葉をつけた背の高い木々が、澄んだ青い空と鮮やかなコントラストを生み出しています。

④適宜詳細を設定する

  • DURATION:動画の時間
  • INTENSITY:プロンプトの強度
  • MOTION SEED:動きを固定する値(固定すると、似たような動きになります。)

⑤「Generate Video」で生成開始

このような風にとっても簡単にImage to Videoで動画生成ができます!

ComfyUIでLTX Videoを利用する際に必要なPC環境

LTX Videoをローカル環境で動かすためには、ある程度のスペックが必要です。ただ、他の動画生成AIと比べると比較的軽量なモデルなので、最新のハイエンドGPUがなくても動かせる点が嬉しいポイントです。

最低限必要なスペック
  • GPU: NVIDIA製グラフィックボード(VRAM 8GB以上推奨)
  • OS: Windows 10/11(Mac対応については現時点で不明)
  • CPU: そこまで気にしなくてもOK
  • RAM: 16GB以上推奨
  • ストレージ: モデルをインストールするため30GB程度の空き容量

実際、RTX 3060 12GB搭載のPCで問題なく動作するという報告もあります。VRAM 8GBのグラボでも動作したという報告もあるようですが、フレーム数や解像度を調整する必要があるかもしれません。

LTX Videoの導入方法

LTX Videoを導入するには、ComfyUIというツールを使うのが一番簡単です。ここでは、ComfyUIを使ったLTX Videoの導入方法を段階的に解説します。

手順1:ComfyUIのインストール

まずはComfyUIをインストールしましょう。ComfyUIにはWebUI版とデスクトップ版がありますが、どちらでも構いません。初心者の方には操作が簡単なデスクトップ版がおすすめです。

  1. 「ComfyUI Desktop」をダウンロードしてインストール
  2. インストール完了後、ComfyUIを起動

ComfyUIの詳しいインストール方法はこちらを参考にしてみてください

手順2:ComfyUIのインストール

次にLTX VideoモデルをHugging Faceからダウンロードします。以下の3つのファイルを用意しましょう。

  1. モデル本体: ltx-video-2b-v0.9.5.safetensors(約9.4GB)
  2. テキストエンコーダ1: t5xxl_fp16.safetensors(約9.8GB)
  3. テキストエンコーダ2: model-00001-of-00002.safetensors(約9.9GB)

合計で約30GBほどあるので、ダウンロードには時間がかかります。ダウンロードしたファイルは以下のフォルダに配置してください。

  • モデル本体ComfyUI\models\checkpointsフォルダ
  • テキストエンコーダComfyUI\models\text_encodersフォルダ

手順3:ComfyUIのインストール

ComfyUIでLTX Videoを使うには、いくつかのカスタムノードが必要です。以下の手順でインストールしましょう。

  1. ComfyUIを起動し、画面右上の「Manager」ボタンをクリック
  2. 「Custom Nodes Manager」ボタンをクリック
  3. 検索バーに「ltx」と入力し、「ComfyUI-LTXVideo」をインストール
  4. 追加で「VideoHelperSuite」もインストールしておくと便利

他にも必要なカスタムノードがある場合は、ComfyUI Manager Menuの「Install Missing Custom Nodes」ボタンから一括インストールできます。

手順4:ワークフローの導入

LTX Video用のワークフローをダウンロードしましょう。画像からの動画生成(Image to Video)とテキストからの動画生成(Text to Video)用の2種類があります。

参考

GitHubの「Lightricks/ComfyUI-LTXVideo」リポジトリからワークフローをダウンロードし、ComfyUIで開きます。

  1. メニューバーの「ワークフロー」→「開く」からダウンロードしたワークフローファイルを選択
  2. ワークフローが読み込まれたらComfyUIを再起動

これでLTX Videoを使う準備が整いました!

画像から動画を生成する方法(Image to Video)

LTX Videoでは、静止画を元に自然な動きを加えた動画を生成できます。この機能が特に優れていると評判です。

基本的な操作手順

  1. ComfyUIで「Image to Video」用のワークフローを開く
  2. ワークフロー左上の「画像を読み込む」ノードで「upload」ボタンをクリックし、動かしたい画像をアップロード
  3. 必要に応じて以下のパラメータを調整しましょう!
    • 「基本スケジューラー」ノードの「ステップ」(生成品質:20~25が推奨)
    • 「LTXV Model Configurator」ノードの「frames_number」(フレーム数:多いほど長い動画に)
    • 「LTXV Model Configurator」ノードの「frame_rate」(フレームレート:通常は24)
  4. 「生成」ボタンをクリックし、動画生成開始

画像に合わせたプロンプトを入力することで、より自然な動きを指示することも可能です。例えば「波が岩に打ち寄せる」などの動きを表現するプロンプトを英語で入力すると、その動きが反映された動画になります。

The waves crash against the jagged rocks of the shoreline, sending spray high into the air. The water is a clear blue-green, with white foam where the waves break against the rocks. The sky is a light gray, with a few white clouds dotting the horizon.

訳:波は海岸のギザギザした岩に打ち寄せ、水しぶきを高く空に上げます。水は澄んだ青緑色で、波が岩に打ち寄せる部分には白い泡が立っています。空は薄い灰色で、地平線には白い雲が点在しています。

プロンプトはなるべく詳細に書くのがコツです。動きの描写だけでなく、画像の要素や雰囲気も含めると良い結果が得られます。

テキストから動画を生成する方法(Text to Video)

画像なしで、テキストだけから動画を生成することも可能です。ただし、画像からの生成に比べるとクオリティが若干落ちる傾向があります。

基本的な操作手順

  1. ComfyUIで「Text to Video」用のワークフローを開く
  2. 「Flux Prompt Enhance」または「CLIP Text Encode」ノードにプロンプトを入力
  3. 以下のパラメータを調整:
    • 「基本スケジューラー」ノードの「ステップ」(多いほど高品質だが時間がかかる)
    • 「LTXV Model Configurator」ノードの各種設定(フレーム数、解像度など)
    • 「STG Guider」ノードの「cfg」(3~3.5が推奨値)
  4. 「生成」ボタンをクリックし、動画生成開始

プロンプト作成のコツ

テキストから動画を生成する場合、プロンプトの作り方が非常に重要です。以下のポイントを押さえましょう。

  • 詳細に描写する: 短すぎるプロンプトでは品質が低下するので、長く詳細なプロンプトを書きましょう
  • 動きを具体的に: 「髪が風になびく」「手を振る」など、具体的な動きを入れると良い結果に
  • カメラワークも指定: 「ズームイン」「パン」などカメラの動きも指定するとよりプロっぽい動画に
  • 光や環境も描写: 「夕日の暖かい光」「雨が降る」など環境描写も加えると雰囲気が出ます
A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage.

訳:長い茶色の髪と白い肌の女性が、長いブロンドの髪の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さな、ほとんど目立たないほくろがあります。カメラの角度はクローズアップで、茶色の髪の女性の顔に焦点が当てられています。照明は暖かく自然で、おそらく沈む太陽から来ており、シーンに柔らかい輝きを投げかけています。このシーンは実際の映像のようです。

LTX Videoで作れる動画のクオリティーを検証してみた!

実際にLTX Videoで生成した動画のクオリティはどうなのでしょうか?ユーザーの声を元に検証してみました。

画像からの動画生成(Image to Video)の場合

画像からの動画生成は、静止画の雰囲気や特徴を損なわずに自然な動きを加えてくれるのが特徴だと感じました。

ただし、以下のような課題・デメリットも同時にあります。

  • 人物の手や顔の動きが不自然になることがある
  • 複雑な動きを正確に指示するのが難しい
  • 長い動画になるほど品質が落ちる傾向がある

トータルで見ると、クオリティーに特段問題はなく生成も速いのでおすすめです!

テキストからの動画生成(Text to Video)の場合

テキストからの動画生成は、まだ改良の余地がある印象でした。

  • プロンプトによって品質が大きく変わる
  • シンプルなシーンなら比較的良い結果が得られる
  • 人物や複雑な動きは不自然になりやすい

Image to Videoに比べて良い結果を得るには、プロンプトの調整や生成パラメータの最適化が必要になってきます。

【FAQ】よくあるトラブルと対処法

LTX Videoを使う際によく起こるトラブルとその対処法をまとめました。

Q
「CUDA Out of Memory」というエラーが表示されて動画が生成できません。どうすればいいですか?
A

これはVRAM(グラフィックメモリ)が不足している状態です。以下の方法を試してみてください。

  • 生成する動画のフレーム数を減らす(「frames_number」の値を小さくする)
  • 解像度を下げる(例: 768×384にする)
  • ステップ数を15~20程度に減らす
  • 他のアプリケーション(特にブラウザやゲーム)を閉じてVRAMを解放する
Q
カスタムノードがうまく読み込まれず、画面が真っ赤になってしまいます。どうしたらいいですか?
A

必要なカスタムノードが不足しています。

  • ComfyUI Managerの「Install Missing Custom Nodes」ボタンをクリックして不足しているノードを一括インストール
  • インストール完了後、ComfyUIを再起動する
  • それでも解決しない場合は、各カスタムノードを個別にインストールしてみる
Q
動画の生成に異常に時間がかかります。何か対策はありますか?
A

動画生成は計算負荷が高いため時間がかかりますが、以下の方法で短縮できます。

  • ステップ数を減らす(20→15などに下げる)
  • フレーム数を減らす(短い動画にする:推奨は100フレーム以下)
  • 解像度を下げる(特に縦横両方768pxだと負荷が高い)
  • 新しいVRAMの大きいグラフィックボードに交換する(根本的な解決策)
Q
生成された動画が崩れていたり、不自然な動きになったりします。改善方法はありますか?
A

品質を向上させるには以下の調整を試してみてください。

  • プロンプトをより詳細かつ具体的に書く(特に動きの描写を細かく)
  • ステップ数を増やす(20~25が推奨値)
  • cfg値を適切な範囲に調整する(3~3.5が多くのケースで良い結果に)
  • モーションスケールを下げてみる(過剰な動きが原因の場合)

まとめ

いかがでしたでしょうか?

LTX Videoの導入方法から使い方、そして画像とテキストからの動画生成方法までを詳しく解説しました。

この記事で紹介したことをまとめると次のようになります。

  • LTX Videoは比較的軽量で高品質な動画が生成できるAIモデル
  • RTX 3060 12GBなど、8GB以上のVRAMがあれば十分動作可能
  • Image to Video(画像からの動画生成)のほうがクオリティが高い
  • プロンプトは詳細に書くほど良い結果が得られる
  • 生成時間はステップ数やフレーム数で調整可能(短い動画なら数分)
  • トラブルが起きた場合は、パラメータ調整で解決できることが多い

動画生成AIを使ってみたいけど、ハイエンドPCがない、もしくはWebサービスは料金がかかって使いづらいと感じている方に、LTX Videoはぴったりの選択肢ではないでしょうか?

ぜひ皆さんもLTX Videoを導入して、静止画に命を吹き込むような素敵な動画作りに挑戦してみてください!思いがけない使い方や素晴らしい作品が生まれるかもしれません。