【動画生成AI】LTX Videoの導入方法と使い方！高品質な動画をサクッと生成しよう

最近話題のAI動画生成ツール「LTX Video」をご存知ですか？高品質な動画を素早く生成できるモデルとして、海外ローカル民の間で大注目されています。

今回は、そんなLTX Videoの導入方法から基本的な使い方まで、初心者の方にもわかりやすく解説していきます！テキストから動画を生成する方法と画像から動画を生成する方法の両方を紹介するので、ぜひ参考にしてみてください。

今回の記事で分かること

LTX Videoとは？
LTX Videoの導入方法
画像から動画を生成する方法（Image to Video）
テキストから動画を生成する方法（Text to Video）
よくあるトラブルと対処法

📖この記事のポイント

話題のAI動画生成「LTX Video」は、比較的軽いグラボでも動くから、最新のハイスペックPCがなくても高品質な動画を作れる！
AIイラストなどの静止画に自然な動きを加える「Image to Video」機能が超優秀で、クオリティが高いと評判
ComfyUIにモデルやカスタムノードを導入すれば、ローカル環境でじっくり動画制作に挑戦できる！
新しいAIツールを誰よりも早く収入に繋げるためのコツを生成AIのプロから無料で学ぼう！
SHIFT AIの無料セミナーならAIのプロから無料で収入に直結するAIスキル習得から仕事獲得法まで学べる！
今すぐ申し込めば、超有料級の12大特典も無料でもらえる！

\ 累計受講者10万人突破 /

無料AIセミナーを見てみる

LTX Videoとは？
LTX Studioで動画生成をする方法
ComfyUIでLTX Videoを利用する際に必要なPC環境
LTX Videoの導入方法
画像から動画を生成する方法（Image to Video）
- 基本的な操作手順
テキストから動画を生成する方法（Text to Video）
- 基本的な操作手順
- プロンプト作成のコツ
LTX Videoで作れる動画のクオリティーを検証してみた！
- 画像からの動画生成（Image to Video）の場合
- テキストからの動画生成（Text to Video）の場合
【FAQ】よくあるトラブルと対処法
まとめ

LTX Videoとは？

LTX VideoはLightricks社が開発したオープンソースの動画生成AIモデルです。DiTベースの動画生成モデルとして、次のような特徴を持っています。

768×512pxの解像度で24FPSの高品質な動画生成
画像からの動画生成（Image to Video）
テキストからの動画生成（Text to Video）
比較的軽量なモデル設計（VRAM 8GB~12GBのグラボでも動作可能）
ComfyUIとの高い互換性

実際に生成した動画を見ると、特に画像からの動画生成（Image to Video）のクオリティが高く、入力画像の雰囲気を残しながらも自然な動きを付加してくれる点が魅力です。

テキストからの動画生成も可能ですが、個人的には画像から動画を生成するほうがクオリティが高いと感じました。画像生成AIで作った静止画に「動き」を加えるという使い方が特におすすめです！

LTX Studioで動画生成をする方法

まずは、最も手軽なLTX Studioで動画生成(Image to Video)をする方法をご紹介します！

①LTX Studioにログインする。

②「Motion Generator」をクリックする

③参照する画像を入れ、プロンプトを入力する。

A young woman with flowing red hair walks through an autumn forest. Her hair gently moves in the breeze as golden leaves fall around her. She wears a dark green coat and reaches out to catch a leaf. The camera slowly pans from left to right, capturing the warm sunlight filtering through the trees. The atmosphere is peaceful and nostalgic, with soft natural lighting creating a dreamy mood. In the background, tall trees with red and orange leaves create a vivid contrast against the clear blue sky.

訳：赤い髪をなびかせた若い女性が秋の森を歩いています。金色の葉が周囲に舞い落ちる中、彼女の髪はそよ風に優しく揺れています。彼女は濃い緑色のコートを着て、葉をつかもうと手を伸ばしています。カメラはゆっくりと左から右へとパンし、木々の間から差し込む暖かい日差しを捉えています。雰囲気は穏やかで懐かしく、柔らかな自然光が夢のようなムードを醸し出しています。背景には、赤やオレンジの葉をつけた背の高い木々が、澄んだ青い空と鮮やかなコントラストを生み出しています。

④適宜詳細を設定する

DURATION：動画の時間
INTENSITY：プロンプトの強度
MOTION SEED：動きを固定する値(固定すると、似たような動きになります。)

⑤「Generate Video」で生成開始

このような風にとっても簡単にImage to Videoで動画生成ができます！

ComfyUIでLTX Videoを利用する際に必要なPC環境

LTX Videoをローカル環境で動かすためには、ある程度のスペックが必要です。ただ、他の動画生成AIと比べると比較的軽量なモデルなので、最新のハイエンドGPUがなくても動かせる点が嬉しいポイントです。

最低限必要なスペック

GPU: NVIDIA製グラフィックボード（VRAM 8GB以上推奨）
OS: Windows 10/11（Mac対応については現時点で不明）
CPU: そこまで気にしなくてもOK
RAM: 16GB以上推奨
ストレージ: モデルをインストールするため30GB程度の空き容量

実際、RTX 3060 12GB搭載のPCで問題なく動作するという報告もあります。VRAM 8GBのグラボでも動作したという報告もあるようですが、フレーム数や解像度を調整する必要があるかもしれません。

LTX Videoの導入方法

LTX Videoを導入するには、ComfyUIというツールを使うのが一番簡単です。ここでは、ComfyUIを使ったLTX Videoの導入方法を段階的に解説します。

手順1：ComfyUIのインストール

まずはComfyUIをインストールしましょう。ComfyUIにはWebUI版とデスクトップ版がありますが、どちらでも構いません。初心者の方には操作が簡単なデスクトップ版がおすすめです。

「ComfyUI Desktop」をダウンロードしてインストール
インストール完了後、ComfyUIを起動

ComfyUIの詳しいインストール方法はこちらを参考にしてみてください

手順2：ComfyUIのインストール

次にLTX VideoモデルをHugging Faceからダウンロードします。以下の3つのファイルを用意しましょう。

モデル本体: ltx-video-2b-v0.9.5.safetensors（約9.4GB）
テキストエンコーダ1: t5xxl_fp16.safetensors（約9.8GB）
テキストエンコーダ2: model-00001-of-00002.safetensors（約9.9GB）

合計で約30GBほどあるので、ダウンロードには時間がかかります。ダウンロードしたファイルは以下のフォルダに配置してください。

モデル本体→ComfyUI\models\checkpointsフォルダ
テキストエンコーダ→ComfyUI\models\text_encodersフォルダ

手順3：ComfyUIのインストール

ComfyUIでLTX Videoを使うには、いくつかのカスタムノードが必要です。以下の手順でインストールしましょう。

ComfyUIを起動し、画面右上の「Manager」ボタンをクリック
「Custom Nodes Manager」ボタンをクリック
検索バーに「ltx」と入力し、「ComfyUI-LTXVideo」をインストール
追加で「VideoHelperSuite」もインストールしておくと便利

他にも必要なカスタムノードがある場合は、ComfyUI Manager Menuの「Install Missing Custom Nodes」ボタンから一括インストールできます。

手順4：ワークフローの導入

LTX Video用のワークフローをダウンロードしましょう。画像からの動画生成（Image to Video）とテキストからの動画生成（Text to Video）用の2種類があります。

GitHubの「Lightricks/ComfyUI-LTXVideo」リポジトリからワークフローをダウンロードし、ComfyUIで開きます。

メニューバーの「ワークフロー」→「開く」からダウンロードしたワークフローファイルを選択
ワークフローが読み込まれたらComfyUIを再起動

これでLTX Videoを使う準備が整いました！

画像から動画を生成する方法（Image to Video）

LTX Videoでは、静止画を元に自然な動きを加えた動画を生成できます。この機能が特に優れていると評判です。

基本的な操作手順

ComfyUIで「Image to Video」用のワークフローを開く
ワークフロー左上の「画像を読み込む」ノードで「upload」ボタンをクリックし、動かしたい画像をアップロード
必要に応じて以下のパラメータを調整しましょう！
- 「基本スケジューラー」ノードの「ステップ」（生成品質：20~25が推奨）
- 「LTXV Model Configurator」ノードの「frames_number」（フレーム数：多いほど長い動画に）
- 「LTXV Model Configurator」ノードの「frame_rate」（フレームレート：通常は24）
「生成」ボタンをクリックし、動画生成開始

画像に合わせたプロンプトを入力することで、より自然な動きを指示することも可能です。例えば「波が岩に打ち寄せる」などの動きを表現するプロンプトを英語で入力すると、その動きが反映された動画になります。

The waves crash against the jagged rocks of the shoreline, sending spray high into the air. The water is a clear blue-green, with white foam where the waves break against the rocks. The sky is a light gray, with a few white clouds dotting the horizon.

訳：波は海岸のギザギザした岩に打ち寄せ、水しぶきを高く空に上げます。水は澄んだ青緑色で、波が岩に打ち寄せる部分には白い泡が立っています。空は薄い灰色で、地平線には白い雲が点在しています。

プロンプトはなるべく詳細に書くのがコツです。動きの描写だけでなく、画像の要素や雰囲気も含めると良い結果が得られます。

テキストから動画を生成する方法（Text to Video）

画像なしで、テキストだけから動画を生成することも可能です。ただし、画像からの生成に比べるとクオリティが若干落ちる傾向があります。

基本的な操作手順

ComfyUIで「Text to Video」用のワークフローを開く
「Flux Prompt Enhance」または「CLIP Text Encode」ノードにプロンプトを入力
以下のパラメータを調整：
- 「基本スケジューラー」ノードの「ステップ」（多いほど高品質だが時間がかかる）
- 「LTXV Model Configurator」ノードの各種設定（フレーム数、解像度など）
- 「STG Guider」ノードの「cfg」（3~3.5が推奨値）
「生成」ボタンをクリックし、動画生成開始

プロンプト作成のコツ

テキストから動画を生成する場合、プロンプトの作り方が非常に重要です。以下のポイントを押さえましょう。

詳細に描写する: 短すぎるプロンプトでは品質が低下するので、長く詳細なプロンプトを書きましょう
動きを具体的に: 「髪が風になびく」「手を振る」など、具体的な動きを入れると良い結果に
カメラワークも指定: 「ズームイン」「パン」などカメラの動きも指定するとよりプロっぽい動画に
光や環境も描写: 「夕日の暖かい光」「雨が降る」など環境描写も加えると雰囲気が出ます

A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage.

訳：長い茶色の髪と白い肌の女性が、長いブロンドの髪の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さな、ほとんど目立たないほくろがあります。カメラの角度はクローズアップで、茶色の髪の女性の顔に焦点が当てられています。照明は暖かく自然で、おそらく沈む太陽から来ており、シーンに柔らかい輝きを投げかけています。このシーンは実際の映像のようです。