【初心者向け】Stable Video Diffusionの使い方!画像から動画を簡単生成しよう | romptn Magazine

【初心者向け】Stable Video Diffusionの使い方!画像から動画を簡単生成しよう

Stable Diffusion

Stable Diffusionで静止画を生成するのは楽しいけれど、「動く画像」を作れたらもっと面白いと思いませんか?実は2023年11月に登場したStable Video Diffusionを使えば、たった1枚の画像から驚くほど自然な動画を生成できるんです!

でも、「Stable Video Diffusionって何?」「使い方が分からない」「ローカル環境で動かせるの?」と疑問を持つ方も多いはず。この記事では、Stable Video Diffusionの基本から応用まで、初心者でも分かりやすく解説します。無料で使える方法や商用利用の可否についても触れますので、ぜひ最後までご覧ください!

今回の記事で分かること
  • Stable Video Diffusionとは?
  • Stable Video Diffusionの導入方法
  • Stable Video Diffusionの使い方
  • Stable Video Diffusionの商用利用について
  • Stable Video Diffusionと他の動画生成AIの比較

※Stable Diffusionの使い方については、下記記事で詳しく解説しています!

スポンサーリンク

Stable Video Diffusionとは?

row01

Stable Video Diffusionは2023年11月22日に Stability AI から公開された、画像から動画を生成するAI技術です。従来のStable Diffusionが静止画を生成するのに対し、Stable Video Diffusionは入力した1枚の画像を元に、自然な動きのある短い動画を作成します。

主な特徴は以下の通りです。

  • 画像1枚から動画を生成: 入力画像をもとに、カメラワークや被写体の動きを自動的に作り出します
  • 14フレームと25フレームの2種類のモデル: SVD(14フレーム)とSVD-XT(25フレーム)が用意されています
  • さまざまなフレームレート: 3~30fpsの範囲でフレームレートを調整可能
  • オープンソース: 研究・非商用利用であれば無料で使用できます
  • 複数の使用方法: Google Colabやローカル環境など、様々な方法で利用できます

テキストからの動画生成機能も開発中であり、今後のアップデートに期待が高まっています。

Stable Diffusionの画像生成を最速で学びたいあなたへ!
  • Stable Diffusionの基礎を2時間でマスター!
  • 高スペックPCがない方向けに徹底解説。
  • ControlNetなど、必須級の拡張機能も網羅。
  • 今話題のSDXL、AI動画生成も。
  • 特典として、大人気「おすすめ拡張機能・モデル解説」「プロンプト大全」つき!
\このボタン限定!70%オフキャンペーン実施中!/
70%オフキャンペーン実施中!/

Stable Video Diffusionの導入方法

Stable Video Diffusionを使うには主に2つの方法があります。それぞれのメリット・デメリットと共に解説します。

Google Colabで使う方法

Google Colabを使えば、自分のPCのスペックに関わらず、クラウド上でStable Video Diffusionを動かせます。特に高性能GPUを持っていない方におすすめです。

メリット・自分のPC環境に依存しない
・インストール作業が簡単
・無料で試せる
デメリット・無料版では使用時間に制限がある
・接続が切れることがある
・生成に時間がかかることがある

では、使い方を説明していきます!

①以下のようなGoogle Colabのデモデータを開きます。

https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable-video-diffusion-img2vid.ipynb

②「ドライブにコピー」をクリックして自分のGoogleドライブにコピーします

③ランタイムのタイプをGPUに変更します

  • 上メニューの「ランタイム」→「ランタイムのタイプを変更」
  • ハードウェアアクセラレータを「GPU」に設定

④すべてのセルを上から順に実行します

  • Setup
  • Login HuggingFace to download weights(Hugging Faceのアクセストークンが必要)
  • Download weights(使いたいモデルを選択)
  • Load Model
  • Sampling function
  • Do the Run!

⑤実行が完了すると、画像をアップロードして動画を生成できる画面が表示されます

⑥画像をアップロードして「Run」ボタンを押すと動画が生成されます

ローカル環境にインストールする方法

自分のPCにインストールして使うことで、より自由度の高い環境を構築できます。ただし、それなりのスペックのPCが必要(GPU:VRAM 15GB以上推奨(RTX3090、4090など))です。

メリット・制限なく使用できる
・生成速度が安定している
・カスタマイズの自由度が高い
デメリット・高スペックのPC(特にGPU)が必要
・ンストール作業がやや複雑
・環境構築に時間がかかる

それでは、ローカル環境へのインストール手順を解説していきます!

準備するもの
  1. Python: バージョン3.10.6~3.10.11(必ずこの範囲のバージョンを使用)
  2. Git: 最新版で問題ありません
  3. 十分なスペックのPC: VRAM 15GB以上のGPUを搭載したPC
  1. Pythonのインストール

①Pythonの公式サイトからPython 3.10.11をダウンロード

②インストール時に「Add python.exe to PATH」にチェックを入れる

③インストール完了後、コマンドプロンプトで<python –version>と入力して正しくインストールされたか確認

  1. Gitのインストール

①Git公式サイトから最新版をダウンロード

②インストーラーを実行し、基本的にはデフォルト設定のままでOK

  1. SVD-webuiのインストール

①インストールしたい場所でターミナルを開く(フォルダを開いて右クリック→「ターミナルで開く」)

②以下のコマンドを実行してリポジトリをクローン
git clone --recurse-submodules https://github.com/sdbds/SVD-webui/

SVD-webuiフォルダに移動
cd SVD-webui

④以下のコマンドを実行
git submodule update --recursive --init

⑤インストールスクリプトを実行
./install.ps1

  1. モデルのダウンロード

①Hugging Faceからモデルをダウンロード

svd.safetensors(14フレーム生成用、約9GB)
svd_xt.safetensors(25フレーム生成用、約9GB)

ダウンロードしたモデルをSVD-webui\checkpointsフォルダに配置

  1. SVD-webuiの起動

①SVD-webuiフォルダ内のrun_gui.ps1を右クリック→「PowerShellで実行

②ブラウザが自動的に開き、Stable Video DiffusionのWebUIが表示される

これでローカル環境での準備は完了です!

プロンプトジェネレーターで画像生成プロンプトの参考に!
  • Stable Diffusionのプロンプトの見本が知りたい
  • 画像生成が思ったようにできない
  • 色々なプロンプトを探したい
など、画像生成AIのプロンプトに関する疑問が解決するかもしれません。

Stable Video Diffusionの使い方

Stable Video Diffusionを使って実際に動画を生成してみましょう。基本的な使い方はとてもシンプルです。

基本的な使い方

①WebUIの画面で「ここに画像をドロップ-または-クリックしてアップロード」に画像をドラッグ&ドロップ

②必要に応じて設定を調整

  • resize to optimal size: オンにすると最適なサイズに画像をリサイズします(基本的にはオンで)
  • Advanced optionsを開くと以下の設定が可能です。
    • number of frames: 生成する動画のフレーム数(モデルによって上限が異なる)
    • number of steps: ノイズから画像を生成するステップ数(多いほど精度が上がるが時間がかかる)
    • seed: 同じ結果を再現するための値(特定の値を入れると同じ動画が生成される)
    • number of frames decoded at a time: 一度に処理するフレーム数(デフォルト値の2推奨)
    • frames per second: 動画のフレームレート(5〜30fpsで設定可能)
    • motion bucket id: 動きの大きさ(数値が大きいほど動きが大きくなる)
    • condition augmentation factor: 元の画像からの変化度(数値が小さいほど元画像に忠実)

③「Run」ボタンをクリック

④生成された動画が表示されるので、ダウンロードボタンから保存

動画生成のコツとポイント

動画を生成する際は、以下の5つのポイントを押さえてみてください!

  • 適切な入力画像を選ぶ: 1024×576のサイズが最適(このサイズで学習されている)
  • 動きのイメージを持つ: 画像からどう動かしたいかイメージできる画像が良い
  • motion bucket idの調整: 値を上げると動きが大きく、下げると控えめになる
  • 初めは短いフレーム数から: 生成時間を短縮するため、まずは少ないフレーム数で試す
  • seedを記録する: 良い結果が出たら、そのseed値をメモしておく

SVD-XT 1.1の新機能と改善点

2024年2月にリリースされたStable Video Diffusion 1.1(SVD-XT 1.1)では、いくつかの改善が行われました。

SVD-XT 1.1の主な特徴は、以下の通りです。

  • ファイルサイズの削減: 1.0では9GB近くあったモデルが1.1では半分の4.5GBに
  • 顔の崩れの改善: 1.0で顔が崩れるケースが多かったが、1.1ではその出現率が減少
  • 自然な動きの改善: より自然で滑らかな動きを生成できるように
  • 生成の安定性向上: 全体的に動画生成の安定性が向上

使用方法は基本的に1.0と同じですが、より高品質な動画が生成できるようになっています。

Stable Video Diffusionで生成できる動画の種類

Stable Video Diffusionでは様々なタイプの動画を生成できます。どのような動画が作れるのか、いくつか例を見てみましょう。

カメラワークの追加

静止画に対して、ズームイン・ズームアウト・パンニングなどのカメラワークを追加した動画を生成できます。風景写真や建物の写真などに効果的です。

被写体の動き

人物や動物、乗り物などの被写体に動きを追加できます。例えば:

  • 人物が歩いたり、表情を変えたりする動き
  • 動物が走ったり、頭を動かしたりする動き
  • 乗り物が走行する様子
  • 水や煙などの自然現象の動き

背景の変化

雲の動きや水面のさざ波、木々の揺れなど、背景に微妙な動きを追加できます。

アニメーション効果

イラストやアート作品に命を吹き込むような動きを追加できます。

Google ColabとローカルでのStable Video Diffusion比較

Google ColabとローカルでのStable Video Diffusionの使用には、それぞれメリット・デメリットがあります。どちらを選ぶべきか比較してみましょう。

項目Google Colabローカル環境
必要なPC環境低スペックでもOK高スペックGPUが必要
初期設定の難易度簡単やや複雑
利用可能時間制限あり無制限
生成速度不安定(混雑状況による)安定
カスタマイズ性限定的高い
コスト無料〜月額課金初期投資のみ

PCのスペックとコストを考慮して、自分に合った方法を選びましょう。まずは無料のGoogle Colabで試してから、本格的に使いたいならローカル環境を検討するのが良いでしょう。

Stable Video Diffusionの商用利用について

Stable Video Diffusionを商用目的で使用したい場合は、以下の点に注意が必要です。

  • 無料版: 研究および非営利目的のみ利用可能
  • 有料メンバーシップ: Stability AIのメンバーシッププランに加入すれば商用利用も可能

Stability AIの有料プランについて

2023年12月から開始されたStability AIのメンバーシップには以下のプランがあります。

  1. 非商用プラン: 個人・研究利用向けの無料プラン
  2. プロフェッショナルプラン: 月額20ドル、商用利用可能(一定条件あり)
  3. エンタープライズプラン: カスタム価格、大規模な商用利用向け

プロフェッショナルプランの条件には、以下の条件があるので要注意です※

  • 年間収益1億円未満
  • 機関投資1億円未満
  • 月間アクティブユーザー100万人未満

商用利用する場合は必ずメンバーシップに加入し、利用規約を確認してください。また、生成した動画の著作権や利用範囲についても理解しておくことが重要です。

Stable Video Diffusionと他の動画生成AIの比較

現在、複数の動画生成AI技術が登場しています。Stable Video Diffusionと他のツールを比較してみましょう!

Stable Video Diffusion vs Runway Gen-2

  • Runway Gen-2: テキストから動画を生成できる、UIが直感的、商用利用可能(有料)
  • Stable Video Diffusion: 画像から動画を生成、オープンソース、非商用なら無料

Stable Video Diffusion vs AnimateDiff

  • AnimateDiff: Stable Diffusionの拡張機能、低スペックPCでも動作可能、フレーム数少なめ
  • Stable Video Diffusion: 独立したモデル、より高品質な動画生成、高スペック要求

Stable Video Diffusion vs Pika Labs

  • Pika Labs: テキストから動画を生成、Discord経由で使用可能、商用利用可(有料プラン)
  • Stable Video Diffusion: 画像からの生成に特化、ローカルでも使用可能

それぞれのツールに特徴があるので、用途に応じて使い分けるのがおすすめです!

※それぞれ紹介し滝字もありますので、チェックしてみてください!

【FAQ】Stable Video Diffusionに関するよくある質問

Stable Video Diffusionに関するよくある質問に答えます!

Q
Stable Video Diffusionを使うにはStable Diffusionが必要ですか?
A

いいえ、Stable Video Diffusionは独立したツールなので、Stable Diffusionがなくても使用できます。ただし、入力画像を生成するためにStable Diffusionを使うと便利です。

Q
VRAMはどうやって確認すればよいですか?
A

Windowsの場合、タスクマネージャー(Ctrl+Alt+Delete)→「パフォーマンス」タブ→GPUで、専用GPUメモリを確認できます。Macの場合は「このMacについて」→「グラフィック」で確認できます。

Q
Google Colabでエラーになりました
A

以下の点を確認してください。

  • デモのコードを自分のドライブにコピーしているか
  • セルを上から順に実行しているか
  • Hugging Faceにログインしているか
  • ランタイムのセッションを再起動したか
  • Colabのリソースが不足していないか
Q
もっと簡単にStable Video Diffusionを試す方法はありませんか?
A

Stable Video」というWebサービスを利用すれば、ブラウザから簡単にStable Video Diffusionを試せます。毎日無料クレジットが付与されるので、気軽に試すのに適しています。

Q
ローカル環境での動画生成が遅いのですが、改善方法はありますか?
A

以下の方法で改善できる可能性があります。

  • フレーム数を減らす
  • ステップ数を減らす
  • 解像度を下げる
  • GPUのドライバーを最新版に更新する
  • 他のアプリケーションを閉じてリソースを確保する

まとめ

いかがでしたでしょうか?

Stable Video Diffusionの概要から使い方、ローカル環境の構築方法、商用利用の注意点まで詳しくご紹介しました。

この記事で紹介したことをまとめると次のようになります。

  • Stable Video Diffusionは画像1枚から自然な動画を生成できるAIツール
  • Google Colabを使えば低スペックPCでも使用可能、ローカル環境なら高品質の動画が安定して生成できる
  • 動画生成は基本的に画像をアップロードして「Run」ボタンを押すだけというシンプルな操作
  • 商用利用の場合はStability AIのメンバーシッププランへの加入が必要
  • SVD-XT 1.1では顔の崩れが少なくなるなど、品質が向上している

AI動画生成に興味を持っていた方や、Stable Diffusionユーザーで動画も作ってみたいと思っていた方に、かなり助けになる情報だったのではないでしょうか?

ぜひ、皆さんも1枚の画像から動く世界を創造する、Stable Video Diffusionを試してみてください!