MidjourneyでリアルなAI動画を生成する方法について徹底解説! | romptn Magazine

MidjourneyでリアルなAI動画を生成する方法について徹底解説!

Midjourney

現在最高品質のAI画像生成サービスMidjourney

Midjourneyでは当然のことながらAI画像を生成できるのですが、実はAIが生成したイメージの進化を簡潔なMidjourneyビデオに表現する機能も提供しています。

もう少し簡潔に言うとつまりは、動画を生成する機能もあるのです。

この機能が一体どれほどの実力なのか?

そしてリアルなAI画像から動画を作成する手法について今回は解説していきます。

このように音声付きで喋るAI動画が誰にでも比較的簡単に生成する事が出来ます。

では早速やっていきましょう!

スポンサーリンク

Midjourneyの使い方

Midjourneyはチャットアプリの「Discord」を通して画像を生成できるAI画像生成サービスです。

無料プランは終了しているため現在は月額10ドル〜でAI画像生成を楽しむことができます。

基本的な使い方を知らない方はこちらの記事を参考にしてください。

Midjourneyで動画を生成する方法

基本的なMidjourneyの使い方についてはわかっているものとし、今回は説明を省きます。

動画作成までの工程数が比較的多いので、そこを中心に説明する為ですのでご了承ください。

ではまず最初に画像を生成していきます。

①/imagineオプションを選択する

Midjourneyで画像を生成する際はチャット欄に「/imagine」を呼び出してプロンプトを送信します。

「/」だけ入れると候補に出てきますので、それを選択します。

②プロンプトを指定して送信する

「/imagine」の呼び出しができたら、その後からプロンプトを入力していきます。そしてプロンプトの最後に「–video」のパラメーターを入力します。  ※「-」x2です。お間違えのないように・・

「–video」が動画化するために必ず必要になりますので忘れないようにしましょう。

今回は:A young woman with sovage hair wearing a 1960s-style floral dress is dancing in a disco. –video

このプロンプトで生成された画像は以下のものです。

しっかりとプロンプトの通りに花柄のワンピースを着た若い女性がディスコで踊っています。

次にこの画像に動きをつけていきます。

③リアクションメニューを開く

リアクションメニューは右上の顔のマークから開きます。

次に検索欄が出てきますので、「envelope」と入力し、メールのマークを選択します。

④AI動画を生成する

AI動画を生成すると言ってもたったこれだけです。

これだけでMidjourney Botが動画を生成してくれます。

どんなものができたか見てみましょう。

いかがでしょうか?なんかイマイチですよね。

4枚の画像ができるまでの工程をつなげているだけのように見えます。

実はMidjourneyで動画を作成すると各サンプリングステップを繋ぎ合わせたような動画しか生成できません。

Midjourneyは画像生成のレベルは高いですが、今の所動画を生成する能力はすごくしょぼいのです。

近頃Open AIが発表し話題となっている「Sora」なんかと比べるとMidjourneyの動画生成能力は全く比べ物になりません。

ではどのようにすれば冒頭のようなAI生成動画を作れると思いますか?

・・・・・そうです!

別のツールと組み合わせて使えばいいのです。

ではその方法について書いていきます!

Midjourneyで生成したAI画像をAI動画にする方法

いくつかの工程がありますので簡潔にまとめました。

  1. 元となる画像を生成する
  2. Gen-2でAI動画を生成する
  3. you tubeに動画をアップする
  4. 音声を作成する
  5. Wav2Lipで音声に合わせて口を動かす

他にもやり方はあるのですが、今回はこの5つの工程でAI動画を生成していきます。

1, 元となる画像を生成する

元となる画像はとても大事です。

クォリティーの高い画像は最終的な動画のクオリティーにも大きく関わってきますのでMidjourneyで自分のお気に入りの画像を生成してください。

この工程では必ず人物が写っている画像が必要となります。

人物がいない画像を使うと「5, Wav2Lipで音声に合わせて口を動かす」の工程がうまくいきません。

それと画像のアップスケールはしないで下さい。解像度720p以上の画像ではWav2Lipが使えません。

以上の点に注意して画像を生成してください。

今回はプロンプトを『A Japanese Child talent is looking at me with a smile. Shortcut and petite, A shirt with a blue collar , 2050 style –ar 4:3』として以下の画像を生成しました。

この女の子を主人公にして私からのメッセージを皆さんにお届けしたいと思います。

また元画像についてはMidjourney以外のAI画像生成サービスで作成したものでも利用可能です。

Stable diffusinを使っている方はそこで作成した画像でも十分に使えます。

ご自身の環境に合わせて元画像を生成してください。

2, Gen-2でAI動画を生成する

Gen-2とは、テキストや画像から動画を生成することができるAIツールです。

基本的には月額15ドル〜の料金で使う有料サービスなのですが、今回作るような短い動画であれば無料の枠の中でも生成可能することが可能です。。

以下のURLからGen-2に行きましょう。

Gen-2 by Runway
A multimodal AI system that can generate novel videos with text, images or video clips.

Try Gen-2 in Runawayから入ります。

アカウント選択画面になるので無い方は作成しましょう。

ホーム画面からStart Generatingを選択

するとText/Image to Videoの画面に行きますので、画像をセットしGen-2にプロンプトを書きます。

今回はこんなプロンプトで動画にしています:Camera work that approaches person little by little. a Japanese child talent is looking at me with a smile. Shortcut and petite, Big eyes, A shirt with a blue collar,2050 style

セッテイングについてはデフォルトのままにしました。

そしてGenerate 4sを押します。

Gen-2は4秒ずつ動画を生成してくれます。

一発で良いものができる事は稀です。

プロンプトを工夫しながらより良いものに仕上げてください。(でも無料の範囲で使えるのは25回くらいです。)

最初の4秒に合格したらExtend 4sでさらに動画を伸ばしていきます。

今回はこれを3回繰り返したものを動画として使っていきます。

3, you tubeに動画をアップする

こうして作成した動画をyou tubeにアップします。

どうしてわざわざyou tubeにアップしなくてはならないかというと、工程5で使うWav2Lipがyou tubeから動画をダウンロードする仕様になっているからです。

ですので後ほどアップされた動画のURLが必要になりますので覚えておいてください。

そして動画をアップする際は「一般公開」にしてください。

そうでないとWav2Lipが動画をダウンロードができません。

4, 音声を作成する

女の子が話をしている音声データを作成します。

ツールは様々ありますが、今回はメジャーな「音読さん」を使いました。

日本語 音声読み上げソフト|音読さん
音声読み上げソフト音読さんは無料で最大5000文字までテキストを読み上げることができます。また、有料プランでは最大月間100万文字の読み上げができます。高品質な音声で読み上げられた文章は音声ファイル(.mp3)として読み上げることができ商用利用も可能です。

もちろん他のツールで作成した音源でも使用可能です。

あなたの伝えたいメッセージを込めてご自由に音声データを作成してください。

作成した音声データは自分のわかる場所に保管しておいてください。

5, Wav2Lipで音声に合わせて口を動かす

Wav2Lipはgit hubで公開されている無料のツールです。

今回のように動画に口パクの動きをつけることができます。

PC上に環境を構築したりもできるのですが、グーグルコラボで簡単に使えるようにしてくださっている方がいますのでこちらを使わせていただきます。

ブラウザは必ずchromeを使用してください。(chrome以外ではエラーが出ます)

コラボでのハードウェアアクセラレーターは T4 GPU が必要となりますが、1回の作成だけであれば無課金でもギリギリ間に合います。

下記のURLからコラボを開いてください。

Google Colaboratory

そして必ずドライブにコピーして使いましょう

使い方はStep1から順番に動かしていくだけです。

・Step1は環境構築なので三角マークをポチッとしてしばらく待っていると「All set and ready!」が出ます。それでStep1は完了です。

・Step2は動画を取り込みます。

YOUTUBE_URLに先ほどアップ動画のURLを入力し、Trim the video (start, end) secondsに動画として使う範囲を入力します。

リンクのフォーマットで www から始まるアドレスを使う仕様となっていますので間違えないで下さい。

そしてStep2の三角形をぽちっとします。

動画が取り込みできればStep2は終了です。

・Step3は音声の取り込みをします。

最初にStep3の三角形を押すとファイル選択画面になりますので先ほど作成した音源を選択します。

これだけでStep3は終了です。

・Step4で音声と動画を統合します。

やり方はStep4の三角マークを押すだけです。

1分前後で音声と画像を統合してくれます。

完成したファイルは/content/drive/MyDrive/test.wavに保存されます。

場所が少しわかりにくいですがここにあります。

それでは完成した動画を見ていただきましょう。

これが私が全人類に届けたい心からののメッセージです。

てな感じでそつなく宣伝してみました(笑)

完成度としてはどうしても口元がぼやけてしまいますが、スマートフォンなどで見る場合はさほど気にならないかと思います。

広告分野でも十分に活用できそうですし、友人や恋人にメッセージ付き動画を送ってみるのもとても面白そうですね。

まとめ

いかがでしたでしょうか?

MidjourneyでリアルなAI動画を生成する方法について徹底解説!について解説してきました。

今回のポイントをまとめると、以下のようになります。

  • Midjourneyだけではクオリティーの高いAI動画を生成する事は難しい
  • よって他のAIツールも活用して動画化するのがお勧め(今回は動画化にGen-2と喋らせるのにWav2Lipを使用)

MidjourneyはAI画像生成サービスとしては最高品質を誇っていますが、動画生成についてはあまり力を入れていないようです。

でも色々なAI生成系のサービスを上手く使いこなす事で、誰もが比較的簡単にAI動画を生成することができます。

それぞれの得意な分野を活かしながら上手に使うことで、今まではできなかった事が実現可能になります。

Midjourneyで画像を生成してGen-2で動画にし、Wav2Lip喋らせるこの方法をみなさんもぜひお試し下さい。