【Soraの使い方】OpenAIの動画生成AIを徹底解説!Runway越え? | romptn Magazine

【Soraの使い方】OpenAIの動画生成AIを徹底解説!Runway越え?

AIツール

「動画作成は初めから学ぶのも大変だし、作るのも時間がかかる」こんな悩みが多いのではないでしょうか?

実際に、動画作成にはハイスペックなパソコンを準備して動画作成の勉強をして、ようやく動画が作れるところまで到達します。さらには、編集にかかる時間も膨大になります。

しかし、この常識を打ち破るサービスが現れたのをご存知でしょうか?

2024年2月15日にOpenAI社から「Sora」というサービスが登場しました。

このサービスは従来のAIで作成できる数秒ほどの動画ではなく、動画の長さも品質もかなりの物を作成できます。

今回は、「sora」の概要から料金、仕組み、いつから一般公開されるのか?などを詳しく解説します。

ぜひ最後までご覧ください。

スポンサーリンク

OpenAIの最新動画生成AI「Sora」とは?

この章では「Sora」の概要について以下の3点で解説します。

  • Soraのデモ動画を紹介
  • Soraの料金について解説
  • Soraの仕組みを解説

このサービスは、2024年2月15日にOpen AI社から公開された「Text-To-Videoモデル」のサービスです。

引用:X
引用:X

Soraのデモ動画を紹介

以下はSoraで作成されたデモ動画です。

引用:Open AI

あまりに自然すぎるクオリティと動画の長さも圧巻です。

また以下のようなアニメ風なものを作ることができるようです。

引用:Open AI

表情も豊かに表現されています。ここまでの動画を簡単に作れてしまうことが驚きですね。

Soraの料金について解説

Soraの料金について、既存サービスのRunwayと比較してました。

以下が料金を比較した表です。

料金プランBasicStandardProUnlimited
Sora未公開未公開未公開未公開
Runway無料12ドル/月28ドル/月76ドル/月

Soraについては、一般公開がまだなので利用料金は公開されておりません。

しかしながら、料金設定は既存サービスと同じかそれに追従する形になると予想されます。

Soraの仕組みを解説

Soraの仕組みについては、公式サイトのテクニカルレポートの詳細が記載されています。

今回は、テクニカルレポートの内容をもとに仕組みを解説していきます。

Soraは「Diffusion Transformer」という生成AIモデルを使っていて、以下のような要素で構成されています

  • 視覚データをパッチに変換する
  • ビデオ圧縮ネットワーク
  • 時空間潜在パッチ
  • ビデオ生成のためのトランスフォーマースケーリング
  • DALLE3を活用したビデオキャプショニングによるデータ生成

詳細な内容はかなり専門的なので割愛しますが、特別な新しい技術を採用しているわけではなく、今まで使われてきた技術を応用して莫大なAIの訓練を積み重ねることで実現したものだというとがわかります。

Soraはいつから使える?

現在はまだ一般公開されていませんが、その理由としてはOpenAIのレッドチーム(AIの問題点を研究する専門的なチーム)が安全にSoraを利用できるか検証中だからです。

一部のクリエイターなどには許可されているようなので、一般公開されるのが楽しみです。

Soraの使い方・できることを紹介

この章では、Soraの使い方やできることを紹介していきます。

まだ、未公開なので公開されている情報をもとに解説します。

Text-To-Video

Text -To-VideoはSoraが推している目玉の機能となります。

ドローンで車を追跡して撮影している風景のように見えますが、あまりにもリアルすぎて本当に撮影したかのような映像です。

テキスト情報からここまでの動画が生成されてしまうから驚きです。

以下の動画はプロンプトによって生成された動画です。

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Image-to-Video・Video-to-Video

Soraはテキスト入力だけでなく、画像や動画をもとに動画を生成することが可能です。

工夫次第では、一つのアニメーション作品を作り上げることも可能なレベルのクオリティなので、一般公開が楽しみですね。

以下のようにアニメ画像をもとに動画を生成することも可能です。

DALL・Eで生成した画像で動画生成

Soraでは、DALL-E3で生成された画像とプロンプトによって、動画を作成することが可能です。

「ベレー帽と黒のタートルネックを着た柴犬」の画像がそのまま動画になるから驚きです。

引用:X

以下の投稿は先ほどの柴犬がSoraの機能によって動画になっている作品です。
普通の画像から、ここまで動きを作り出せるのはすごいの一言ですね。

引用:X

動画の拡張

Soraでは、既存の動画を前後に拡張することが可能となっています。

どういうことかと言いますと、例えば「既存の動画の前の状況を自動で作成してつなげる」ようなイメージです。

動画全体の尺が不足している場合などに活用できそうです。

また、自分でも想像がつかない展開を自動で作成してくれるかもしれませんので、面白い体験ができそうです。

動画の背景の編集

動画の背景も変更可能です。夏の風景を雪にしたり、近未来っぽくしたり、ドット絵のようにしたり。

元動画を忠実に再現した状態で、背景や雰囲気を変えることができるので、一つの動画を用意しておけば季節ごとに動画作成が可能になります。

また、背景を消す手間も省けるので人混みの中を撮影した動画編集などにも役立ちそうですね。

特に以下の動画をご視聴していただけると分かりますが、赤い車は変更せずに背景をプロンプト通りの背景に変更することもできます。

引用:X

動画の接続・自然なトランジション

動画と動画のシーンを変更する際にトランジションを用いると思いますが、Soraでも同様の処理をごく自然な形で行うことが可能です。

以下の動画は、全く違う動画を繋げ合わせて一つの動画にしています。

全く違う動画を繋ぎ合わせているにも関わらず、これくらい自然なトランジションとなっているので、動画編集の技術にか活用されそうですね!

動画のシミュレーション

Soraは動画のシミュレーションも行うことが可能です。

以下の動画では、カメラアングルが変わることで人物や風景も変わっています。

これは、カメラアングルの確認やドローンでの撮影などを事前にシミュレーションできそうです。

引用:X

また、以下のようなマインクラフトの動画を作成することもできてしまいます。

引用:X

画像生成

Soraでは、動画だけでなく画像生成AIとしても活用できます。

最大で2,048×2,048の高画質画像を生成可能です。

Midjourneyで作成できる画像と同じレベルか、さらに上を行くクオリティなので、動画だけではなく画像作成もSora一つで済んでしまう時代が来そうです。

引用:X

Soraに使われている技術とは?

この章では、Soraに使用されている技術を以下の4点で詳しく解説します。

  • ビジュアルデータ(動画や画像)のパッチ化
  • Video compression network(ビデオ圧縮ネットワーク)
  • Spacetime Latent Patches(時空潜在パッチ)
  • スケーリングトランスフォーマー

どれも専門的な言葉となりますが、Soraを理解する上で必要なキーワードです。

ビジュアルデータ(動画や画像)のパッチ化

ビジュアルデータのパッチ化というのは、

動画や画像などのデータをLLMのテキストトークンに似た形にする

ことを言います。

以下がその画像です。

引用:OpenAI

このパッチというものは、視覚データを効果的に表現することが先行研究結果がわかっています。

Video compression network(ビデオ圧縮ネットワーク)

Soraは動画を「低次元の潜在空間」という形に圧縮します。こうすることで、Soraが動画を認識しやすくなります。

そして、Video compression network(ビデオ圧縮ネットワーク)を使って、Soraが動画を学び動画を小さくし、その中の大事な情報のみを取り出すんです。

Soraはこの情報をもとに学習を行い、新しい動画を作ります。

Spacetime Latent Patches(時空潜在パッチ)

Spacetime Latent Patches(時空潜在パッチ)は、圧縮された動画から小さい情報を取り出し、これをもとに新しい動画を作り出すことを言います。

Soraは、この時空潜在パッチをを使って画像や動画を学び新しいものを作り出します。

スケーリングトランスフォーマー

まず前提として、Soraは「ディフュージョンモデル」という方法を使っています。

ディフィージョンモデルは、画像データ生成AIサービスによく使われる「生成AIモデル」の一つです。

また、トランスフォーマーという技術を使っており、これによって文章や画像、動画などを理解したり作ったりします。

スケーリングトランスフォーマーは、「トレーニングをたくさんやる中で失敗を沢山すると、どんどん品質が上がっていく方法」と覚えておけば良いでしょう。

以下がスケーリングトランスフォーマーをわかりやすく表した画像となります。

引用:OpenAI

期待できるSoraの活用事例を紹介

この章では、Soraの活用事例を以下の4点で解説します。

  • シンプルな画像から動画を作成
  • オリジナルのアニメを作成
  • YouTube動画の作成
  • 動画編集で副業

Soraがどのように活用できるのか?不明な点も多いと思いますので、活用が期待できる内容を見ていきましょう。

シンプルな画像から動画を作成

Soraは画像から動画を作成することが簡単にできるので、例えば自分の「お気に入りおもちゃのロボット写真」から動画を作成するなどが可能です。

写真が動き出したらすごく面白いですよね。

また、以下の投稿では波の絵がリアルに動画として再現されています。さらには、人が波乗りもしている状況を表しているのですごい迫力ある映像になっています。

少しだけ違和感がある部分もありますが、十分過ぎるクオリティです。

引用:X

オリジナルのアニメを作成

オリジナルアニメの作成にも活用できそうです。

例えば、

  • ChatGPTで台本を作成
  • Soraでオリジナルのアニメ風画像を作成
  • 作成したアニメ風画像をもとに動画を作成
  • 作成した動画を繋ぎ合わせて一本の映像にする

といった形です。

表情も豊かに表現されている点と、炎の揺らぎなども再現されているので、アニメーションとして使用しても全く問題なさそうです。

以下の投稿でもある通り、かなりのクオリティで作成ができそうです。

引用:X

Youtube動画の作成

テキストから動画を簡単に作成できるので、AI Youtuberとして活用もできそうです。

例えば、以下のような動画のキャラクターを使ってAI情報を発信したり、近未来のストーリーを作ってオリジナル短編映画を発信するとかもできます。

今後は、AIを活用した Youtuberも出てきそうなので、人間が作ったものなのか?AIが作ったものなのかが判別できなくなりそうです。

しかしながら、OpenAIではこの辺も判別できるようにする手段を考えているようなので安心できますね。

引用:OpenAI

動画編集で副業

Soraを活用することで簡単に動画作成や編集が可能となるので、動画編集を副業としてやる人も増えてきそうです。

例えば、

  • オリジナルアニメーションの作成
  • 企業紹介の動画作成
  • 結婚式のお祝い動画作成
  • VYoutuberの動画編集代行

などなど。

今まで動画編集に長時間費やしてきた常識が全て覆されるので、Soraが一般公開された時にどうなるのか気になるところです。

Soraの問題点・課題は?

良い点ばかりのSoraですが、問題点や課題はないのでしょうか?

この章では、以下の2点にについて解説します。

  • 複雑なシーンのシミュレート
  • 人や動物の出力

良い点ばかりではないので、しっかりと確認していきましょう。

複雑なシーンのシミュレート

Soraが現時点でできない複雑なシミュレートとしては、物理を正確にモデル化できない点です。

以下の投稿で紹介されているように、ガラスが割れた時の状況をうまく表現できていません。

ガラスの破片を表現するような複雑なシーンが難しいと言えます。

引用:X

人や動物の出力

人や動物の出力に問題が一部あるシーンが確認されています。

以下の投稿でもあるように、犬がどんどん増えている状況が確認できます。

引用:X

【Soraの使い方】OpenAIの動画生成AIを徹底解説!まとめ

OpenAIから発表された新しい動画生成サービス「Sora」について以下の通り解説してきました。

  • OpenAIの最新動画生成AI「Sora」とは?Runwayを越えたの?
  • Soraはいつから使える?
  • Soraの使い方・できることを紹介
  • Soraに使われている技術とは?
  • 期待できるSoraの活用事例を紹介
  • Soraの問題点・課題は?

一般公開されるまでどれくらいなのか気になるところですが、これだけの機能を早く使ってみたいものですね。

良い点も悪い点もありますが今後改善されてくるはずですので、正式サービス開始が楽しみです。

最後までご覧いただきありがとうございました。

romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
AIツールSora
スポンサーリンク
romptn Magazine