【Soraの使い方】OpenAIの動画生成AIを徹底解説！Runway越え？

「動画作成は初めから学ぶのも大変だし、作るのも時間がかかる」こんな悩みが多いのではないでしょうか？

実際に、動画作成にはハイスペックなパソコンを準備して動画作成の勉強をして、ようやく動画が作れるところまで到達します。さらには、編集にかかる時間も膨大になります。

しかし、この常識を打ち破るサービスが現れたのをご存知でしょうか？

2024年2月15日にOpenAI社から「Sora」というサービスが登場しました。

このサービスは従来のAIで作成できる数秒ほどの動画ではなく、動画の長さも品質もかなりの物を作成できます。

今回は、「sora」の概要から料金、仕組み、いつから一般公開されるのか？などを詳しく解説します。

ぜひ最後までご覧ください。

📖この記事のポイント

「Sora」は、テキストから超リアルで長尺の動画を作れる革命的なAI！もはや本物の映像と見分けがつかないレベル！
静止画をアニメーションにしたり、DALL-E3で作ったイラストをそのまま動画にしたりもできる！
すでにある動画の前後のシーンをAIに作らせて延長したり、全く別の動画同士を自然につなぎ合わせたりと、編集機能も超強力！
新しいAIツールや新機能を誰よりも早く収入に繋げるためのコツを生成AIのプロから無料で学ぼう！
SHIFT AIの無料セミナーならAIのプロから無料で収入に直結するAIスキル習得から仕事獲得法まで学べる！
今すぐ申し込めば、超有料級の12大特典も無料でもらえる！

\ 累計受講者10万人突破 /

無料AIセミナーを見てみる

OpenAIの最新動画生成AI「Sora」とは？
Soraはいつから使える？
Soraの使い方・できることを紹介
Soraに使われている技術とは？
期待できるSoraの活用事例を紹介
Soraの問題点・課題は？
- 複雑なシーンのシミュレート
- 人や動物の出力
【Soraの使い方】OpenAIの動画生成AIを徹底解説！まとめ

OpenAIの最新動画生成AI「Sora」とは？

この章では「Sora」の概要について以下の3点で解説します。

Soraのデモ動画を紹介
Soraの料金について解説
Soraの仕組みを解説

このサービスは、2024年2月15日にOpen AI社から公開された「Text-To-Videoモデル」のサービスです。

OpenAIのSoraで生成された動画で一番衝撃的なのはこの動画。

窓の反射具合とか、窓が暗くなった時に映り込む女性の像とか、昨日まででこれ見せられたら自分でも「これはAI生成ではないですねー」って答えてしまっていたと思う。 pic.twitter.com/5yY4ZEyoOU
— 梶谷健人 / POSTS (@kajikent) February 16, 2024

引用：X

【OpenAI Soraの動画作品-8選】
動画生成AIモデルSoraは本当に衝撃だった。

ここまで飛躍的にクオリティ（一貫性やカメラワークや表現）が上がるとは昨日まで思っても見なかった。映像業界やコンテンツ市場が大きく塗り替わる。

いくつかのサンプルをまとめました！
1/8pic.twitter.com/jD8KIypsji
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) February 15, 2024

引用：X

Soraのデモ動画を紹介

以下はSoraで作成されたデモ動画です。

引用:Open AI

あまりに自然すぎるクオリティと動画の長さも圧巻です。

また以下のようなアニメ風なものを作ることができるようです。

引用:Open AI

表情も豊かに表現されています。ここまでの動画を簡単に作れてしまうことが驚きですね。

Soraの料金について解説

Soraの料金について、既存サービスのRunwayと比較してました。

以下が料金を比較した表です。

料金プラン	Basic	Standard	Pro	Unlimited
Sora	未公開	未公開	未公開	未公開
Runway	無料	12ドル/月	28ドル/月	76ドル/月

Soraについては、一般公開がまだなので利用料金は公開されておりません。

しかしながら、料金設定は既存サービスと同じかそれに追従する形になると予想されます。

Soraの仕組みを解説

Soraの仕組みについては、公式サイトのテクニカルレポートの詳細が記載されています。

今回は、テクニカルレポートの内容をもとに仕組みを解説していきます。

Soraは「Diffusion Transformer」という生成AIモデルを使っていて、以下のような要素で構成されています

視覚データをパッチに変換する
ビデオ圧縮ネットワーク
時空間潜在パッチ
ビデオ生成のためのトランスフォーマースケーリング
DALLE3を活用したビデオキャプショニングによるデータ生成

詳細な内容はかなり専門的なので割愛しますが、特別な新しい技術を採用しているわけではなく、今まで使われてきた技術を応用して莫大なAIの訓練を積み重ねることで実現したものだというとがわかります。

Soraはいつから使える？

現在はまだ一般公開されていませんが、その理由としてはOpenAIのレッドチーム（AIの問題点を研究する専門的なチーム）が安全にSoraを利用できるか検証中だからです。

一部のクリエイターなどには許可されているようなので、一般公開されるのが楽しみです。

Soraの使い方・できることを紹介

この章では、Soraの使い方やできることを紹介していきます。

まだ、未公開なので公開されている情報をもとに解説します。

Text-To-Video

Text -To-VideoはSoraが推している目玉の機能となります。

ドローンで車を追跡して撮影している風景のように見えますが、あまりにもリアルすぎて本当に撮影したかのような映像です。

テキスト情報からここまでの動画が生成されてしまうから驚きです。

以下の動画はプロンプトによって生成された動画です。

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Image-to-Video・Video-to-Video

Soraはテキスト入力だけでなく、画像や動画をもとに動画を生成することが可能です。

工夫次第では、一つのアニメーション作品を作り上げることも可能なレベルのクオリティなので、一般公開が楽しみですね。

以下のようにアニメ画像をもとに動画を生成することも可能です。

DALL・Eで生成した画像で動画生成

Soraでは、DALL-E3で生成された画像とプロンプトによって、動画を作成することが可能です。

「ベレー帽と黒のタートルネックを着た柴犬」の画像がそのまま動画になるから驚きです。

【画像からの動画生成】
上で散々soraについて熱弁したところですが、soraのすごさはそれだけではありません。
画像と併せてプロンプトを入力し、画像の前後を拡張し、動画化することができます。… pic.twitter.com/XoRKgYyJlS
— 維新エンターテインメント (@ishinentame) February 22, 2024

引用：X

以下の投稿は先ほどの柴犬がSoraの機能によって動画になっている作品です。
普通の画像から、ここまで動きを作り出せるのはすごいの一言ですね。

pic.twitter.com/MBSKBbptxq
— WEELサイ🦏生成AI専門メディアの中の人 (@h__alchemist) February 20, 2024

引用：X

動画の拡張

Soraでは、既存の動画を前後に拡張することが可能となっています。

どういうことかと言いますと、例えば「既存の動画の前の状況を自動で作成してつなげる」ようなイメージです。

動画全体の尺が不足している場合などに活用できそうです。

また、自分でも想像がつかない展開を自動で作成してくれるかもしれませんので、面白い体験ができそうです。

動画の背景の編集

動画の背景も変更可能です。夏の風景を雪にしたり、近未来っぽくしたり、ドット絵のようにしたり。

元動画を忠実に再現した状態で、背景や雰囲気を変えることができるので、一つの動画を用意しておけば季節ごとに動画作成が可能になります。

また、背景を消す手間も省けるので人混みの中を撮影した動画編集などにも役立ちそうですね。

特に以下の動画をご視聴していただけると分かりますが、赤い車は変更せずに背景をプロンプト通りの背景に変更することもできます。

【朗報】AIがこれまで苦手としていた“動画の変換”を命令ひとつで自然に行う新AI『Sora』登場

元の動画
↓
「雪道に変えて」と命令
↓
「ドット絵っぽくして」と命令
↓
「サイバーパンク風にして」と命令
↓
「ジュラ紀にして」と命令
↓
「レインボーロードにして」と命令#本日の謎技術 #Sora pic.twitter.com/qNKJZwEC1v
— 滝沢ガレソ (@tkzwgrs) February 16, 2024

引用：X

動画の接続・自然なトランジション

動画と動画のシーンを変更する際にトランジションを用いると思いますが、Soraでも同様の処理をごく自然な形で行うことが可能です。

以下の動画は、全く違う動画を繋げ合わせて一つの動画にしています。

全く違う動画を繋ぎ合わせているにも関わらず、これくらい自然なトランジションとなっているので、動画編集の技術にか活用されそうですね！

動画のシミュレーション

Soraは動画のシミュレーションも行うことが可能です。

以下の動画では、カメラアングルが変わることで人物や風景も変わっています。

これは、カメラアングルの確認やドローンでの撮影などを事前にシミュレーションできそうです。

【⚡️超速報：OpenAIが動画生成AI「Sora」をリリース】

これは衝撃的すぎた。
色々動画生成AI見てきたが、動画の質が高すぎる。
しかも60秒の動画を生成できるってヤバい。

text-to-video モデルで「Sora」という名称。

これで、

・テキスト
・画像
・動画
・ファイル（Excel、パワポ etc）… pic.twitter.com/AUJ9iFUWxn
— チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》 (@masahirochaen) February 15, 2024

引用：X

また、以下のようなマインクラフトの動画を作成することもできてしまいます。

これ，実際のマイクラのプレイ画面ではなくて，Soraの生成動画らしいです．
これが最初に流れてきた時はさすがに私も「フェイク乙」となったんですが，もうこのレベルでデジタルゲームの画面も生成できるようです．
OpenAIの動画生成AI恐るべし pic.twitter.com/IKRqiOGrkx
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) February 16, 2024

引用：X

画像生成

Soraでは、動画だけでなく画像生成AIとしても活用できます。

最大で2,048×2,048の高画質画像を生成可能です。

Midjourneyで作成できる画像と同じレベルか、さらに上を行くクオリティなので、動画だけではなく画像作成もSora一つで済んでしまう時代が来そうです。

Soraの画像がMidjourneyの画像に似てると話題に。
ってことは・・・DALL·E 4でMidjourneyに酷似した画像生成ができると解釈してOKってことか。。。

MidjourneyはWEB版が出て、これからなのに。

MSの1.3兆円の投資による「OpenAI無双」がとんでもない。pic.twitter.com/YJWRlxk3H0
— とーます｜AIコーチの開発＆共有プラットフォーム (@Xroid_Lab) February 20, 2024

引用：X

Soraに使われている技術とは？

この章では、Soraに使用されている技術を以下の４点で詳しく解説します。

ビジュアルデータ（動画や画像）のパッチ化
Video compression network（ビデオ圧縮ネットワーク）
Spacetime Latent Patches（時空潜在パッチ）
スケーリングトランスフォーマー

どれも専門的な言葉となりますが、Soraを理解する上で必要なキーワードです。

ビジュアルデータ（動画や画像）のパッチ化

ビジュアルデータのパッチ化というのは、

「動画や画像などのデータをLLMのテキストトークンに似た形にする」

ことを言います。

以下がその画像です。

このパッチというものは、視覚データを効果的に表現することが先行研究結果がわかっています。

Video compression network（ビデオ圧縮ネットワーク）

Soraは動画を「低次元の潜在空間」という形に圧縮します。こうすることで、Soraが動画を認識しやすくなります。

そして、Video compression network（ビデオ圧縮ネットワーク）を使って、Soraが動画を学び動画を小さくし、その中の大事な情報のみを取り出すんです。

Soraはこの情報をもとに学習を行い、新しい動画を作ります。

Spacetime Latent Patches（時空潜在パッチ）

Spacetime Latent Patches（時空潜在パッチ）は、圧縮された動画から小さい情報を取り出し、これをもとに新しい動画を作り出すことを言います。

Soraは、この時空潜在パッチをを使って画像や動画を学び新しいものを作り出します。

スケーリングトランスフォーマー

まず前提として、Soraは「ディフュージョンモデル」という方法を使っています。

ディフィージョンモデルは、画像データ生成AIサービスによく使われる「生成AIモデル」の一つです。

また、トランスフォーマーという技術を使っており、これによって文章や画像、動画などを理解したり作ったりします。

スケーリングトランスフォーマーは、「トレーニングをたくさんやる中で失敗を沢山すると、どんどん品質が上がっていく方法」と覚えておけば良いでしょう。

以下がスケーリングトランスフォーマーをわかりやすく表した画像となります。

期待できるSoraの活用事例を紹介

この章では、Soraの活用事例を以下の4点で解説します。

シンプルな画像から動画を作成
オリジナルのアニメを作成
YouTube動画の作成
動画編集で副業

Soraがどのように活用できるのか？不明な点も多いと思いますので、活用が期待できる内容を見ていきましょう。

シンプルな画像から動画を作成

Soraは画像から動画を作成することが簡単にできるので、例えば自分の「お気に入りおもちゃのロボット写真」から動画を作成するなどが可能です。

写真が動き出したらすごく面白いですよね。

また、以下の投稿では波の絵がリアルに動画として再現されています。さらには、人が波乗りもしている状況を表しているのですごい迫力ある映像になっています。

少しだけ違和感がある部分もありますが、十分過ぎるクオリティです。

「Sora」はテキストからだけでなく、画像+テキストからも動画生成可能。

前半の波が壁に跳ね返るとことかは割とうまく描画されているけど、最後の方はサーファーが宙に浮いてしまっている。とはいえ物理演算の片鱗を、UnityやUEなどすっ飛ばして実現しているのは驚異的。https://t.co/gKVMRUgSHR pic.twitter.com/EoXOUCz7YA
— 梶谷健人 / POSTS (@kajikent) February 16, 2024

引用：X

オリジナルのアニメを作成

オリジナルアニメの作成にも活用できそうです。

例えば、

ChatGPTで台本を作成
Soraでオリジナルのアニメ風画像を作成
作成したアニメ風画像をもとに動画を作成
作成した動画を繋ぎ合わせて一本の映像にする

といった形です。

表情も豊かに表現されている点と、炎の揺らぎなども再現されているので、アニメーションとして使用しても全く問題なさそうです。

以下の投稿でもある通り、かなりのクオリティで作成ができそうです。

OpenAIが突如リリースしたtext to videoの変換モデル「Sora」やば…

✦非常に詳細なシーン生成
✦複雑なカメラの動き
✦感情豊かな複数のキャラクター生成
✦最大 60 秒のビデオを作成可能

アニメーションも自然でクオリティ高くてすごい。(プロンプトも共有されてる)pic.twitter.com/xVaq5lsTYu
— 國光俊樹｜Algomatic(アポドリ) (@ku_ni_29) February 16, 2024

引用：X

Youtube動画の作成

テキストから動画を簡単に作成できるので、AI Youtuberとして活用もできそうです。

例えば、以下のような動画のキャラクターを使ってAI情報を発信したり、近未来のストーリーを作ってオリジナル短編映画を発信するとかもできます。

今後は、AIを活用した Youtuberも出てきそうなので、人間が作ったものなのか？AIが作ったものなのかが判別できなくなりそうです。

しかしながら、OpenAIではこの辺も判別できるようにする手段を考えているようなので安心できますね。

引用：OpenAI

動画編集で副業

Soraを活用することで簡単に動画作成や編集が可能となるので、動画編集を副業としてやる人も増えてきそうです。

例えば、

オリジナルアニメーションの作成
企業紹介の動画作成
結婚式のお祝い動画作成
VYoutuberの動画編集代行

などなど。

今まで動画編集に長時間費やしてきた常識が全て覆されるので、Soraが一般公開された時にどうなるのか気になるところです。

Soraの問題点・課題は？

良い点ばかりのSoraですが、問題点や課題はないのでしょうか？

この章では、以下の２点にについて解説します。

複雑なシーンのシミュレート
人や動物の出力

良い点ばかりではないので、しっかりと確認していきましょう。

複雑なシーンのシミュレート

Soraが現時点でできない複雑なシミュレートとしては、物理を正確にモデル化できない点です。

以下の投稿で紹介されているように、ガラスが割れた時の状況をうまく表現できていません。

ガラスの破片を表現するような複雑なシーンが難しいと言えます。

【Soraがまだできない事】
Soraがまだできないこととして、ガラスの破片のような現実世界の相互作用を正確にモデル化することはできないとされている。

海外では、発表していないだけで、OpenAIはすでに相互作用の物理を理解するモデルがあるという噂も。#Sora #動画生成AI pic.twitter.com/OzzoKN7uEb
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) February 17, 2024

引用：X

人や動物の出力

人や動物の出力に問題が一部あるシーンが確認されています。

以下の投稿でもあるように、犬がどんどん増えている状況が確認できます。

革命的なOpenAIの動画生成AI「sora」に見られる破綻事例。

犬がどんどんモーフィングで増えていってしまっているが、これはこういう表現として成立しているレベル。

今までの動画生成からすると、破綻の次元が違う。
pic.twitter.com/cGhkZASQxb
— そねち | AIクリエイター (@aisonesone) February 16, 2024

引用：X