OpenAIは、テキスト指示からリアリスティックで想像力豊かなシーンをビデオとして生成可能なAIモデル「Sora」を発表しました。
まだ一般公開はされていませんが、公式サイトではSoraによって生成された動画が紹介されています。
このAIニュースのポイント:
- 「Sora」は、ユーザーが入力したテキスト指示に基づき、最大1分間のリアリスティックで創造的なシーンを動画として生成できるAIモデルです。
- モデルは言語の深い理解を持ち、複雑なシーンや特定の動き、正確な背景と被写体の詳細を生成する能力を備えています。
- OpenAIは、Soraの安全性を確保するために、誤解を招くコンテンツの検出ツールやC2PAメタデータの統合など、複数の安全対策を講じています。
OpenAIは、物理世界の動きを理解しシミュレートするAI開発の一環として、「Sora」の開発に取り組んでいます。このモデルは、ユーザーが提示するプロンプトに忠実に従いながら、最大60秒の高品質な動画を生成する能力を持っています。
公式で発表された動画では、東京のネオン街を歩くスタイリッシュな女性や、雪の中を歩く巨大なウールリーマンモスなど、多様なシーンが想像力豊かに作り出されていました。
「Sora」の能力
Soraは、DALL·E 3やGPTモデルの研究を基に作られています。特に、SoraはDALL·E 3からの再キャプション技術を使用し、トレーニングデータに対して非常に詳細なキャプションを生成することで、生成されたビデオがユーザーのテキスト指示に忠実に従うようにしています。
しかし、Soraにはまだ弱点が存在し、複雑なシーンの物理を正確にシミュレートすることや、特定の因果関係の理解に苦労する場合があります。例えば、クッキーをかじった後にクッキーにかじり跡が残らないなど、物理的に不自然な動きを生成することがあるようです。
動画生成AIとしての安全性について
安全性に関しては、OpenAIはSoraを公開製品に導入する前に、誤解を招くコンテンツを検出するためのツールや、生成されたビデオがSoraによって生成されたものであることを識別する分類器の開発など、複数の重要な安全対策を講じています。
また、DALL·E 3で使用されている既存の安全手法を活用し、使用ポリシーに違反するテキスト入力を拒否するように設計されています。
OpenAIは現在、教育者、政策立案者、アーティストとの協力を通じ、この新技術に対する懸念を理解し、有益な使用事例を特定しています。
そうした安全性への配慮が、まだ一般公開されていない大きな理由の一つであるようです。
出典: OpenAI 公式