Google DeepMindは2024年12月4日、1枚の画像からインタラクティブな3D環境を生成できる画期的なAIモデル「Genie 2」を発表しました。このモデルは、単一の入力画像から人間やAIエージェントが実際に探索可能な3D世界を作り出すことができます。
革新的な技術の仕組み
Genie 2は、大規模な動画データセットで訓練された自己回帰潜在拡散モデルです。このモデルは、Google DeepMindが開発した最新の画像生成AI「Imagen 3」と連携して動作し、生成された画像や実世界の写真から最大1分程度探索可能な3D環境を構築します。
主な特徴と機能
- 多様な視点での環境生成
- 一人称視点/三人称視点
- 車の後方からの追従視点
- クオータービューなどの俯瞰視点
- リアルな物理演算と相互作用
- 重力、水、煙などの物理効果
- 照明と反射
- キャラクターアニメーション
- NPCとの相互作用
- 高度な空間認識
- 視界外の環境の記憶と再現
- キャラクターの正確な識別と移動制御
- キーボードとマウス操作への応答
実用的な応用可能性
Google DeepMindによれば、Genie 2には以下のような実用的な応用が期待されています。
- AIエージェント訓練 研究者たちは、多様な訓練環境を迅速に作成することが可能になり、AIの学習効率が大幅に向上すると期待されています。特に、SIMAなどのAIエージェントの行動学習に活用できます。
- クリエイティブワーク支援 アーティストやデザイナーは、アイデアを素早くプロトタイプ化し、視覚化することができます。これにより、創造的なワークフローが効率化されると考えられています。
今後の展望
現在、Genie 2の研究開発はまだ初期段階にあります。Google DeepMindの研究チームは、この技術を以下の観点から更に発展させることを目指しています。
- 生成能力の一般性向上
- 環境の一貫性強化
- 安全なAIエージェント訓練の実現
- 汎用AI開発への応用
Genie 2の登場により、単一画像からインタラクティブな3D環境を生成する技術が大きく前進しました。この技術は、ゲーム開発やバーチャル環境の構築、AIの訓練など、幅広い分野での活用が期待されています。