Google DeepMind、1枚の画像から探索可能な3D世界を生成するAI「Genie 2」を発表 | romptn Magazine

Google DeepMind、1枚の画像から探索可能な3D世界を生成するAI「Genie 2」を発表

AIニュース

Google DeepMindは2024年12月4日、1枚の画像からインタラクティブな3D環境を生成できる画期的なAIモデル「Genie 2」を発表しました。このモデルは、単一の入力画像から人間やAIエージェントが実際に探索可能な3D世界を作り出すことができます。

スポンサーリンク

革新的な技術の仕組み

Genie 2は、大規模な動画データセットで訓練された自己回帰潜在拡散モデルです。このモデルは、Google DeepMindが開発した最新の画像生成AI「Imagen 3」と連携して動作し、生成された画像や実世界の写真から最大1分程度探索可能な3D環境を構築します。

主な特徴と機能

  1. 多様な視点での環境生成
  • 一人称視点/三人称視点
  • 車の後方からの追従視点
  • クオータービューなどの俯瞰視点
  1. リアルな物理演算と相互作用
  • 重力、水、煙などの物理効果
  • 照明と反射
  • キャラクターアニメーション
  • NPCとの相互作用
  1. 高度な空間認識
  • 視界外の環境の記憶と再現
  • キャラクターの正確な識別と移動制御
  • キーボードとマウス操作への応答

実用的な応用可能性

Google DeepMindによれば、Genie 2には以下のような実用的な応用が期待されています。

  1. AIエージェント訓練 研究者たちは、多様な訓練環境を迅速に作成することが可能になり、AIの学習効率が大幅に向上すると期待されています。特に、SIMAなどのAIエージェントの行動学習に活用できます。
  2. クリエイティブワーク支援 アーティストやデザイナーは、アイデアを素早くプロトタイプ化し、視覚化することができます。これにより、創造的なワークフローが効率化されると考えられています。

今後の展望

現在、Genie 2の研究開発はまだ初期段階にあります。Google DeepMindの研究チームは、この技術を以下の観点から更に発展させることを目指しています。

  • 生成能力の一般性向上
  • 環境の一貫性強化
  • 安全なAIエージェント訓練の実現
  • 汎用AI開発への応用

Genie 2の登場により、単一画像からインタラクティブな3D環境を生成する技術が大きく前進しました。この技術は、ゲーム開発やバーチャル環境の構築、AIの訓練など、幅広い分野での活用が期待されています。