ByteDanceと香港大学は、新たなAIモデル「Goku」と「Goku+」を発表しました。
あの人気キャラクターを想起させる名前なので、日本人としては少し名前に引っかかる部分がありますね、、(孫悟空はその作品だけのものではないので問題はない)
このモデルは、画像と動画の生成を統合し、広告やマーケティング向けの高品質な商用コンテンツ制作を可能にします。
近年、生成AIは画像・動画分野で急速に進化していますが、Gokuはこれまでにないアプローチで、より自然でシームレスな映像制作を実現する点が特徴とのことです。
本記事では、GokuやGoku+で作成されたコンテンツのご紹介や、その仕組みについて解説していきます。
参考:https://arxiv.org/abs/2502.04896
Gokuとは?画像と動画を統合する最新AIモデル

Gokuは、画像と動画の両方を高精度に生成できるAIモデルです。
従来の生成AIは、静止画か動画のどちらかに特化することが多かったのに対し、Gokuは統合型のアーキテクチャを採用し、両方を一貫して処理できる点が大きな特徴です。
Gokuの主な特徴

- 主要なベンチマークで最高のパフォーマンスを達成
- 「整流フロー」技術を活用し、スムーズな画像と動画の遷移を実現
- 1億6,000万枚の画像と3,600万本の動画を活用して学習
この技術により、静止画と動画の境界を曖昧にし、まるで現実の映像のようなクオリティを実現しています。広告・マーケティング分野だけでなく、映画やアニメーション制作など、幅広い用途での活用が期待されます。
Goku+とは?商用向けに強化されたモデル

Goku+は、Gokuをさらに強化し、特に商業コンテンツの制作に最適化されたモデルです。リアルな映像表現に特化し、広告やECサイト向けのコンテンツ作成を強力にサポートします。
動画を見てもらうとわかると思いますが、おそらく学習元データにTikTokの動画も含まれていそうです。人の顔の機微がかなり繊細になっています。
Goku+の主な機能

- リアルな人間アバターの生成:バーチャルモデルやインフルエンサーの作成が可能
- 製品写真をプロモーション動画に変換:静止画の商品画像から自動で動画を生成
- 動画内でリアルな製品と人のインタラクションを表現
例えば、ECサイトで商品の写真をアップロードするだけで、AIが自動的にプロモーション動画を作成することも可能になります。これにより、広告制作の手間が大幅に削減されるだけでなく、短期間で高品質なコンテンツを量産できるようになります。
まとめ:AIがもたらす映像制作の変革
GokuおよびGoku+自体は、まだプロダクトとして一般公開はされていません。
ただ、このような2025年中には、実用レベルで使えるようになる可能性が高いです。すると、以下のような変化がもたらされる可能性があります。
- 広告・マーケティングの効率化
AIによる自動生成技術の進化により、低コスト・短時間で高品質な動画制作が可能になります。これにより、企業の広告戦略にも大きな影響を与えるでしょう。 - 映像制作のハードルが低下
これまでプロの映像クリエイターが行っていた作業をAIが担うことで、より多くの企業や個人が手軽に高品質な映像コンテンツを制作できるようになります。 - AI生成コンテンツと現実の境界が曖昧に
AI技術の向上により、AI生成の映像と実写の違いがほぼ分からなくなる可能性があります。これにより、映像の信憑性に関する議論も今後活発化すると予想されます。
2025年は、動画生成AI元年になると昨年から言われていますが、クオリティの高い動画生成AIがかなり多く出てきています。
今後も動画生成AIから目が離せません。