Grok Imagineで静止画は出せるようになったのに、動画にすると被写体が棒立ち・カメラが固定・尺が思った通りにならず、結局「動かない動画」ができてしまう。そんな経験はありませんか?動画プロンプトは静止画と書き方が違うのですが、何を足せばいいのかは意外と整理されていません。
この記事では、Grok Imagineの動画プロンプトを安定して動かすために、被写体動作(動詞)× カメラワーク × 尺の3軸に分けてテンプレ化した日本語プロンプトの書き方を、コピペできる例とともに丁寧に紹介します。基本形からカメラワーク別の指示、失敗時の逆引きチェックリストまでを、初学者でも順を追って試せる形にまとめました。
読み終える頃には、棒立ちだった被写体が自然に動き出し、カメラに意図したワークが乗り、尺感も思いどおりに整った短いクリップを、あなたの手元で自分のプロンプトとして書けるようになっているはずです。
内容をまとめると…
Grok Imagineの動画プロンプトは被写体動作・カメラワーク・尺の3軸を1文に同居させるのが基本形
動詞は1〜2語に絞り、カメラには方向・速度・視点の語を1つ添える
尺の主役は「短く」「じっくり」「ゆっくり」などの強度語、秒数は目安としてのみ機能
プロンプトは日本語の自然文で十分に通り、カメラ用語だけ英語併記すれば足りる
動かない動画は3軸のどれが抜けているかを点検し、抜けた軸を1語足すと多くは復旧
きれいな画像を作れるようになっただけで、収益化できずに止まってませんか?
romptn ai では、実際に画像生成AIで稼いでいるプロを講師に招いた完全無料のAIクリエイターセミナーを開催しています。
2時間のオンラインセミナーで、実際に稼いでいる人が使う最新画像生成AIツールや上級者にステップアップするための必須スキルなどの知識面はもちろんのこと、ゼロから収益化を実現するための具体的なロードマップを体験談ベースで詳しく学ぶことができます。
また、豪華な無料参加特典も用意していますので、ぜひご興味を持った方はお気軽に下記のボタンから詳細をチェックしてみてください!
\ 現役の画像生成AIのプロから学べる! /
無料セミナーの詳細をみるGrok Imagineの動画モードでできること
まずは動画プロンプトを書く前の前提として、Grok Imagineの動画モードで何ができるのかを揃えておきます。読者によって触り始めた時期が違うため、ここで全員が同じ出発点に立つ章です。
Grok Imagineは、xAIのGrokに搭載されたマルチモーダル機能のうち、静止画と動画の両方を自然言語の指示で生成できるパートです。難しいタグの羅列ではなく、普通の日本語で「こういう動きをしてほしい」と書くと、それを解釈して短い動画クリップを返してくれます。
動画モードの基本的な性質は次のとおりです。
- 出力は短いカット(数秒〜十数秒)が中心で、長い1本の映像を1プロンプトで作るより、1動作1カットに分けたほうが意図どおりに動きます
- 指示は日本語の自然文でも十分に通るため、英語で書き直す必要は基本ありません(カメラ用語の併記など、必要な時だけ英語を混ぜれば足ります)
- 利用枠や上限はサブスクのプランによって変わるため、生成回数が多くなる前に自分の枠を一度確認しておくと安心です
この章は前提の章なので、利用上限や料金の細かい話までは踏み込みません。動画モードは「短いカットを、日本語の自然な文で指示して作る場所」だとだけ捉えてから、次の章で「では静止画と何が違うのか」に進んでください。
なぜ動画プロンプトは静止画と書き方が違うのか
ここでは、静止画プロンプトの感覚をそのまま持ち込むとなぜ動画が動かないのか、その構造的な理由を整理します。読者の多くがつまずく出発点なので、結論を先に置きます。
結論から言うと、動画プロンプトには「時間軸」を表す要素を足さないと動きません。 静止画の世界では「誰が・どこで・どんなスタイルで」だけでも1枚の絵が成立しますが、動画は時間が流れる以上、「誰が、何をしている・どこにカメラがあって、どう動くか・どれくらいの長さで」までを含めないと、結局その「1枚の絵」が連続するだけになってしまいます。
この「時間軸を表す要素」を、本記事では3つに分けて整理します。
- 被写体の動作(動詞): 歩く・走る・振り向く・笑う・手を伸ばす など、その人物や物体が何をしているか
- カメラワーク: ズームイン・パン・トラッキング・俯瞰 など、視点がどう動くか・どこから撮るか
- 尺・動きの強度: 短く・じっくり・ゆっくり など、どれくらいの時間でどれくらいの強さで動くか
静止画プロンプトには、この3つのいずれも含まれていないことが多いはずです。そのため、静止画で慣れている人ほど「いつもの書き方で出したのに動かない」という現象に行き当たります。逆に言えば、ここに動詞+カメラ語+尺を1セット足すだけで、動かない動画はかなり改善します。
なお、静止画プロンプトそのものの書き方は別記事で丁寧に扱っているので、まだ静止画側で手応えが薄いと感じる方は、先に静止画のコツのほうも目を通しておくと、本記事の差分がより理解しやすくなります。
動画プロンプトの基本形と3軸テンプレ
ここからが本記事の核です。Grok Imagineの動画プロンプトは、たった1文の中に3つの要素を入れるだけで、まず動くようになります。
基本形は「被写体が動詞している。カメラがカメラワーク、尺は尺・強度」を1文で書く、これだけです。タグや英単語の羅列ではなく、普段の日本語の文と同じ感覚で書いてしまって構いません。Grok Imagineは自然な文章を解釈するのが得意なので、無理に英語へ翻訳する必要もありません。
最も短い汎用テンプレを置きます。これを土台に、後の章で動詞・カメラ・尺をそれぞれ深掘りしていきます。
白いシャツを着た女性が窓辺で振り向く。カメラはゆっくりズームイン、3秒ほどの短いカット。
この1文の中に、3軸がきれいに収まっているのが分かるはずです。
- 被写体の動作: 「振り向く」
- カメラワーク: 「ゆっくりズームイン」
- 尺・強度: 「3秒ほどの短いカット」
コツは、3つを別文に分けすぎないことです。「女性が振り向きます。」「カメラはズームインします。」「3秒の動画です。」と短い文に分割しすぎると、Grok側でつながりが弱くなり、結局静止画的な仕上がりになることがあります。1文〜2文の中に動詞・カメラ・尺を同居させるくらいの密度が、安定して動くラインです。
この基本形ができたら、次は3軸それぞれの具体的な書き方に入っていきます。まずは動詞から見ていきましょう。
被写体動作(動詞)の指示テンプレ
ここでは3軸のうち、まず被写体の動作=動詞だけに集中して見ていきます。動詞を1つ強めに指定するだけで、棒立ちの動画は一気に動き始めます。
再現しやすく、Grok Imagineで素直に動いてくれる代表的な動詞は次の5つです。それぞれ、まずコピペ用の短い1文と、調整の勘所をセットで置きます。
①歩く / 走る
白いシャツの女性が公園の小道を歩いている。カメラは正面から固定、5秒の短いカット。
- 「歩く」を「走る」「駆け抜ける」に変えると、動きの強度が一気に上がります
- 「正面から固定」を「横から並走」に変えると、本章の後半で扱うトラッキング寄りの絵になります
②振り向く
窓辺に立った男性が、声に気付いてゆっくり振り向く。表情は穏やか、3秒のクローズアップ。
- 「ゆっくり振り向く」を「ハッと振り向く」に変えると、感情の強度が変わります
- 表情語(穏やか・驚き・微笑む など)を1語添えると、振り向いた後の顔も意図に寄ります
③笑う / 微笑む
カフェの席に座った若い女性が、コーヒーカップを手に取りながら微笑む。柔らかい光、4秒のカット。
- 「微笑む」を「声をあげて笑う」に変えると、口元の動きと肩の揺れまで含まれます
- 「柔らかい光」のような環境語を1つ添えると、表情の見え方が安定します
④手を伸ばす / 受け取る
白い机の上のマグカップに、男性がゆっくり手を伸ばして掴む。カメラは斜め上から、3秒。
- 「手を伸ばす」と「掴む」を2つ並べると、動作がつながって時間の流れが出やすくなります
- 1動作だけだと止め絵に近くなることがあるため、動詞を「伸ばす→掴む」の連続にするのがコツです
⑤見上げる / 見渡す
ビル街の交差点で、青いコートの女性が空を見上げる。カメラは少し下から、4秒の短いカット。
- 「見上げる」「見渡す」「見つめる」と動詞を変えるだけで、視線の動きが変わります
- 視線方向の動詞は、後の章で扱うカメラ視点(俯瞰・ローアングル)と相性が良いので、組み合わせる価値があります
どの例も、動詞は1〜2語に絞って強く言い切るのが共通点です。「歩いたり立ち止まったりする」のように動詞が並列で増えると、Grok側で重み付けが分散して、結局どの動きも中途半端になりがちです。1カット=1動詞、迷ったらこのルールに戻ってください。
カメラワーク(画角・動き)の指示テンプレ
ここからは3軸のうちカメラワークに集中して見ていきます。動詞だけでも動きは出ますが、カメラ語を1つ添えるだけで一気に「動画らしさ」が生まれます。
Grok Imagineに対するカメラ指示は、映像表現の基本語彙(ズームイン・パン・トラッキングなど)を、日本語の自然文の中にそのまま入れるのが一番素直です。「映画でよく聞くあの動き」を普通の日本語で書けば、Grokはおおむね意図どおりに解釈してくれます。
本記事では、初心者がまず押さえるべきカメラワークを次の4つに絞って並べます。
- ①ズームイン/ズームアウト(寄る・引く)
- ②パン/チルト(横振り・縦振り)
- ③トラッキング/ドリー(追従・前後移動)
- ④俯瞰/ローアングル(上から・下から)
それぞれの章で、コピペできる日本語テンプレと、効きが弱い時のチェックポイントをセットで紹介していきます。共通のコツとして1つだけ先に渡しておきます。カメラに付く動きの語(ゆっくり / 一気に / ぐっと / さっと)を1語添えると、同じ動きでも雰囲気が大きく変わります。テンプレの中の動き語を差し替えることで、自分の好みに寄せていってください。
①ズームイン/ズームアウト
ズームイン(寄り)とズームアウト(引き)は、最も基本的で、最も効果が分かりやすいカメラの動きです。
白いシャツの女性がカフェの席で読書している。カメラはゆっくりズームインしながら、表情に寄っていく、4秒のカット。
夜の街角に立つ男性の手元から、カメラが一気にズームアウトしてビル全体を見せる、5秒のカット。
うまく寄り/引きが効かない時は、速度を表す語(ゆっくり / 一気に / じわじわ)が抜けていないかを見直してみてください。「ズームインする」だけだと、Grok側で寄り具合の強度が定まらず、ほぼ変化のないカメラに見えることがあります。「ゆっくり」「一気に」など、速度語を1語添えるだけで安定します。
②パン/チルト
パンはカメラを横に振る動き、チルトは縦に振る動きです。広い風景や、複数の被写体を順に見せたい時に効きます。
夕暮れの海辺、左から右へカメラがゆっくりパンしながら、波打ち際を見渡す、6秒のカット。
高層ビルの足元から、カメラがゆっくり上にチルトアップして屋上の空まで見せる、5秒のカット。
パンやチルトは、振る方向(左から右へ / 上から下へ)を明示するのが要点です。「カメラがパンする」とだけ書くと、Grokがどちら向きに振るか決め切れず、結果として小さく揺れるだけのカメラに見えることがあります。方向語に加えて、必要なら英語のカメラ用語を併記してもよいです(例: 「パン(pan right)」「チルトアップ(tilt up)」)。
③トラッキング/ドリー
トラッキングは動いている被写体を追いかけるカメラ、ドリーはカメラ自体を前後に移動させる動きです。動詞とカメラの両方が動くため、書き分けがコツになります。
走る犬の真横を、カメラが並走しながら追いかけるトラッキング(tracking shot)、5秒のカット。
机に置かれた本に向けて、カメラがゆっくり前に進んで近づくドリーイン、4秒のカット。
うまく追従しない時は、被写体の動詞とカメラの動きを1文の中で分けて書けているかを確認してください。たとえば「犬が走るトラッキング」のように動詞とカメラを密着させすぎると、Grok側でどちらの動きを優先するかが曖昧になります。「犬が走る。その真横をカメラが並走する」のように主語を分けると、被写体とカメラがそれぞれ独立して動きやすくなります。
④俯瞰/ローアングル
俯瞰は上から見下ろす視点、ローアングルは下から見上げる視点です。同じ動詞・同じ被写体でも、視点の高さを変えるだけで映像の印象は大きく変わります。
カフェのテーブルに広げたノートと文房具を、カメラが真上から俯瞰でとらえる。手元がゆっくり動く、4秒のカット。
スーツの男性がエレベーターホールを横切る場面を、ローアングルから見上げるように撮る、5秒のカット。
視点を切り替えたい時は、「真上から」「見上げるように」「目線の高さで」など、カメラの高さ・角度を明示する語を1つ入れるのが要点です。視点語が抜けると、Grokはデフォルトのアイレベル(目線の高さ)に寄せがちで、せっかくの俯瞰やローアングルが弱まります。
尺・動きの強度の指示テンプレ
ここでは3軸の最後、尺と動きの強度に絞って見ていきます。動詞とカメラが揃っていても、尺の感覚がないと「ほぼ静止画」か「逆に動きすぎてブレた絵」になりがちです。
まず前提として、Grok Imagineは数秒〜十数秒程度の短いカットを得意としています。長い1本を作りたい時は、1動作1カットに分けて複数回生成し、後で繋ぎ合わせる発想に切り替えるほうが、結果的に意図どおりに動きます。1プロンプトで「30秒の長尺を出してほしい」と書いても、Grok側は短く切り上げる傾向があるので、長さで粘る方向には進めないのが現実的です。
そのうえで、尺と強度をプロンプトでコントロールするコツは2つあります。
- 強度語(短く・じっくり・ゆっくり・一気に・ぐっと)を1語添える
- 秒数は「目安として」のニュアンスで書く
強度語の使い方は次のようなイメージです。
白いシャツの女性が窓辺で振り向く。カメラはじっくりとズームインしながら、表情の変化を追う、5秒のカット。
スーツ姿の男性が立ち上がって扉に向かう。カメラは一気にズームアウトして部屋全体を見せる、4秒のカット。
「じっくり」「一気に」を入れ替えるだけで、同じ動詞・同じカメラでも見え方が大きく変わります。
秒数指定については、「3秒で」「10秒の」のように厳密に書いても、Grok側は厳密にはその長さに従いません。秒数は「だいたいそれくらいの短いカット」というニュアンスの目安として書き、長さの主役は強度語(短く・じっくり・ゆっくり)に置く、と覚えておいてください。
ここまでで3軸はすべて出揃いました。次の章では、動詞・カメラ・尺を組み合わせて、すぐに使えるコピペテンプレを場面別に並べていきます。
3軸を組み合わせたコピペテンプレ集
ここからは、動詞・カメラ・尺の3軸を組み合わせたそのままコピペして試せるテンプレ集を、場面別に並べます。まず1つそのまま貼って動かしてみて、気になる箇所だけ自分の被写体に置き換えていく流れがおすすめです。
人物が動く場面
白いシャツの若い女性が、夕方の公園のベンチからゆっくり立ち上がって歩き出す。カメラは少し離れた位置から並走するトラッキング、5秒の短いカット。
- 「立ち上がって歩き出す」を「立ち上がって振り向く」に変えると、視線の動きを強調できます
- 「並走するトラッキング」を「正面から固定」に変えると、被写体の動きだけを正面で見せられます
風景を見渡す場面
夜明けの山頂、雲海の上に朝日が昇る。カメラは左から右へゆっくりパンしながら、地平線全体を見渡す、6秒のカット。
- 「ゆっくりパン」を「ゆっくりズームアウト」に変えると、世界が広がる印象が出ます
- 「朝日が昇る」を「霧が流れる」に変えると、被写体の動詞を風景側に置き換えられます
モノにフォーカスする場面
木のテーブルに置かれたコーヒーカップから、湯気が立ちのぼる。カメラはゆっくりズームインしながら、カップの縁に寄っていく、4秒のカット。
- 「コーヒーカップ」を「ノートと万年筆」「赤いリンゴ」などに変えるだけで、別の商品紹介カットに転用できます
- 「湯気が立ちのぼる」のような小さな動詞があると、止め絵に見えにくくなります
会話・感情を見せる場面
カフェの席で向かい合う2人の若者が、目を合わせて静かに微笑む。カメラは斜め横からゆっくり寄っていく、4秒の短いカット。
- 「静かに微笑む」を「声をあげて笑う」に変えると、感情の強度が一気に上がります
- 「斜め横から寄る」を「ローアングルで見上げる」に変えると、ドラマっぽい印象が強まります
スピード感のあるアクション場面
スニーカーを履いた少年が、夜の路地を全力で駆け抜ける。カメラは少年の真横を一気に並走、5秒の短いカット。
- 「全力で駆け抜ける」を「ゆっくり歩く」に変えると、同じ被写体でもまったく違う雰囲気のカットになります
- 「一気に並走」を「正面から固定」に変えると、走ってくる被写体を正面で受け止める絵に変わります
どのテンプレも、動詞は1〜2語に絞る・カメラには動きの強度語を1語添える・尺は短めに切るという3つを守るだけで、まず動くようになっています。最初は丸ごとコピペで構いません。手応えが出たら、被写体や場所を自分の作りたい絵に置き換えてみてください。
動かない/カメラ固定/尺ズレを直すチェックリスト
ここではテンプレを試したあと、「思った動きにならない」と感じた時の逆引きチェックリストを置きます。よくある挫折は、ほとんどが3軸のうちどれかが抜けている、または弱いことが原因です。
失敗の症状と、その時にまず疑うべき軸を表にしました。
| 症状 | まず疑う軸 | 具体的な直し方 |
|---|---|---|
| 被写体が棒立ちで動かない | 動詞が弱い・足りない | 「歩く」「振り向く」「笑う」など、強い動詞を1つに絞って言い切る |
| カメラが固定で動画感が薄い | カメラ語が足りない | 「ゆっくりズームイン」「左から右へパン」など、カメラの動きを1つ追加する |
| 尺が短すぎる/長すぎる | 強度語が足りない | 「短く」「じっくり」「ゆっくり」など、長さの強度語を1語添える |
| 動きすぎてブレた絵になる | 動詞が並列で多すぎる | 動詞を1〜2語に絞る。「歩いたり立ち止まったり」をやめて1動作に統一 |
| 動きはあるが意図と違う | 方向・視点の語が不足 | 「左から右へ」「下から見上げる」など、方向・視点を1語明示する |
それでも改善しないときは、3軸が全部書かれているかをまず点検するのが一番早い復旧ルートです。動詞・カメラ・尺のどれかが1つでも欠けていたら、抜けている軸を1語追加するだけで、多くのケースで「動かない動画」は脱出できます。
日本語と英語、どちらで書くべきか
ここでは「英語で書かないとダメなのか、日本語でも通るのか」という、多くの読者が抱える迷いに正面から答えます。
結論は、Grok Imagineの動画プロンプトは日本語の自然文で十分通ります。 英語に翻訳し直す必要はありません。理由は、Grokがもともと自然言語(日本語を含む)を解釈するのが得意なモデルだからで、文章として意味の通る日本語であれば、被写体・動詞・カメラ・尺はそのまま伝わります。
そのうえで、英語を混ぜると効きやすい場面が1つだけあります。映像表現の専門用語(カメラ用語)を、英語のまま添えるケースです。
- 「カメラはトラッキング(tracking shot)で並走する」
- 「ローアングル(low angle)から見上げる」
- 「ドリーイン(dolly in)で前に進む」
このように、日本語の説明文の後ろにかっこ書きで英語を添えると、用語のブレが減って意図が安定します。特に「トラッキング」「ドリー」「チルト」など、英語のままのほうが業界で短く通る語は、併記しておくと効きが良くなることがあります。
逆に、プロンプト全体を英語タグの羅列に切り替えるのは、Grok Imagineではむしろ逆効果になりがちです。「woman, walking, tracking shot, 5s」のようなタグ列より、「白いシャツの女性が公園を歩く。カメラは並走するトラッキング(tracking shot)、5秒の短いカット」のように1文の自然文で書いたほうが、Grokは意図どおりに動かしてくれます。
つまり、基本は日本語の自然文、カメラ用語だけ必要に応じて英語を添える。これが、本記事のおすすめする書き分けの運用ルールです。
Grok Imagineの動画プロンプトに関するよくある質問
ここでは、Grok Imagineの動画プロンプトを使い始めた読者から特に質問の多い5つのポイントを、短く要点だけ答えていきます。
- QGrok Imagineの動画モードはどのプランで使えますか?
- A
Grok Imagineの動画モードは、xAIのGrokサブスク(SuperGrok / Premium+)で利用枠が広がる位置づけです。プラン・利用枠の詳細は変動するため、最新の正確な情報は別記事に集約しています。
- Qプロンプトに『3秒で』など秒数を書いたら厳密に反映されますか?
- A
秒数は厳密には反映されません。Grok Imagineの動画は短いカットが中心で、秒数は「だいたいそれくらいの短いカット」というニュアンスの目安として書くのが現実的です。長さの主役は「短く」「じっくり」「ゆっくり」などの強度語に置いてください。
- Q日本語プロンプトでも問題なく動きますか?英語の方が精度が高いですか?
- A
日本語の自然文で十分に動きます。基本は日本語で書き、カメラ用語(トラッキング/ドリー/チルト など)だけ英語をかっこ書きで併記すると、用語のブレが減って意図が安定します。プロンプト全体を英語タグの羅列に切り替える必要はありません。
- Q動画が動かない時、まず何を見直せばよいですか?
- A
まずは3軸(動詞・カメラ・尺の強度語)のどれかが抜けていないかをチェックしてください。「動詞が弱い」「カメラ語がない」「強度語がない」のいずれかが原因のことが多く、抜けている軸を1語追加するだけで改善するケースが大半です。
- Q生成した動画はSNSで公開してもよいですか?
- A
公開そのものは可能ですが、利用規約と、AI生成だと一目で分かる/分かりにくい場合のラベル表記の運用は確認したほうが安全です。Grok生成物がAI生成だと識別される観点については、別記事で詳しく扱っています。
Grok Imagine動画プロンプトの書き方のまとめ
本記事では、Grok Imagineの動画プロンプトを安定して動かすための書き方を、3軸テンプレで整理してきました。最後に要点をもう一度束ねます。
- 動画プロンプトには時間軸が必要。被写体動作(動詞)・カメラワーク・尺と強度の3軸を1文に同居させるのが基本形
- 動詞は1〜2語に絞って強く言い切る。並列で増やすと動きがブレる
- カメラ語は方向・速度・視点を1語添える。「ズームインする」だけでは効きが弱い
- 尺は強度語(短く/じっくり/ゆっくり)が主役、秒数は目安として書く
- 基本は日本語の自然文、カメラ用語だけ英語併記。全文を英語タグにする必要はない
- 動かない時は3軸のどれが抜けているかを点検。抜けた軸を1語足すだけで多くは改善する
次の一歩として、本記事の中で気になったコピペテンプレを1つだけ選び、そのまま手元のGrok Imagineに貼って動かしてみることをおすすめします。動詞・カメラ・尺を頭で覚えようとするより、まず1本動かしてみて、自分の作りたい絵に少しずつ寄せていくほうが、コツが体に入ります。
動画モードの利用枠やプランごとの違い、生成した動画を公開するときの注意点については、関連の解説記事に詳しくまとめてあります。本記事と組み合わせて読むと、書き方からプラン選び・公開までを1本の流れとして整えられるはずです。
実際に稼いでいる人の画像生成AIのスキルと収益化方法を知っていますか?
romptn ai が開催する完全無料のAIクリエイターセミナーでは、現場で活躍するプロから下記のような内容を学べます。
- ゼロから画像生成AIで収益化を達成するための具体的なロードマップ
- 実績のある講師が実践する初心者を脱出するための必須スキルと最新ツール
- Nano Banana や Grokなどスマホからでもできる本格的な画像生成AI活用方法
- 広告画像や映像など実際の制作過程をイメージするための講師によるライブデモ
2時間のオンラインセミナーで、ただ画像生成AIや動画生成AIの上級スキルや最新ツールを知るだけでなく、実際に収益化を達成する一歩を踏み出すための必須知識を学ぶことができます。
- 大手企業6社と契約実績(TOYOTA, mercari, 伊藤園 等)
- AI映画制作3本、WORLD AI FILM FESTIVAL 2026 in KYOTO にて2冠達成
- Best AI Anime 受賞
- Japan Best AI Film(グランプリ)受賞(応募431作品中)
- 経歴:元WEBデザイナー・マーケター → 2023年に生成AIと出会い転身 → プロのAIクリエイターへ


