Grok Imagine で 手元の写真や自作 AI 画像 を 6秒の短尺動画に変えたいのに、テキストから動画と同じ書き方で詰まっていませんか?画像を起点に動かす I2V (image-to-video) は、入力画像の選び方・モード選び・モーション指示の書き方が独自で、コツを知らずに回すと『動かない』『見せ場が成立しない』で手が止まりがちです。
本記事では、画像のアップロードからモード選択、モーション指示の 4 軸テンプレート、6秒尺の組み立て、出力と連結、SNS 投稿時の注意までを縦に通して解説します。読み終えた頃には、自分の素材で 再現性のある短尺動画 を 1 本作れるようになります。
内容をまとめると…
I2V は入力画像 → モード → モーション指示 → 出力の縦の動線で組み立てると安定する
モーションプロンプトは主体 / 動き / 速度 / カメラの 4 軸に分解して書く
Normal モードを主軸に、Fun は試し玉、Spicy は実務では使わない
6秒尺は『起点 1 秒 / 中盤 4 秒 / 余韻 1 秒』で時間軸を組む
SNS 投稿時は AI 生成と明示し、肖像権・著作権・規約を必ず確認
きれいな画像を作れるようになっただけで、収益化できずに止まってませんか?
romptn ai では、実際に画像生成AIで稼いでいるプロを講師に招いた完全無料のAIクリエイターセミナーを開催しています。
2時間のオンラインセミナーで、実際に稼いでいる人が使う最新画像生成AIツールや上級者にステップアップするための必須スキルなどの知識面はもちろんのこと、ゼロから収益化を実現するための具体的なロードマップを体験談ベースで詳しく学ぶことができます。
また、豪華な無料参加特典も用意していますので、ぜひご興味を持った方はお気軽に下記のボタンから詳細をチェックしてみてください!
\ 現役の画像生成AIのプロから学べる! /
無料セミナーの詳細をみる画像から動画を作る前に知ること
本記事のゴールは、手元にある写真や自作のAI画像を Grok Imagine で動かして、再現性のある 6秒の短尺動画 を作れるようになることです。
Grok Imagine には、テキストから動画を生み出す方法と、画像を起点に動画化する I2V (image-to-video) の 2 つの使い方があります。同じツールでも、後者は『何を、どう動かすか』を別の指示文で組み立てる必要があり、テキスト発の動画とはコツが大きく違います。
そこで本記事では、画像のアップロード、モード選択、モーション指示、出力、SNS投稿時の注意までを縦に通した実務手順をまとめます。動画生成機能全般の解説や事例集は別記事に譲り、ここでは I2V に絞って深掘りします。
I2Vの全体フローと操作画面
まずは I2V を回すときの操作の流れを 1 本に通しておきます。各ステップは後の章で深掘りするので、ここでは『この順番で進める』という地図を頭に入れることが目的です。
Grok Imagine を使う準備は、X(旧 Twitter)アカウントでログインし、メイン画面から Create Videos を選ぶところから始まります。Grok アプリでも X の Web 版でも入口は同じで、ここから先は画像入力かテキスト入力かを選ぶ画面に進みます。
I2V の縦の動線は次の 5 ステップです。
- 動かしたい画像を 1 枚アップロードする
- Normal / Fun / Spicy の 3 モード から狙う動きに合うものを選ぶ
- どう動かすかを モーション指示文 で書く
- 生成ボタンで 6 秒の動画を作る
- プレビューで確認してダウンロード、必要なら別ツールへ連結する
どの手順で詰まりやすいかは読者によって違うので、迷ったときは目次から該当する章に飛んでください。次の章では、最初の入口でつまずきやすい 入力画像の要件 から押さえていきます。
入力画像で動きを決める要件
I2V で『動かない・思ったように動かない』の多くは、モーション指示の前に 入力画像そのもの で決まっています。ここでは動きが付きやすい画像と付きにくい画像の違いを整理します。
動きやすい画像の共通点は次の通りです。
- 被写体が画面の中央〜やや上にあり、周囲に余白がある
- 背景の情報量が多すぎず、被写体と背景の境目がはっきりしている
- 顔や手など『動きそうな部位』が画面の中で大きく写っている
- 解像度は短辺で 1024px 前後を目安に、極端な縦長・横長を避ける
逆に動きにくい画像には、被写体が小さすぎる、画面の端で見切れている、背景がごちゃごちゃして主役が埋もれる、といった特徴があります。
入力素材の出所別では、自作の AI 画像は構図を狙って作りやすいので I2V と相性が良く、スマホで撮った写真はピンボケや手ブレが少ないものを選ぶと安定します。アプリのスクリーンショットや UI 画像は、被写体の輪郭が硬いせいで動きが破綻しやすいので I2V には不向きです。
Normal・Fun・Spicyの使い分け
Grok Imagine には Normal / Fun / Spicy の 3 つの生成モード があり、I2V でも同じ画像を渡しても結果がはっきり変わります。ここでは『どんな動きを得たいか』という I2V 起点でモードを並べ直します。
テキスト動画でよく見るモード説明は『汎用・遊び心・アダルト寄り』といった抽象的な紹介に寄りがちですが、I2V では『この画像を、こう動かしたい』が先にあるはずです。3 モードの大枠は次のように整理できます。
| モード | I2V での得意な動き | 入力画像との相性 | 仕事・副業用途 |
|---|---|---|---|
| Normal | プロンプトに忠実な自然な動き | 人物・風景・商品など幅広く | 主軸として使える |
| Fun | 予測しづらいポップで遊びのある動き | キャラ・イラスト系 | 補助で試す程度 |
| Spicy | アダルト要素が混じる動き | 制限あり | 原則使わない |
まずは Normal を主軸に試し、思った動きが出ない時に Fun を試し、Spicy には触れない、というのが I2V の安全な順番です。次の 3 つの節で各モードを掘り下げます。
①Normalで狙う動き
Normal は モーション指示への忠実度が高い モードで、I2V の主軸として最初に試す価値があります。指示文の通りに自然な動きが出やすく、人物のしぐさ・商品の見せ方・風景のスローモーションなど、用途を選ばず使えます。
相性が良いのは『主役が明確で、動きの方向もはっきり書ける画像』です。例えば、人物が正面を向いているポートレートや、料理の盛り付けが映ったカット、商品の単体カットなどは、Normal で素直に動きが出ます。
モーション指示の書き方も難しくしすぎず、『誰が・何を・どう動かすか』を 1〜2 文でまとめれば十分です。最初は短い指示で動きを確認し、必要に応じてカメラ動作や速度を足す進め方が安全です。
仕事や副業の短尺動画では、結果が予測できることが最優先です。後で紹介する Fun を試す前に、まず Normal で 2〜3 回試す習慣にしておくと、無駄な再生成を減らせます。
②Funで広げる表現
Fun は 遊び心のあるポップな動き を出すモードで、Normal では物足りない時の試し玉として使うと相性が良いです。動きの方向や強弱が予測しづらい代わりに、見ていて楽しい意外性のある結果が出ます。
向いているのは、キャラクター系のイラスト、デフォルメされた人物、SNS の冒頭フックとして派手な動きが欲しい場面です。逆に、商品紹介や採用動画のように『落ち着いた信頼感』を出したい用途では Fun は外れ値が出やすく、再撮影のコストがかかります。
使い方の目安は、Normal で 2〜3 回試して動きが弱いと感じた時に、同じ入力画像と指示文で Fun に切り替えて 1 回だけ生成してみる、という限定的な運用です。Fun を主軸にすると Re-roll の回数が増え、6 秒尺で見せる構成が組みにくくなります。
③Spicyを使う前の注意
Spicy は、入力画像や指示文がアダルト要素を含んでいなくても、出力に アダルト寄りの動き が混ざる仕様のモードです。実務での I2V 利用では原則として選ばない方が安全です。
避けたい理由は次のとおりです。
どうしても試したい場合でも、公開先のないテスト用画像のみで個人検証する、出力動画を保存・公開しない、といった範囲にとどめます。仕事や副業の文脈で Spicy を主軸にすると、せっかく作った動画が出せないという致命的な手戻りに繋がります。
モーションプロンプトの書き方
モーションプロンプトを 4 軸に分解 して書くと、I2V の結果が安定します。多くの読者は『どう書けば良いかわからず、テキスト動画と同じ書き方をしてしまう』ところで詰まりますが、I2V では『何を、どう動かすか』を主役に書き直す必要があります。
本記事で扱う 4 軸は次の通りです。
- 動きの 主体と対象 (誰が、何を動かすか)
- 動きの 種類と尺 (どんな動きを、どれくらい)
- 速度 とリズム (ゆっくりか、きびきびか)
- カメラワーク (寄る・引く・パンするなど)
もう一つ重要な原則として、1 回のプロンプトに動作を詰め込みすぎない ことがあります。Grok の画像生成側でも『一度に 1 要素ずつ変えて繰り返し調整する』方針が再現性を上げると整理されています。I2V でも同じで、複数の動きを 1 つの指示に押し込めると、どれかが弱くなったり矛盾したりします。
基本テンプレートとして次の形を覚えておくと、4 軸を順に埋めるだけで指示文が組み立てられます。
主体: <誰が / 何が>
動き: <どんな動きを、どれくらい>
速度: <ゆっくり / 自然 / きびきび>
カメラ: <寄る / 引く / パン / 固定>
次の節からは、4 軸を 1 つずつ掘り下げます。
①動きの主体と対象
I2V のモーションプロンプトでは、動きの主体 をはっきり指定することが最優先です。『誰が・何を動かすか』を一行目に書くと、Grok 側が画面のどこを動かすか迷わなくなります。
画像の中に登場するものが多いときほど、この指定が効きます。例えば人物と犬と背景の木が一緒に写っている画像なら、『中央の女性』『手前の犬』のように具体的な被写体名を入れます。『画面が動く』のような抽象的な書き方だと、想定外の場所が動いて出力が安定しません。
動かしたい対象が複数あっても、まずは 1 つに絞るのがコツです。人物の表情だけ動かす / 髪だけ揺らす / 背景だけ流す など、主役を 1 つに固定すると、6 秒という短い尺の中で見せ場が成立します。慣れてきたら、2 つ目の動きを次の生成で重ねる進め方にすると安定します。
②動きの種類と尺
動きの種類は、入力画像の被写体に合わせて 無理のないもの を選びます。物理的に不自然な動きを指示すると、6 秒の中で破綻したり、別物に変わってしまったりします。
I2V で頻出する動きの種類は次のように整理できます。
- 表情系: 微笑む / まばたきする / 口を開ける
- 体の動き: 振り向く / 歩き始める / 手を上げる
- 髪・衣服: 髪が揺れる / 服がそよぐ
- 自然: 雲が流れる / 葉が揺れる / 水面が波立つ
6 秒尺に収めるなら、1 動作 1 つ が原則です。動作量の目安は『始動 1 秒・主動作 4 秒・余韻 1 秒』で、これに当てはまる動きから選びます。歩いて方向転換して振り向くといった連続動作は 6 秒では収まりにくいので、別カットに分けるか、後で連結する設計にします。
動きの強さは『軽く』『はっきり』程度の言葉で添えれば十分です。最初は控えめな動きで成功させ、足りなければ次の生成で強める進め方が安全です。
③速度とリズム
速度の指示は 3 段階 の言葉でまず指定するとブレが減ります。『ゆっくり』『自然な速さ』『きびきびと』など、日本語で動きの体感に近い表現を選びます。
速度は用途で大きく変わります。
- SNS の冒頭フックや広告: きびきびと 短時間で見せ場を作る
- 商品紹介や説明動画: 自然な速さ で違和感なく
- 雰囲気重視のブランド動画: ゆっくり 余韻を残す
リズムを変えたい時は、『最初はゆっくり、後半に速く』のような時間軸の指示も有効です。ただし 6 秒尺で速度を切り替えると忙しい印象になりやすいので、最初は単一のリズムで通すのが安全です。
速度の言葉が伝わりにくいと感じたら、実時間 で添えるのも手です。『2 秒かけて振り向く』のように秒数で指定すると、動きの長さが Grok 側に伝わりやすくなります。
④カメラワークの指定
カメラワークを足すと、同じ被写体の動きでも見え方が大きく変わります。Grok Imagine で指定しやすいカメラ動作は次の 4 種類が基本です。
- ズームイン (寄る): 表情や手元のディテールを強調する
- ズームアウト (引く): 全身や周囲の状況を見せる
- パン (横方向に振る): 風景や横並びの被写体を見渡す
- 固定: カメラは動かさず、被写体の動きだけを見せる
相性は入力画像の構図で決まります。被写体が大きく中央に収まっている画像ではズームインで表情が立ちますし、横長の風景ではパンが効きます。一方で 背景情報が少ない画像 をパンで動かすと、画面の端に空白が増えて違和感が出ます。背景が薄い時は固定かズームインに留めるのが安全です。
初回はカメラ固定でまず動きを確認し、満足できない時にカメラ動作を 1 つだけ追加する進め方が、6 秒尺の中で破綻しにくい組み立てです。
6秒で見せる尺の設計
6 秒の中で見せ場を成立させるには、時間軸 で構成を設計する発想が必要です。動きを詰め込みすぎて『始まったらすぐ終わった』にならないように、6 秒を 3 つのブロックに分けて考えます。
基本のサンプル配分は次の通りです。
| 区間 | 時間 | 役割 |
|---|---|---|
| 起点 | 0〜1 秒 | 視聴者の目を留める。動き出しのきっかけ |
| 中盤 | 1〜5 秒 | 主役の動き。見せ場の本体 |
| 終点 | 5〜6 秒 | 余韻。次のアクションに繋がる空気 |
SNS の自動再生では 最初の 1 秒で離脱が決まる ので、起点に主役を置くか、目を引く小さな動きを入れます。冒頭が静止画のままだと SNS のタイムラインで止まりません。
音声付きの動画にするときは、音と動きのタイミングを合わせると印象が強くなりますが、最初は 無音前提 で組むのが安全です。SNS の多くは音声オフで再生されるため、画だけで意味が通る構成にしておくと再利用がしやすくなります。
6 秒では足りないと感じたら、無理に詰め込まず 別カットに分けて連結する 設計に切り替えます。後の章で連結手順に触れますが、1 本 1 動作に絞った方が、結果的に見せ場のある短尺動画になります。
生成・ダウンロード・連結手順
ここでは生成完了後に必要になる操作と、満足できる動画にたどり着くまでの リトライ戦略 をまとめます。
生成が終わると、画面上にプレビューが表示されます。確認すべきポイントは次の 3 つです。
- 主役の動きが意図通りか (動きすぎ・動かなさすぎが無いか)
- 表情や手の形などディテールが破綻していないか
- 音声の有無と尺の感覚が想定通りか
ダウンロードはプレビューから保存するか、共有メニューから動画ファイルを取り出す形が基本です。後で見返したり、別ツールで編集するなら、ファイル名に日付と用途 (例: 20260520_company-intro_v1) を付けておくと管理が楽になります。
複数本を連結したい場合は、Grok Imagine 上で繋ぐ機能を待つよりも、CapCut や iMovie など使い慣れた動画編集アプリでの連結が確実です。各カットを 6 秒で完結する素材として作っておき、後工程でテロップや BGM を足す前提にすると無理が無くなります。
結果が満足できない時のリトライは、次の順番で 1 段ずつ試します。
- 同じ画像・同じプロンプトで 1 回だけ再生成 する (運要素を回す)
- 動きを 1 つに減らすなど プロンプトを分解 する
- それでもダメなら モードを切り替える (Normal → Fun、または再度 Normal)
いきなり全てを変えると、何が効いたかわからなくなります。一度に 1 要素だけ変える進め方を保ちます。
投稿時の表記と権利の注意
I2V で作った動画を SNS や副業導線で公開するときは、最低限の権利確認 をしてから出します。後から削除や差し替えになると、せっかく作った 6 秒の価値が下がります。
実務で押さえたい順は次の通りです。
- AI 生成の明示: 投稿文に『AI 生成』『Grok Imagine で作成』など簡潔に書く
- 肖像権: 他人が映る写真を入力に使った場合は本人の同意を確認する
- 著作権: アニメキャラやブランド画像を入力に使わない
- 規約: Spicy モードや過激な動きはプラットフォーム規約に触れやすい
Grok 系の生成物は AI 検出ツールや 来歴情報 で AI 出力と判別できる仕組みがあります。隠して投稿しても見抜かれやすく、信頼の毀損が大きいので、明示する方が結果的に安全です。
ここで触れたのは I2V 動画の最低限ラインです。AI 生成を公開する時の注意点をもっと深く確認したい場合は、画像生成側の規約・来歴・実務リスクをまとめた既存記事に詳しい解説があるので、合わせて読むと判断がしやすくなります。
料金と無料枠の今のところ
Grok Imagine の料金まわりは 頻繁に変わる領域 です。本記事では具体的な金額を固定値で書かず、判断材料だけを整理します。
大枠として知っておきたい論点は次の通りです。
- 公開直後は無料で試せる枠が広めだったが、近年は 無料枠が大幅に縮小 している
- X Premium / Premium+ / SuperGrok のいずれかの有料プラン前提で運用する読者が増えている
- プランによって 1 日あたりの生成回数や速度に差が出る
副業や継続案件で I2V を回すなら、月数千円規模の有料プランを 1 つ契約した方が、無料枠の上限切れで作業が止まる損失より小さくなりやすいです。逆に『試しに 1 本作りたい』だけなら、無料枠が残っているタイミングで生成して終わらせる、という割り切りも選択肢です。
I2Vでよくある質問
I2V を回す中で詰まりやすい点を Q&A 形式でまとめます。本文のどこかで触れた内容も多いので、復習として読み流してください。
- Q画像をアップロードしても動かないのはなぜですか?
- A
多くは入力画像と指示文のどちらか、または両方に原因があります。被写体が小さすぎる、背景がごちゃごちゃしている、動きの主体が指示文で曖昧、の 3 つが代表的です。前述の入力画像要件とモーションプロンプトの 4 軸を見直すと、9 割の『動かない』は解消します。
- Q入力画像の解像度やアスペクト比は何が良いですか?
- A
公式の固定値は変動するので断言できませんが、短辺 1024px 前後、極端な縦長・横長は避ける、主役が中央〜やや上にあり余白がある構図、を起点にすると安定しやすいです。当てはまらない画像で動きが弱い時は、トリミングしてから再アップロードすると改善することがあります。
- QNormal と Fun の使い分けに迷ったらどうすれば良いですか?
- A
実務用途では Normal を先に試し、結果が地味だと感じた時にだけ Fun を 1 回試す、という順番が安全です。Fun は予測しづらい動きが出るため、結果のばらつきを許容できない場面では Normal で詰めた方が早く到達します。
- Q6秒の中で見せ場が間に合わないときはどう書けば良いですか?
- A
動きを 1 つに絞り、起点 1 秒 / 主動作 4 秒 / 余韻 1 秒の時間配分で組み直すと収まりやすくなります。連続動作 (歩いて振り向く、など) は 1 本では難しいので、別カットに分けて後で連結する設計に切り替えてください。
- Q出力動画を SNS に投稿するとき AI 生成と書く必要はありますか?
- A
プラットフォームごとに義務付けの強さは違いますが、Grok の生成物は来歴情報や AI 検出ツールで識別できるため、明示する方が信頼を保てます。投稿文に『AI 生成』『Grok Imagine で作成』など短く添える運用が無難です。
- Q無料で I2V を試すことはできますか?
- A
公開直後は無料枠が広めでしたが、近年は無料での I2V 利用が実質的に難しい時期が続いています。継続的に作るなら、X Premium 系のいずれかのプランに加入するのが現実的です。最新の枠と金額はプラン側で変動するので、事前に確認してください。
- Q商用利用や副業で使っても良いですか?
- A
プラットフォームと素材の権利が明確であれば、副業や商用に活用すること自体は可能です。ただし、他人の写真・著名キャラ・ブランド画像を入力に使うと権利侵害になり得るので、自分が権利を持つ素材を入力に使う運用が安全です。Spicy モードは公開動画では使わない方針を徹底してください。
Grok Imagine I2Vのまとめ
Grok Imagine の I2V は、流れと書き方さえ掴めば手元の写真や自作画像を 6 秒の短尺動画 に変える強力な手段になります。
本記事の要点を 1 行ずつ振り返ります。
- 主役が大きく、余白のある画像を 1 枚選ぶ
- モーションプロンプトは主体 / 動き / 速度 / カメラの 4 軸で書く
- まずは Normal で試し、思った動きが出ない時に Fun を試す
- 6 秒は『起点 1 秒 / 中盤 4 秒 / 余韻 1 秒』で時間軸を組む
- 動きは 1 本に 1 つだけに絞り、連続動作は別カットに分けて連結する
- SNS 投稿時は AI 生成と明示し、肖像権・著作権・規約を確認する
最初の 1 本は 5〜10 分で作れる規模に絞り、まずは手を動かしてみてください。リトライ戦略を回す中で、自分の素材と相性の良いモードと指示の書き方が見えてきます。慣れてきたら、複数カットを連結して構成のある短尺動画に育てていけます。
実際に稼いでいる人の画像生成AIのスキルと収益化方法を知っていますか?
romptn ai が開催する完全無料のAIクリエイターセミナーでは、現場で活躍するプロから下記のような内容を学べます。
- ゼロから画像生成AIで収益化を達成するための具体的なロードマップ
- 実績のある講師が実践する初心者を脱出するための必須スキルと最新ツール
- Nano Banana や Grokなどスマホからでもできる本格的な画像生成AI活用方法
- 広告画像や映像など実際の制作過程をイメージするための講師によるライブデモ
2時間のオンラインセミナーで、ただ画像生成AIや動画生成AIの上級スキルや最新ツールを知るだけでなく、実際に収益化を達成する一歩を踏み出すための必須知識を学ぶことができます。
- 大手企業6社と契約実績(TOYOTA, mercari, 伊藤園 等)
- AI映画制作3本、WORLD AI FILM FESTIVAL 2026 in KYOTO にて2冠達成
- Best AI Anime 受賞
- Japan Best AI Film(グランプリ)受賞(応募431作品中)
- 経歴:元WEBデザイナー・マーケター → 2023年に生成AIと出会い転身 → プロのAIクリエイターへ


