Extend from FrameとUIに表示される名称が違うのですが、どれを押せばいいですか？

Grok ImagineのUIでは「Extend」「Extend Clip」「動画を延長する」など、バージョンや言語設定によって表記が揺れることがあります。いずれも生成済みクリップの最終フレームから次のクリップに延長する機能なので、生成済み動画のアクションメニュー内にある「延長」「もう少し続ける」「Extend」系のボタンを選べば、本記事で扱っている操作と同じ位置にたどり着けます。

Extendで連結できるクリップ数の実用的な上限はどれくらいですか？

技術的な上限ではなく品質面の現実的な目安としては、3〜5クリップの連結までが安定しやすい範囲です。それ以上連結すると、被写体の特徴やカラートーンが少しずつズレていき、同一性の維持が難しくなる傾向があります。30〜60秒のSNSショートであれば、3〜5回のExtendで尺も品質も両立しやすい設計です。

Grok Imagineの動画に音声はつけられますか？

2026年5月時点では、Grok Imagineの動画生成は映像中心のため、音声は配信前に編集ソフトで載せる運用が現実的です。SNSショート用のBGMや効果音は、CapCutやPremiereなどの編集ソフトで足してから配信する流れが、もっとも自由度が高くなります。

Runway ExtendやSora StoryboardとGrok Imagineはどう使い分けるべきですか？

短尺生成と連結という基本構造はどれも近いですが、Grok ImagineはXアプリ内から生成と投稿を一気通貫でこなせる導線が強みです。SNS運用や副業のショート量産なら投稿までの摩擦が小さいGrok Imagineが向いており、より長尺の作品づくりや細かなストーリーボード制御を重視するならRunwayやSoraに分があります。手元の目的に合わせて選び分けるのが基本です。

Grok Imagineで動画を連結する方法とExtend from Frame実践テンプレ

Grok Imagineで動画を作ったものの、10秒や15秒で切れてしまい、SNSショートに必要な30〜60秒に届かないと感じていませんか。さらに「Extend from Frame」で連結すればいいと聞いても、日本語の手順は見つからず、つないでみたらシーンがジャンプしたり人物の顔が変わったりして、結局カットつなぎで誤魔化してしまう。これがGrok Imagineを使う多くの人がぶつかる現実です。

この記事ではExtend from Frameの呼び出し方から、最終フレーム選定・モーション指示・ジャンプ防止の3点テンプレ、典型的な失敗パターンの対処、そして30〜60秒のSNSショートに仕上げるまでを、Grok Imagineだけで完結できる粒度で解説します。読み終えるころには、ご自身のクリップに3点テンプレを当てはめて、自然に連結された長尺ショートを再現できる状態を目指します。

内容をまとめると…

Grok Imagineで動画が10秒・15秒で切れる壁の正体と、Extend from Frameで超える発想
Extend from Frameの呼び出し導線と、UIの表記揺れへの向き合い方
最終フレーム選定・モーション指示・ジャンプ防止という3点テンプレで連結品質を底上げ
シーン・人物・色味の3種類のジャンプに対する具体的な対処と再生成戦略
9:16縦動画で書き出してYouTubeショートやリールに着地する量産フロー

きれいな画像を作れるようになっただけで、収益化できずに止まってませんか？

romptn ai では、実際に画像生成AIで稼いでいるプロを講師に招いた完全無料のAIクリエイターセミナーを開催しています。

2時間のオンラインセミナーで、実際に稼いでいる人が使う最新画像生成AIツールや上級者にステップアップするための必須スキルなどの知識面はもちろんのこと、ゼロから収益化を実現するための具体的なロードマップを体験談ベースで詳しく学ぶことができます。

また、豪華な無料参加特典も用意していますので、ぜひご興味を持った方はお気軽に下記のボタンから詳細をチェックしてみてください！

＼現役の画像生成AIのプロから学べる！／

無料セミナーの詳細をみる

Grok Imagineで動画を連結したい人がつまずく3つの壁
Extend from Frameとは何か
Extend from Frameの呼び出し方
ジャンプを防ぐ3点テンプレ
失敗パターンと対処
30〜60秒のショートに仕上げるまで
Extend from Frame利用前に知っておきたい前提
Grok Imagineの動画連結に関するよくある質問
Grok Imagineの動画連結のまとめ

Grok Imagineで動画を連結したい人がつまずく3つの壁

Grok Imagineで動画を作ろうとすると、ほぼ全員がまず同じ壁にぶつかります。1本の動画が10秒や15秒で切れてしまい、SNSで配信したい30〜60秒のショートには到底届かないという長さの壁です。

次に、複数のクリップを「Extend from Frame」で繋げばいいと聞いて手は伸ばしたものの、日本語の解説が見つからず、どの画面のどのボタンから呼び出せばよいのかが分からないという、情報の壁が立ちはだかります。

そして実際に連結できたとしても、シーンが急に切り替わってジャンプしたり、人物の顔や服が別人のように変わってしまったり、色味が前のクリップとズレてしまったりと、品質の壁が残ります。

この記事はこの3つの壁を、「Extend from Frameの呼び出し方」「最終フレーム選定・モーション指示・ジャンプ防止の3点テンプレ」「失敗パターンと対処」という流れで順に取り払っていく構成です。読み終えるころには、副業やSNS運用で必要な30〜60秒のショートを、Grok Imagineだけで一定の品質で作れる状態を目指します。

Extend from Frameとは何か

Extend from Frameは、Grok Imagineで生成済みの動画クリップの最終フレーム、または任意のフレームを起点に、次のクリップを新しく生成する連結機能です。短いクリップを2本、3本、4本と繋いで、もとの1本では届かなかった尺の動画を作るための機能、と言い換えてもほぼ同じ意味になります。

2026年初頭まで、AI動画は「短いから実用に耐えない」と言われがちでした。それが2026年に入って、RunwayのGen-3 Extend、SoraのStoryboard、そしてGrok ImagineのExtend from Frameという機能が出揃ったことで、業界全体の主戦場は「1本のクリップをどれだけ高品質に作れるか」から「クリップとクリップをどれだけ滑らかに繋げるか」へと移ってきました。

Grok Imagineの強みは、Xアプリ内から生成と投稿を一気通貫でこなせる導線です。SNS運用者にとっては、生成ツールと投稿ツールを行き来する手間が省けるため、Extend from Frameを軸にした短尺連結ワークフローが特に相性のよい選択肢になります。

Extend from Frameの呼び出し方

Extend from Frameは、Grok Imagineで生成済みの動画クリップを開いた状態から呼び出すのが基本の流れです。

まずGrok Imagine（Xアプリ内、もしくはgrok.comからアクセスするImagineタブ）で短い動画を1本生成します。生成済みのクリップを開くと、再生コントロールの近くに「もう少し続ける」「動画を延長する」といった意味のアクションメニューが用意されており、ここから連結を始めます。本記事では機能名として「Extend from Frame」と呼びますが、お使いのUIによっては「Extend」「Extend Clip」など別表記になっている場合があります。意味は同じなので、表示名が違っても同じ位置のアクションを選んでください。

アクションを選ぶと、どのフレームを次のクリップの起点にするかを指定する画面に進みます。多くの場合は最終フレームが既定で選ばれていますが、任意のフレームに変更できる作りです。フレームを確定したら、次のクリップで「何を、どう動かしたいか」を書くプロンプト欄に進み、新しいクリップを生成すれば1段階の連結が完了です。あとは生成されたクリップの最終フレームから同じ手順を繰り返すことで、3本目、4本目とクリップを足していけます。

なお、現時点ではこの機能は有料プラン前提です。プランの違いは記事後半の前提セクションで内部リンク先に整理してあります。

ジャンプを防ぐ3点テンプレ

Extend from Frameを使うだけでは「ジャンプしない自然な連結」は手に入りません。Grok Imagineを含むAI動画連結では、3つの工程それぞれに「同じ流れに見せるためのコツ」があり、ここで紹介する3点テンプレは、その3工程をひとまとめに整える型です。

3点テンプレの中身は、①最終フレームの選び方、②次クリップのモーション指示、③連結時のジャンプ防止の3つです。①でつなぎ目の素材を整え、②で次のクリップに何をどう動かしてほしいかを正しく伝え、③で組み立てたあとに残ったズレを潰す、という分担になっています。

まずは①最終フレームの選び方から見ていきましょう。

① 最終フレームの選び方

最終フレームは「完全に静止した1枚」ではなく、次のクリップに動きを引き継げる1枚を選びます。たとえば人物が振り返る途中、カメラが横にスライドし始めた瞬間、風が髪を揺らしている最中、といった「動きの残響」が残るフレームです。完全に静止したフレームを選ぶと、次のクリップで急に動き出すため、つなぎ目が明らかな切れ目として見えてしまいます。

もう1点意識したいのは、被写体・カメラ・光源の3要素が次のクリップで引き継げる状態かどうかです。被写体がフレーム外に切れていない、カメラの位置と画角が分かる、光源の方向が読み取れる、この3点が揃っているフレームほど次のクリップが破綻しにくくなります。

Grok Imagineではフレームを微調整できるUIになっているので、生成された最終フレームを採用する前に、「ここから動きが続けられるか」を1度立ち止まって確認するだけで、後工程の歩留まりが大きく変わります。

② 次クリップのモーション指示

Extend from Frameの次クリップに渡すプロンプトは、自由文で「次にこういうシーンが続いてほしい」と書くだけでは不十分です。Grok Imagineは前のクリップ全体を把握しているわけではないので、3つの要素を明示的に書き分けたほうが、自然な連結になります。

書き分ける3要素は、被写体の維持、カメラワークの継承、光源・色温度の継承です。被写体の維持では、人物なら「同じ服装、同じ髪型、同じ表情のまま」と短く釘を刺します。カメラワークの継承では、前のクリップの動き（左から右へのパン、ゆっくり前に寄るなど）を引き継ぎたいか、ここで切り替えたいかを書きます。光源・色温度の継承では、「窓からの自然光のまま」「夕方のオレンジ味のままで」のように、色味のトーンを言語化します。

以下は街角を歩く女性のクリップを延長する場合のテンプレ例です。

同じ女性が同じ服装と髪型のまま、街角の歩道をさらに数歩進む。
カメラは前のクリップから引き継いで、被写体の右手前方からゆっくり追従する。
光源は同じ夕方の斜光のまま、色温度と陰影を引き継ぐ。
動き：歩幅は前のクリップと同じテンポで、自然に呼吸している。

Grok Imagineに限らず、AI動画の連結プロンプトはこの3要素を最初に書き、シーンの新しい動きを最後に書く順序が安定しやすい型です。

③ 連結時のジャンプ防止

3点テンプレの仕上げは、連結したクリップ全体を通しで再生し、ジャンプの種類ごとに点検することです。AI動画の連結で起きるジャンプは、大きく場面のジャンプ・被写体のジャンプ・光のジャンプの3種類に分けると整理しやすくなります。

場面のジャンプは、背景や構図が急に切り替わるパターンです。最終フレームに動きの余白を残し、次クリップでカメラワークの継承を指示しているかをまず確認します。被写体のジャンプは、人物の顔立ちや服装が変わってしまうパターンです。次クリップのプロンプトで被写体の維持を明示しているか、最終フレームで被写体がはっきり写っているかを点検します。光のジャンプは、色温度や陰影の方向が前のクリップと違って見えるパターンです。プロンプトで光源を継承するよう書いているかが分かれ目になります。

通しで再生して違和感がある箇所は、その1クリップだけを再生成すれば多くは改善します。テンプレを守って組み立てたうえで、最後の点検をしっかり通す、というのが「ジャンプを防ぐ3点テンプレ」の運用ルーティンです。

失敗パターンと対処

3点テンプレを守っても、Extend from Frameの連結は毎回完璧にはなりません。AI動画はクリップごとに少しずつ生成が揺れるため、いくつか典型的な失敗パターンが残ります。

ここからの3つの小節では、シーンがジャンプする時、人物の顔や服が変わる時、色味や光がズレる時、という代表的なパターンごとに、原因と対処をセットで整理します。共通する考え方は、プロンプトで完全に縛り切ろうとしないこと、そして「直りにくいクリップは1本だけ再生成して入れ替える」という逃げ道を持っておくことです。これだけで歩留まりは大きく変わります。

シーンがジャンプする時

場面が急に切り替わってジャンプして見えるとき、原因の多くは2つに集約されます。1つ目は最終フレームに動きの余白がないこと、2つ目は次クリップのプロンプトでカメラの継承を指示していないことです。

最終フレームに動きの余白がない場合は、前のクリップを少しだけ再生成して、フレームが「動きの途中」で終わる版に差し替えるのが一番効きます。Grok Imagineは同じプロンプトでも生成のたびに少し変わるので、2〜3回試して動きの余白が残る1本を採用するのが現実的です。

カメラの継承指示が抜けている場合は、次クリップのプロンプトに「前のクリップから引き継いで、被写体の左後方からゆっくり追従する」のように具体的なカメラ位置と動きを書き足します。「自然なカメラワークで」のような曖昧な指示は効きにくいので、向きとスピードまで言語化するのがコツです。

人物の顔や服が変わる時

次のクリップで人物の顔や服が別人のように変わってしまう現象は、AI動画連結で最も頻繁に起こる失敗です。AI動画コミュニティでは「同一性崩れ」と呼ばれます。

プロンプト側でできる対策は、被写体の特徴を短く具体的に書き残すことです。「同じ女性のまま」だけではなく、「ショートヘアの黒髪、ベージュのトレンチコートの女性のまま、表情も穏やかなまま」のように、髪型・服装・表情を1〜2語ずつ足します。Grok Imagineは長いプロンプトでも処理しますが、特徴の指示は短く、各クリップで同じ言い回しを揃えるほうが安定します。

それでも顔立ちが変わる場合は、最終フレームで人物が後ろ姿になっている版や、顔がはっきり写るカット直前で終わっている版に差し替えることが有効です。被写体の正面が次クリップに引き継がれないと、AI側が同じ人物として再構成する難易度が上がるためです。

最後に、AI動画はある程度の「揺れ」を前提にした素材です。完璧な同一性をプロンプトだけで保つのは難しいので、特に重要なクリップは2〜3回生成して、最も同一性が保てた1本を採用するという運用が現実的な落としどころになります。

色味や光がズレる時

前のクリップは夕方の柔らかい光だったのに、次のクリップでは昼の白い光になってしまう、というように色味や光がズレることもよくあります。これも原因の多くは、次クリップのプロンプトに光源と色温度の継承指示が書かれていないことです。

対策はシンプルで、「夕方の斜光のまま」「窓からの自然光、暖色寄り」「曇天のフラットな光のまま」のように、光のトーンをひと言加えるだけで再現性が上がります。Grok Imagineは光源の言語化に比較的素直に反応するので、長く書く必要はありません。

それでも色味が揃わない場合は、無理にAI側だけで揃えようとせず、編集ソフトで色補正をかけるのが最終手段です。クリップごとのトーンの差を「3点テンプレ」で5割減らし、残り5割は編集で吸収する、という分担にしておくと、生成のやり直し回数を抑えられます。

30〜60秒のショートに仕上げるまで

Extend from Frameを2回繰り返せば30秒前後、3〜4回繰り返せば50〜60秒の動画にたどり着きます。ここからYouTubeショート、Instagramリール、TikTokで配信できる形に仕上げる工程に進みます。

まず確認したいのは縦長の9:16比率と尺です。Grok Imagineは生成時にアスペクト比を指定できるので、SNSショートに使うクリップは最初から9:16で生成しておくと、後で切り抜く手間が省けます。尺は配信先によって違います。YouTubeショートは60秒以内、TikTokは尺の自由度が高いですが、ショートとして強いのは60秒以内、リールは90秒以内が目安です。

次にGrok Imagineの中だけで完結させるか、外部編集ソフトに渡すかの判断です。Grok Imagine単体でも、生成済みクリップをまとめて1本に書き出すまでは可能ですが、テロップを入れたい、BGMを足したい、色補正をかけたい、という編集ニーズが出てきたら、PremiereやCapCut、DaVinci Resolveのような編集ソフトに渡すのが現実的です。

SNS運用としては、生成→連結→9:16書き出しまでをGrok Imagineで終え、テロップとBGMだけ編集ソフトで足す、という分担が最もテンポよく量産できます。

Extend from Frame利用前に知っておきたい前提

Extend from Frameを使い始める前に、押さえておきたい前提が3つあります。

1つ目は1クリップあたりの長さです。Grok Imagineの動画は2026年5月時点で1クリップあたり数秒〜十数秒程度に制限されており、30秒以上の動画を作るには本記事のExtend from Frameによる連結が前提になります。長さの上限はUI上で都度確認するのが確実です。

2つ目はプラン要件です。Grok Imagineは無料枠が終了し、現在は有料プラン前提で利用する形になっています。動画生成とExtend from Frameを使えるプランの違いは別記事で詳しく整理しているので、本記事ではそちらに案内する形にしています。

3つ目は配信先のガイドラインです。AIで生成した動画は、配信プラットフォームによってはAI生成であることの明示が推奨されています。SNSショートとして配信する際は、AI生成タグや本文での明示の運用ルールを各プラットフォームの最新の規定で確認しておくと安心です。

Grok Imagineの動画連結に関するよくある質問

Q Extend from FrameとUIに表示される名称が違うのですが、どれを押せばいいですか？: A

Grok ImagineのUIでは「Extend」「Extend Clip」「動画を延長する」など、バージョンや言語設定によって表記が揺れることがあります。いずれも生成済みクリップの最終フレームから次のクリップに延長する機能なので、生成済み動画のアクションメニュー内にある「延長」「もう少し続ける」「Extend」系のボタンを選べば、本記事で扱っている操作と同じ位置にたどり着けます。

Q Extendで連結できるクリップ数の実用的な上限はどれくらいですか？: A

技術的な上限ではなく品質面の現実的な目安としては、3〜5クリップの連結までが安定しやすい範囲です。それ以上連結すると、被写体の特徴やカラートーンが少しずつズレていき、同一性の維持が難しくなる傾向があります。30〜60秒のSNSショートであれば、3〜5回のExtendで尺も品質も両立しやすい設計です。

Q Grok Imagineの動画に音声はつけられますか？: A

2026年5月時点では、Grok Imagineの動画生成は映像中心のため、音声は配信前に編集ソフトで載せる運用が現実的です。SNSショート用のBGMや効果音は、CapCutやPremiereなどの編集ソフトで足してから配信する流れが、もっとも自由度が高くなります。

Q Runway ExtendやSora StoryboardとGrok Imagineはどう使い分けるべきですか？: A

短尺生成と連結という基本構造はどれも近いですが、Grok ImagineはXアプリ内から生成と投稿を一気通貫でこなせる導線が強みです。SNS運用や副業のショート量産なら投稿までの摩擦が小さいGrok Imagineが向いており、より長尺の作品づくりや細かなストーリーボード制御を重視するならRunwayやSoraに分があります。手元の目的に合わせて選び分けるのが基本です。

Grok Imagineの動画連結のまとめ

Grok Imagineで動画を連結したいときの核は、Extend from Frameの操作そのものよりも、つなぎ目をどう設計するかにあります。最終フレームの選び方、次クリップのモーション指示、連結時のジャンプ防止という3点テンプレを守れば、シーンの急変や人物の同一性崩れ、色味のズレといった典型的な失敗を大幅に抑えられます。

そのうえで、3〜5クリップを連結し9:16の縦動画として書き出せば、YouTubeショート、リール、TikTokで配信できる30〜60秒のSNSショートに着地できます。テロップやBGMは編集ソフトで足す前提にしておくと、量産のテンポも保てます。

最初の一歩は、すでにGrok Imagineで作ったお気に入りの1クリップに対してExtend from Frameを試し、本記事の3点テンプレを当てはめて2本目を作ってみることです。1度この型で連結できる体験を作っておくと、その後のショート量産はぐっと現実的になります。

実際に稼いでいる人の画像生成AIのスキルと収益化方法を知っていますか？

romptn ai が開催する完全無料のAIクリエイターセミナーでは、現場で活躍するプロから下記のような内容を学べます。