Veoの音声をプロンプトで指定!台詞・効果音・BGMの書き分け方

Veoの音声をプロンプトで指定!台詞・効果音・BGMの書き分け方のアイキャッチ画像 動画生成AI

Veoで動画を作ると音は付くのに、台詞だけ・効果音だけ・BGMだけを狙って出す書き方が分からず、毎回出たとこ勝負になっていませんか?「音がすごい」と聞いて来たのに、自分の使っている版では無音だった、という戸惑いも珍しくありません。

Veoの音声は、台詞・効果音・環境音という3つの層に分けて公式の書き方に沿って指示すれば、狙った音をぐっと当てやすくなります。さらに、楽器やボーカルを含む楽曲はVeoの担当ではなくLyria 3で作るもの、という機能の境目を押さえれば、「Veo単体でBGMまで完結できるはず」という回り道もなくせます。

この記事を読み終えるころには、どの版で音が出るかを確認したうえで、台詞・効果音・環境音をコピペできる作例で書き分けられ、台詞が安定しない・音が埋もれる・延長で途切れるといったつまずきも、慌てず原因から直せるようになります!

内容をまとめると…

  • Veoの音声は「台詞・効果音・環境音」の3層で書き分けると狙った音が当たりやすい

  • 台詞は引用符、効果音は文頭の `SFX:`、環境音は文頭の `Ambient noise:` が公式の目印

  • 音が出るのはVeo 3以降で、Veo 2は無音

  • 楽器・ボーカルを含む楽曲やBGMはVeoではなくLyria 3の担当

  • 台詞は当たり外れが大きく、まず効果音や環境音から手を動かすと成功体験をつかみやすい

きれいな画像を作れるようになっただけで、収益化できずに止まってませんか?

romptn ai では、実際に画像生成AIで稼いでいるプロを講師に招いた完全無料のAIクリエイターセミナーを開催しています。

2時間のオンラインセミナーで、実際に稼いでいる人が使う最新画像生成AIツールや上級者にステップアップするための必須スキルなどの知識面はもちろんのこと、ゼロから収益化を実現するための具体的なロードマップ体験談ベースで詳しく学ぶことができます。

また、豪華な無料参加特典も用意していますので、ぜひご興味を持った方はお気軽に下記のボタンから詳細をチェックしてみてください!

\ 現役の画像生成AIのプロから学べる! /

無料セミナーの詳細をみる

※Lyriaについては、下記記事で詳しく解説しています!

監修者_SD以外
監修者プロフィール
森下浩志
日本最大級のAI情報プラットフォーム「romptn ai」編集長。著書に「0からはじめるStable Diffusion」「0からはじめるStable Diffusion モデル・拡張機能集編」など、AmazonベストセラーのAI関連書籍を多数執筆。AIにおける情報の非対称性を解消するための社内研修や出張講義も行う。

Veoの音声で何ができるのか

Veoは「映像を作るAI」というイメージが強いですが、Veo 3以降は映像に合わせた台詞・効果音・環境音を、プロンプトの指示だけで一緒に生成できます。あとから音を足すのではなく、声の出るシーンや雷の音、街のざわめきまで、最初から映像と一体で作れるのが今のVeoの強みです。

ただし、すべての版で音が出るわけではありません。「Veoは音がすごい」という評判で来ても、自分の使っている版によっては無音だった、ということが起こります。

執筆時点での版ごとの音声対応は次の通りです。

音声対応
Veo 2音声なし(無音の映像のみ)
Veo 3 / Veo 3 Fast対応(安定版)
Veo 3.1 / 3.1 Fast / 3.1 Lite対応(プレビュー扱い)

つまり、音を使いたいならVeo 3以降を選ぶのが前提になります。Veo 2では音声生成そのものができないため、無音の動画に別途音を付ける形になります。

なお、48kHzステレオ出力や台詞のリップシンク精度といった細かな数値は第三者による観測が中心で、公式に確定した仕様としては扱いません。本記事では、公式が示している記法と対応状況を土台にして進めます。

音声プロンプトは3層で書き分ける

音声プロンプトは3層で書き分けるの要点をまとめた図解
音声プロンプトは3層で書き分けるの要点

音が出ることが分かったら、次は「狙った音をどう指示するか」です。コツは、ひとまとめに「音を付けて」と書くのではなく、音を3つの層に分けて書くこと。

Veoの音声は、人の声である「台詞」、雷やブレーキ音のような単発の「効果音」、その場の空気をつくる「環境音」の3層で考えると指示が通りやすくなります。

公式に案内されている書き方も、この3層それぞれに決まった目印があります。まずは全体像として、どの層にどの目印を使うのかだけを押さえておきましょう。

音の層公式の目印
台詞(人の声)引用符 ” ” で囲む
効果音(単発の音)文頭に SFX: を付ける
環境音(背景の空気)文頭に Ambient noise: を付ける

もうひとつ、3層に共通する前提があります。プロンプトは英語で書くと音声が崩れにくく、狙った音に近づきやすくなります。日本語の台詞を出したい場合の扱いは後ほど触れますが、土台は英語と考えておくと迷いません。

それでは、この3つの層を1つずつ、そのまま貼って試せる書き方とあわせて見ていきます。

①台詞をしゃべらせる書き方

登場人物に台詞を言わせたいときは、しゃべらせたい言葉を引用符(半角の ” “)で囲んで書きます。これは Veo の公式ガイドが案内している、台詞の基本の指定方法です。

このとき、引用符だけを置くのではなく「誰が」「どんな様子で」言うのかも一緒に添えると、意図が伝わりやすくなります。話し手の見た目や表情、口調をひとこと足すイメージです。

たとえば、女性が一言しゃべる場面なら、次のように書きます。そのままコピーして試せます。

A woman smiles at the camera and says, "Let's get started."
①台詞をしゃべらせる書き方のプロンプトで生成した画像サンプル
①台詞をしゃべらせる書き方の生成サンプル

前半で「誰が・どんな様子で」を描写し、says, のあとに引用符でしゃべらせたい言葉を入れる、という並びです。複数人に会話させたい場合は、話し手ごとにこの形を続けて書いていきます。

日本語など英語以外でしゃべらせたいときは、指示文そのものは英語のまま書き、引用符の中身だけを話させたい言語にする、という書き方が知られています。ただし、ねらった台詞が一度で出てくれるかどうかには波があります。うまく出ないときの工夫は、後ほどの台詞のつまずきを扱う項でまとめて紹介します。

②効果音を狙って付ける書き方

雷の音や急ブレーキの音など、単発の効果音を狙って付けたいときは、その音を文の先頭に SFX: というラベルを付けて書きます。これが公式に推奨されている書き方です。

どんな音かを具体的に言葉にするのがコツです。たとえば「雷が遠くで鳴る」「タイヤが激しく軋む」といった音は、次のように指定します。

SFX: thunder cracks in the distance
SFX: tires screeching loudly

効果音は、台詞よりも狙った音が出やすい層です。台詞は一度で思い通りにいかないこともありますが、効果音はラベルと具体的な描写さえそろえば比較的当てやすいので、まずはここから試すと「指定した通りに音が付いた」という手応えをつかみやすくなります。

③環境音で空気感を作る書き方

3層目は、その場の空気感を決める環境音です。風の音や街のざわめき、室内の静けさといった背景の音は、プロンプトの先頭に Ambient noise: を付けて指定します。これがGoogleが示す公式の書き方です。

書きたい空気感を、そのまま英語で続けるだけで伝わります。次の例をそのまま貼って試してみてください。

Ambient noise: the quiet hum of a starship bridge
③環境音で空気感を作る書き方のプロンプトで生成した画像サンプル
③環境音で空気感を作る書き方の生成サンプル
Ambient noise: distant city traffic and light wind

環境音は効果音と同じく、狙った通りに出やすい層です。台詞ほど運任せにならないので、まず空気感から固めると映像がぐっと締まります。

そして、ここまでの3層は組み合わせて使えます。場面の描写に、引用符で囲んだ台詞、SFX: の効果音、Ambient noise: の環境音を重ねると、ひとつのプロンプトで奥行きのある音が作れます。

A detective stands on a rainy street at night. He looks up and says, "They were here." SFX: a car horn blares in the distance. Ambient noise: steady rain and distant city traffic.

台詞・効果音・環境音を意識して重ねるほど、その場にいるような没入感が生まれます。まずは作りたい場面で、3つの層を1行ずつ足していく感覚で書いてみてください。

BGM・楽曲はLyria 3で作る

BGMや好きな曲も、Veoのプロンプトの中だけで完結できると思っていませんか。ここでは「楽曲・BGMが欲しい」という場面の進め方を整理します。

前の章までで触れたように、Veoが得意なのは映像と同期した音、つまり台詞・効果音・環境音です。一方で、楽器やボーカル、歌詞を含む「楽曲・BGM」は、Veo内蔵の音声ではなく別系統の専用音楽生成モデル Lyria 3 が担います。

Lyria 3はVeoとは別の入口で使えるモデルで、Geminiアプリ・Google Vids・Gemini API・Vertex AIなどから利用できます。テキストや画像をもとに、楽器やボーカル、歌詞付きの楽曲まで生成できるのが特徴です。

作りたい音に合わせて、次のように使い分けると迷いません。

作りたい音使う手段
映像と同期した台詞・効果音・環境音Veoのプロンプト記法で指定する
独立した楽曲・BGM(楽器・ボーカル・歌詞)Lyria 3で生成する

どのプランでどこまで使えるか、上位版でどんな条件が付くかは変わりやすい部分です。執筆時点ではLyria 3に長めの楽曲を作れる上位版もありますが、細かな条件は公式の最新情報で確認してください。

音声がうまくいかない時の直し方

音声がうまくいかない時の直し方の要点をまとめた図解
音声がうまくいかない時の直し方の要点

ここまでの書き方どおりに指示しても、いざ作ってみると音が思った通りに出ないことがあります。でも安心してください。つまずく場所はだいたい決まっていて、しかもほとんどは直せます。

よくあるつまずきは、大きく次の3つです。

  • キャラクターに言わせたい台詞が、なかなかしゃべってくれない
  • いくつかの音を重ねたら、聞かせたい音が他の音に埋もれてしまう
  • 動画を長くつなげたら、途中で音が消えたり止まったりした

どれも「自分のやり方が間違っているのでは」と不安になりがちですが、多くの人が同じところでつまずいています。原因が分かれば慌てずに対処できます。

この後の章では、この3つを1つずつ取り上げ、それぞれ何が起きていて、どう手を入れれば落ち着くのかを順番に見ていきます。当てはまるところから読み進めてください。

①台詞が安定しない時の対処

狙った台詞をしゃべってくれるかどうかは、音の3つの層の中でもっとも結果がばらつきやすいところです。同じ書き方でも、一度で決まることもあれば、そうでないこともあります。

なので、台詞は「複数回試して、良かったものを選ぶ」前提で取り組むと気持ちがぐっと楽になります。一発で完璧を狙うより、何本か出して当たりを拾う進め方が現実的です。

安定させるいちばんの近道は、指示文を英語で書くことです。英語で書いた方が、しゃべる内容やタイミングが崩れにくいと、日英の実践ガイドで共通して語られています。日本語の文章で指示すると、思った通りにしゃべらないことが増えがちです。

とはいえ、しゃべらせたいセリフが日本語など英語以外のこともありますよね。その場合は、指示の地の文は英語のまま書き、引用符(” “)で囲む台詞の中だけを目的の言語にする、という書き方が回避策として知られています。

具体的には、次のように地の文を英語、引用符の中だけ日本語にします。

A young woman in a cafe looks at the camera and says in Japanese, "今日はここまでにしましょう。"

こう書くと、地の文の指示は安定したまま、引用符の中身を狙った言語でしゃべらせやすくなります。ただし、この回避策でも英語以外の成功率は読みづらく、一度で決まらないこともある点は変わりません。何回か回して良いものを選ぶ、という構えで使ってください。

②音が混ざって埋もれる時の対処

BGMとアラーム音のように複数の音を同時に出すと、どちらか片方が埋もれて聞こえなくなることがあります。これは指示が足りないのではなく、どの音を一番聞かせたいかが伝わっていないために起こりがちです。

対処のコツは、競合する音に優先順位をはっきり付けることです。プロンプトは書いた語順が効きやすく、先に書いた要素ほど主役として扱われやすい傾向があります。

そこで、一番届けたい音を文の先頭に置き、それが主役だと言葉で添えます。残りの音は背景として小さく鳴らす、と続けて書くと混ざり方が整いやすくなります。

The alarm blares loudly in the foreground as the main sound. Soft background music plays quietly underneath.

うまく分離しない時は、主役の音に「loud」「clearly」、脇役の音に「quiet」「faint」「in the background」のような強弱の言葉を足すと、狙った聞こえ方に寄せやすくなります。

③延長や安全フィルタで途切れる時

動画を延長したら、続きの部分だけ声が消えてしまった——そんな時は、延長のもとになる動画の終わり方が原因になっていることがあります。

Veoの公式ドキュメントでは、延長のもとになる動画の最後の1秒あたりに声がないと、その声をうまく引き継げないと説明されています。延長を前提にするなら、もとの動画の終わり際に台詞を少し残しておくと、声がつながりやすくなります。

台詞をきれいに言い終えてから次へ進めたい気持ちは分かりますが、最後に余韻として一言だけ残すくらいの方が、延長後も声が途切れにくくなります。

もう一つ、指示はきちんと書いたのに音声だけ出ない、というケースもあります。これは安全フィルタや処理上の理由で、音声がブロックされることがあるためです。

音が出ないと自分の書き方を疑いがちですが、いつも記法の問題とは限りません。慌てず、表現や言い回しを少し変えてもう一度作り直すと、出るようになる場合があります。

なお、こうした挙動は執筆時点での仕様です。同じプロンプトでも結果が変わることがあるため、一度で決めようとせず、何回か試す前提で向き合うと負担が減ります。

Veoの音声に関するよくある質問

Q
Veo 2でも台詞や効果音を付けられますか?
A

いいえ、Veo 2は無音の映像のみで、台詞も効果音も生成できません。

音を一緒に作りたいなら、音声に対応したVeo 3以降を選ぶのが前提です。Veo 2で作った動画に音が欲しいときは、あとから別の手段で音を足すことになります。

Q
日本語の台詞をしゃべらせることはできますか?
A

可能ですが、英語に比べると安定しにくいのが実情です。

回避策として、指示の地の文は英語のまま書き、引用符(” “)で囲む台詞の中身だけを日本語にすると狙った言語で話させやすくなります。それでも一度で決まらないことはあるため、何回か作って良いものを選ぶ前提で取り組むと負担が減ります。

Q
BGMや楽曲もVeoのプロンプトだけで作れますか?
A

映像と同期した台詞・効果音・環境音はVeoのプロンプトで作れますが、楽器やボーカルを含む独立した楽曲・BGMはVeoの担当範囲ではありません。

こうした楽曲は、別系統の専用音楽生成モデルであるLyria 3で作るのが実態です。「映像に同期した音はVeo、独立した楽曲はLyria 3」と覚えておくと迷いません。

Q
効果音と台詞ではどちらが狙い通りに出やすいですか?
A

効果音や環境音のほうが再現性が高く、狙った音を出しやすい傾向があります。

一方で台詞は、同じ書き方でも結果がばらつきやすい層です。まず効果音から手を動かすと成功体験を得やすいので、台詞は複数回試して当たりを拾う構えで臨むのがおすすめです。

Q
音声がまったく出ない時はどこを確認すればいいですか?
A

最初に確認したいのは版です。音声が出るのはVeo 3以降で、Veo 2は無音のため、そもそも音は生成されません。

版が合っていて台詞が出ないときは、台詞を引用符で囲めているか、指示文を英語で書けているかを見直してください。それでも音だけ出ない場合は、安全フィルタなどでブロックされていることもあるため、表現や言い回しを少し変えて作り直すと出るようになる場合があります。

Veo音声プロンプトのまとめ

ここまで、Veoの音声を狙って指示する書き方を見てきました。要点を振り返っておきます。

  • 音は「台詞」「効果音」「環境音」の3層に分けて書く。台詞は引用符で囲み、効果音は文頭に SFX:、環境音は文頭に Ambient noise: を付ける
  • 楽器やボーカルを含む独立した楽曲・BGMはVeoの担当ではなく、Lyria 3で作る
  • 音が出ない・埋もれる・延長で途切れるといったつまずきは、版の確認・英語での指示・聞かせたい音の優先順位づけ・延長元の終わり際に声を残す、といった一手でほとんど整えられる

最初の一歩は、効果音か環境音から手を動かすのがおすすめです。狙った音が出やすく、「指定どおりに鳴った」という手応えをつかみやすいからです。

台詞は結果にばらつきがあるので、一発で決めようとせず、何本か出して良いものを選ぶ構えで取り組むと気持ちが楽になります。3層を1行ずつ重ねながら、自分の作りたい場面で音を育てていきましょう。

実際に稼いでいる人の画像生成AIのスキルと収益化方法を知っていますか?

romptn ai が開催する完全無料のAIクリエイターセミナーでは、現場で活躍するプロから下記のような内容を学べます。

  • ゼロから画像生成AIで収益化を達成するための具体的なロードマップ
  • 実績のある講師が実践する初心者を脱出するための必須スキルと最新ツール
  • Nano Banana や Grokなどスマホからでもできる本格的な画像生成AI活用方法
  • 広告画像や映像など実際の制作過程をイメージするための講師によるライブデモ

2時間のオンラインセミナーで、ただ画像生成AIや動画生成AIの上級スキルや最新ツールを知るだけでなく、実際に収益化を達成する一歩を踏み出すための必須知識を学ぶことができます。

沖
講師 沖@画像生成
画像生成クリエイター Xフォロワー 5.5万人 romptn ai 監修者
  • 大手企業6社と契約実績(TOYOTA, mercari, 伊藤園 等)
  • AI映画制作3本、WORLD AI FILM FESTIVAL 2026 in KYOTO にて2冠達成
  • Best AI Anime 受賞
  • Japan Best AI Film(グランプリ)受賞(応募431作品中)
  • 経歴:元WEBデザイナー・マーケター → 2023年に生成AIと出会い転身 → プロのAIクリエイターへ
受付中 完全無料 先着限定 オンライン

本物のプロとハンズオン形式で学ぶ2026年版画像生成AI最前線セミナー

セミナー内容詳細をみる 今すぐ予約する方もこちら
画像生成AIのプロから無料で学べる! クリエイターセミナーの詳細をみる