音楽生成AI「Stable Audio 2.0」の使い方!商用利用の可否や料金、コツも解説 | romptn Magazine

音楽生成AI「Stable Audio 2.0」の使い方!商用利用の可否や料金、コツも解説

AIツール

2024年4月、音楽制作の世界にまたひとつ革新的なツールが登場したのをご存じでしょうか?「Stable Audio 2.0」という音楽ツールです。

バージョン2.0にアップデートされたStable Audioは、より自然で表現力豊かなサウンドを実現しました。ジャンルやスタイルの幅も格段に広がっています!

今回は、そんな「Stable Audio 2.0」というツールの特徴、使い方、料金、商用利用の可否について徹底解説していきます!

スポンサーリンク

Stable Audioとは?

Stable Audio2.0は、Stability AIが2024年4月3日に公開した、音楽・音声生成ツール「Stable Audio」の最新バージョンです。

公式Xの投稿はいいねが2000近く集まっており、かなりの話題を集めているようです!さらに、YouTubeチャンネルでは、AIが生成した楽曲を24時間ノンストップで配信中です。

現在、Stable Audio 2.0はウェブサイト上で無料提供されており、誰でも気軽に利用できます。さらに近いうちには、APIでの提供も開始されるそうです!これにより、開発者がStable Audioの機能を自分のアプリケーションに組み込むことが可能になります。音楽アプリやゲーム、動画編集ソフトなどに、AIによる音楽生成機能を追加できるようになるかもしれません。

Stable Audioの特徴

プロンプト(テキスト)を入力するだけで、クオリティーの高い音楽が生成できるこのツールですが、他の音楽生成ツールにはない特徴があるんです。

「Stable Audio2.0」の魅力である、4つの特徴について解説していきます!

  • プロ級のサウンドクオリティ:Stable Audioは、業界標準である44.1kHzのステレオ音源を出力できます。CDやデジタル配信に耐えうる高品質なサウンドを実現し、プロフェッショナルな音楽制作にも活用できます。
  • ワンコーラスまるごと生成:最大3分間の音楽を一度に生成可能。イントロからサビ、アウトロまでを含むワンコーラス丸ごとの楽曲を、AIが自動で作り上げます。作曲のアイデア出しや、デモ制作に威力を発揮するでしょう。
  • テキストで思いのまま操れる:自然言語のプロンプトを使って、音楽のスタイルやムード、展開をコントロールできるのがStable Audioの大きな特長です。「壮大なオーケストラからミニマルなピアノソロへ」といった指示で、音楽の流れをダイナミックに変化させることも可能。言葉でイメージを伝えるだけで、AI が自在に音を編集してくれます。
  • 音楽制作のハードルが一気に下がる:Stable Audio登場以前は、AIツールで音楽を生成するには専門的な知識や複雑な操作が必要でした。しかしStable Audioなら、誰でも簡単に直感的に扱えます。作曲経験のない人でも、アイデアを音にするところから始められるのです。音楽制作のハードルが大幅に下がり、表現の幅が広がります。

Stable Audioの新機能

今回のアップデートでは、以下の4つの新機能が登場しました。

  • 完成度の高い楽曲を丸ごと生成:バージョン2.0では、イントロ、展開、アウトロを含む最大3分間の楽曲を一気に生成できるようになりました。以前の45秒までの制限から大幅に拡張され、より本格的な曲作りが可能に。AIが生み出す音楽は、まるで人間のクリエイターが作ったかのような自然な構成と流れを持っています。
  • 音源の編集・加工機能が追加:2.0から、既存の音楽や音声をStable Audio上で直接編集できる機能が加わりました。AIを使って、自分で録音した音声や、既存の楽曲の一部を加工してアレンジを施せます。ピッチやタイミングの調整、エフェクトの付与など、これまでDAWソフトでやっていた作業の一部をStable Audioに任せることができるのです。
  • 効果音生成が大幅に進化:環境音やジングル、ロゴ音など、音楽制作に欠かせない効果音の生成機能が強化されました。以前のバージョンでは、効果音は単発的で少しぎこちない印象でしたが、2.0では自然でリアルな音が生成可能に。プロンプトに「水しぶきの音」と入力すれば、本物そっくりの水音が得られます。音楽に臨場感を加えるのに役立つでしょう。
  • ユーザー音源からの新曲生成:2.0では、ユーザーが自分で録音した音声や楽器の音をアップロードし、それを元に新しい楽曲を生成できる画期的な機能が追加されました。例えば、自分で歌ったメロディーをStable Audioに読み込ませ、そのメロディーを基にAIが伴奏やアレンジを提案してくれます。また、打ち込んだドラムのリズムをアップロードすれば、そのリズムに合うベースラインやシンセサウンドを自動生成。ユーザーの音楽的アイデアを、AIが多彩に展開してくれるのです。

特に、4つ目は他の音楽生成ツールにはない面白い機能ですよね!(下記動画参照)

Stable Diffusionの画像生成を最速で学びたいあなたへ!
  • Stable Diffusionの基礎を2時間でマスター!
  • 高スペックPCがない方向けに徹底解説。
  • ControlNetなど、必須級の拡張機能も網羅。
  • 今話題のSDXL、AI動画生成も。
  • 特典として、大人気「おすすめ拡張機能・モデル解説」「プロンプト大全」つき!
\このボタン限定!70%オフキャンペーン実施中!/
70%オフキャンペーン実施中!/

Stable Audioの仕組み

Stable Audioの開発チームは、自社ブログで技術的な側面についても詳しく解説してくれています。(※少し難しい内容なので、必要ない方は飛ばしてください!)

それによると、Stable Audio 2.0は大規模なオーディオデータセットを用いて学習されたとのこと。AudioSparxという会社が提供する80万以上のオーディオファイルから成るデータセットを活用し、多様な音楽ジャンルやスタイルを学習させたそうです。

また、学習済みモデルを使って生成された音楽が既存の楽曲の著作権を侵害しないよう、Audible Magicという企業の音楽認識技術を導入しています。生成された音楽が既存の商用楽曲と酷似していないかチェックし、問題がある場合は公開を差し控えるなどの対策を取っているとのことです。

Stable Audio 2.0の特筆すべき点は、オーディオ波形の圧縮に新手法を用いていること。これまでにない精度の高いオートエンコーダーを開発し、音の質を落とさずにデータを圧縮。機械学習モデルの学習を効率化しているそうです。

また、Diffusion Transformer (DiT)と呼ばれる機械学習モデルを採用し、長尺の音楽データを扱えるようにしたのもポイントです。音楽生成においても、その能力の高さが証明されたと言えるでしょう!

Stable Audio 2.0は、2023年9月リリースの1.0版の成果を踏まえて開発されています。1.0はタイム誌が選ぶ「2023年の最優秀発明」にも選出されるなど、画期的な音楽生成ツールとして脚光を浴びました。その進化版である2.0は、さらなる技術革新により音楽制作の世界に新風を吹き込むことが期待されています!

プロンプトジェネレーターで画像生成プロンプトの参考に!
  • Stable Diffusionのプロンプトの見本が知りたい
  • 画像生成が思ったようにできない
  • 色々なプロンプトを探したい
など、画像生成AIのプロンプトに関する疑問が解決するかもしれません。

Stable Audioの使い方

では早速Stable Audioを使ってみましょう!その前に登録が必要なので、以下を参考に登録しましょう。

こちらにアクセスして、「Try Now」をクリックする。

②お持ちのメールアドレスorGoogleアカウントでサインインしましょう。

③利用規約に同意して「次」をクリックする

以上で完了です!

トップ画面がこちらです。

左側に各設定項目が表示されています。それぞれの意味は以下の通りです。

  • Prompt:生成したい音楽の特徴をテキストで入力。「明るくて爽やかなピアノソロ」といった具体的な指示を与えることで、AIがそれを解釈し、条件に沿った音楽を生み出してくれます。
  • Prompt Library:プロンプトに迷ったらここを活用するのも手です。音楽ジャンルごとの定型文が用意されているので、それを選ぶだけでも簡単にプロンプトを作成できます。
  • Model:音楽生成に使うAIモデルを指定できます。現行バージョンでは「Stable Audio AudioSparx 2.0」一択ですが、今後新モデルが追加される可能性もありそうです。
  • Duration:生成する音楽の尺を設定します。最大3分までの長さを指定できます。
  • Input audio:自分で録音した音声や楽器の音をここにアップロードし、それに対してプロンプトで編集の指示を与えられます。詳しい使い方は公式サイトに詳説されているので、チェックしてみるといいでしょう。

左下の「Add extras」を押すと、さらに細かな設定ができます!

生成にかけるステップ数を「Steps」で、出力する楽曲の数を「Number of Results」で指定できます。

「Seed」には乱数生成のためのシード値を入力。同じ値を使えば、同じプロンプトから同じ曲を再現できます。

「Prompt strength」では、プロンプトの影響力を調整。数値が大きいほど、よりプロンプトに忠実な音楽になるというわけです。

これだけ細かく設定できれば、自分の理想に近い音楽を生成できるはずです。様々なパラメータを試しながら、ベストな組み合わせを探してみるのも面白いかもしれません。

実際にStable Audioで曲を生成してみた!

では早速曲を作ってみましょう!ここでは2種類生成してみます。

1つ目は、「ディスコサウンド」っぽく生成してもらいました。

Danceable 80's disco pop influenced by synthwave. A groove-filled bass line with a glossy synthesizer tone. An echo effect was applied to the vocals to give it a slightly nostalgic feel. The song builds up towards the chorus and ends on a positive and cheerful note.

訳:シンセウェーブに影響を受けた、80年代風のダンサブルなディスコポップ。艶やかなシンセサイザーの音色に、グルーヴ感のあるベースライン。ボーカルには、少し懐かしさを感じさせるエコーエフェクトをかけて。サビに向けて盛り上がりを見せ、ポジティブで陽気なムードで締めくくる。

生成された曲がこちらです!

1分で設定したためかボーカルは生成されませんでしたが、指示通りレトロでキャッチーな曲が出来ましたね!

2つ目は、和風なサウンドを生成してもらいましょう。

Fantastic ambient music incorporating Japanese instruments. Featuring the deep tones of the shakuhachi, the delicate tones of the hichiriki and koto are accented. Occasionally, the sound of the wind and the chirping of birds creep into the background, making you feel in harmony with nature. The song has a relaxing tone and is wrapped in a meditative calm.

訳:和楽器を取り入れた、幻想的なアンビエントミュージック。深みのある尺八の音色をフィーチャーし、篳篥(ひちりき)や箏(こと)の繊細な音色がアクセントに。時折、風の音や鳥のさえずりをバックに忍ばせ、自然との調和を感じさせる。ゆったりとした曲調で、瞑想的な静けさに包まれた楽曲に。

生成された曲がこちらです!

日本古来の楽器を使ったミステリアスなサウンドスケープが生成されています。

このように、かなりクオリティーの高い音楽生成が可能となっています!

【比較】Stable Audio 1.0からどのくらい品質アップした?

では、先ほどと同じプロンプトでStable Audio 1.0にも作曲してもらい、比較検証してみます。

1つ目のディスコサウンドで試してみました。Modelを1.0に変更することでStable Audio 1.0に設定できますよ!

生成された曲を比較してみましょう。

Stable Audio 1.0
Stable Audio 2.0

いかがでしょうか。

まず、曲の展開がより自然でスムーズになりました。1.0では時折、唐突な転調やリズムの乱れが見られましたが、2.0ではそういった不自然さが解消されています。まるで人間の作曲家が入念に推敲を重ねたかのように、曲が論理的に進行していきます。イントロからアウトロまでの一貫性が増し、聴き手を飽きさせない展開の妙を感じられました。

また、音質の良さも印象的でした。1.0は全体的に音がこもりがちで、細部の音が埋もれてしまう傾向にありましたが、2.0ではクリアで解像度の高いサウンドが実現されています。一音一音の存在感が増し、繊細なニュアンスまで表現できるようになったのです。楽器の音色も、より自然でリアルに聴こえますね!

Stable Audio 2.0は、前バージョンから大幅な進化を遂げていると言えるでしょう。

プロンプト入力のコツを伝授!

プロンプトってどんな風に入力すればいいの?という方に分かりやすくコツを伝授していきます!

コツ①:具体的な指示をする

Stable Audioに求める音楽のイメージを、できる限り具体的に伝えることが大切です。

例えば、「明るくて楽しい曲」といった抽象的な指示だけでは、AIは制作の方向性を定めきれません。「バウンシーなリズムに、弾むようなシンセサイザーのメロディ。ポップスのサビのようにキャッチーなフレーズを入れ、ハッピーでアップテンポな雰囲気に」など、音楽の要素を細かく指定してあげると良いでしょう。

使う楽器や音色、リズムの特徴、曲の展開まで、言葉でイメージを掴めるよう表現してみてください。そうすることで、自分の理想とする音楽を、AIにもよりはっきりとイメージしてもらえるはずです。

コツ②:感情や雰囲気の伝え方を工夫する

音楽に求める感情や雰囲気を、言葉で表現するのは難しいものです。

そんな時は、比喩や描写を使うのが効果的です! 例えば、

  • 「夕暮れ時の公園を、恋人と手をつないで歩くようなドラマチックな曲
  • 「深い森の中で、精霊たちが踊っているイメージの幻想的な曲」

など、情景やストーリーを思い浮かべることで、曲のトーンやムードを伝えられます。

そして、感情を色に例えるのも良い方法です。「燃えるような情熱的な赤」「冷たく凍えそうな青」など、色のイメージを音楽に重ねてみてください。目に見えるものに喩えて説明することで、音という抽象的な対象も形にしやすくなるでしょう。

コツ③:日本語の言葉選びと文法に気をつける

Stable Audioは自然言語処理もかなり得意ですが、日本語の解釈にはまだ課題があるようです。

特に、言葉の言い回しや文脈によっては、意図が正しく伝わらないことも。例えば「激しいギターリフ」と「激しめのギターリフ」では、「激しい」の程度が変わってきます。「激しめ」という言葉は、「激しいが、それほど激しくはない」というニュアンスを含むので、「激しい」よりは控えめな激しさを意味します。このように、日本語特有の言葉のニュアンスにも配慮が必要となります。

また、長い文章や複雑な構文は、AIには理解しづらいものです。なるべく簡潔で平易な文を心がけ、一文はできるだけ短くまとめるようにしましょう。言葉選びと文の構造を工夫することで、日本語のプロンプトの精度は上がっていくはずです。

Stable Audioの活用方法

これまで紹介してきたように、Stable Audioはかなり高品質の音楽生成ツールでしたね。では、一体どんな活用方法があるのでしょうか?

①アレンジやリミックスをして楽しむ

Stable Audioで生成した音楽は、そのままでも十分に完成度が高いものですが、さらに自分なりのアレンジを加えることで、オリジナリティあふれる作品に仕上げられます

例えば、気に入ったフレーズを切り出して、ループさせたり、別のシーケンスに組み込んだり。生成された音楽をサンプリングして、自作の曲に取り入れるのも面白い試みですね!

Stable Audioの音をベースに、自分の演奏を重ねれば、AIとのコラボレーション作品の完成。 既成曲のリミックスにも活用できます。原曲の一部をStable Audioで生成した音に差し替えることで、新しいバージョンを作り出せるでしょう。

発想の転換と工夫次第で、Stable Audioの音は無限の可能性を秘めているのです。

②効果音として利用する

Stable Audioは、音楽だけでなく、効果音の制作にも威力を発揮します

例えば、「ホラー映画に出てきそうな不気味な音」「宇宙を舞台にしたSF作品のテクノロジー音」など、場面やジャンルに合わせた効果音を、プロンプトで指示するだけで簡単に作れます

ゲーム開発では、各シーンに合ったBGMが大量に必要になりますが、Stable Audioなら、その需要に応えられるでしょう。「明るくポップなメニュー画面の曲」「緊張感あるバトルシーンの曲」など、様々なシチュエーションに合った音楽をいくつも生成できます。

また、動画のバックに流すBGMにもぴったりです。Stable Audioの曲(有料版のみ)なら、著作権の心配もありません!音の専門家でなくても、クオリティの高い効果音やBGMが入手できるのは、コンテンツ制作者にとって、とても魅力的ではないでしょうか?

【無料?】Stable Audioの料金プラン

Stable Audioは、無料版と3つの有料版の4種類のプランを用意しています。

分かりやすく表にまとめてみました。

プラン月額料金作成可能な楽曲数
(月ごと)
アップロードできる音声の最長時間
(月ごと)
商用利用
無料11.99ドル203分/1音声あたり30秒×
Pro(プロ)11.99ドル50030分/1音声あたり3分
Studio(スタジオ)29.99ドル1,35060分/1音声あたり3分
Max(マックス)89.99ドル4,50090分/1音声あたり3分

無料版では、最大3分の楽曲を月に20曲まで生成できる制限があります。趣味の作曲や、音楽制作の練習用として活用するのに適したプランと言えるでしょう。

一方、本格的に音楽制作に取り組みたい人向けに、有料版では生成できる楽曲数が大幅に増えます。プランによって異なりますが、月500曲から4500曲までの楽曲を作れるそうです。プロのクリエイターやコンテンツ制作会社など、大量の音楽を必要とするユーザーのニーズに応えられる設定になっています!

無料版で機能を試してみて、もっと使い込みたくなったら有料版に移行する、というステップアップの流れを想定しているのかもしれません。ユーザーの用途や予算に合わせて、柔軟に選べる料金体系は魅力的ですね。

Stable Audioの商用利用の可否

先ほどの料金プランでも少し触れていますが、Stable Audioで生成した音楽を商用目的で使用したい場合は、有料プランに加入する必要があります

無料プランでは非営利目的の利用に限定されているので、ビジネスでStable Audioを活用したい人は、有料プランへのアップグレードを検討しましょう。

音楽生成AIの著作権はグレーゾーンな部分も多い

ところで、AIが生成した音楽の著作権については、まだグレーゾーンが多いのが実情です。Stable Audioのような音楽生成ツールを使う上では、著作権の扱いに十分な注意が必要でしょう。

AIが学習したデータに、既存の楽曲が含まれている可能性は十分にあります。 無断で著作権者の楽曲を学習させ、それを基にした音楽を生成するのは、著作権侵害のリスクがあるのです。

Stable Audioの場合は、有料プランに加入することで、商用利用が許諾されています。ただし、生成された音楽の著作権がどこに帰属するのか、二次利用はどこまで認められるのか、など詳細な条件は不明瞭です。利用規約をしっかりチェックし、わからない点はStability AI社に問い合わせるのが賢明だと思います。

まとめ

いかがでしたでしょうか?

Stable Audio 2.0は、テキスト入力から高品質な音楽を自動生成するAIツールです。膨大な音楽データを学習した最新のディープラーニング技術を採用し、バージョン1.0から大幅に進化しました。

音楽家にとってのアイデア出しのパートナーとして、コンテンツ制作者にとっての効果音・BGM制作の強力なサポーターとして、Stable Audioの活躍が期待されます。一方で、音楽生成AIの著作権問題など、解決すべき課題も残されています。著作権・商用利用の可否などを十分に注意しながら活用しましょう!

プロンプトジェネレーターで画像生成プロンプトの参考に!
  • Stable Diffusionのプロンプトの見本が知りたい
  • 画像生成が思ったようにできない
  • 色々なプロンプトを探したい
など、画像生成AIのプロンプトに関する疑問が解決するかもしれません。
romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!