ElevenLabsで自分の声からクローン音声を作る方法を解説! | romptn Magazine

ElevenLabsで自分の声からクローン音声を作る方法を解説!

AIツール

この記事は2024年1月の情報を元に作成されました

近年、生成AIの進化は目覚ましく、テキストや画像だけでなく、音声領域においても大きな進歩が見られます。特に音声クローン技術は、パーソナライズされたコミュニケーションやコンテンツ制作に革新をもたらし始めています。

この記事では、音声クローンの最前線に立つElevenLabsに焦点を当て、その概要から具体的な使用方法まで、詳細に解説していきます。ElevenLabsの特徴、料金体系、使い方、商用利用の可否、対応言語について幅広くご紹介します。

スポンサーリンク

ElevenLabsとは

ElevenLabsとは

ElevenLabsは、最先端の生成AI技術を用いてテキストからリアルな音声を生成するサービスを提供しているスタートアップ企業です。ElevenLabsを使えば自分の音声クローンを簡単に作成し、そのクローンに任意のテキストを読み上げさせることが可能になります。

この技術は、ポッドキャストの制作、オーディオブックのナレーション、ゲームや動画のナレーターとしての活用など、幅広い分野での利用が期待されています。

Googleの元従業員が立ち上げたスタートアップ企業

引用:About ElevenLabs | ElevenLabs

ElevenLabsの創業者は、GooglePalantirなど、テクノロジー業界の大手企業での豊富な経験を持つ元従業員たちです。彼らは生成AIと音声技術の可能性を信じ、誰もが簡単に高品質な音声コンテンツを制作できる世界を目指し、ElevenLabsを立ち上げました。

ElevenLabsの料金体系を解説⎟無料で使える?

ElevenLabsでは、初心者からプロフェッショナルまで幅広いユーザーに対応した料金体系を設けています。無料プランでも基本的な機能を試すことができますが、生成できる音声のサイズや使える機能に制限があります。

有料プランでは生成できる音声のサイズが拡大されるほか、音声品質の向上、商用利用の許可、優先サポートなど、さまざまな追加サービスが含まれています。

こちらの比較表(抜粋)を参考に、用途に応じたプランを選択してください。詳細はElevenLabsのサイトを参照してください。

FreeStarterCreatorIndependent PublisherGrowing BusinessEnterprise
価格 (月間)$0$5$22$99$330要相談
生成可能文字数 (月間)10,00030,000100,000500,0002,000,000要相談
カスタム音声クローン数31030160660要相談
インスタント音声クローン機能×
プロフェッショナル音声クローン機能××
商用利用要クレジット表記

ElevenLabsの使い方を解説⎟自分の声からクローン音声を作ってみた!

このセクションではElevenLabsで自分の音声クローンを作る方法を、ステップごとに詳しく解説します。

ElevenLabsの使い方

ElevenLabsには、現時点で以下のような機能があります。

Text to Speech入力したテキストと任意の音声から読み上げ音声を生成。あらかじめ用意された音声や自分のクローン音声を使用可能。
Speech to Speech録音された音声の内容はそのままにボイスチェンジする。感情や話し方を維持したまま、別キャラクターに変身できる。
Projects長尺の音声を正確に生成、編集、カスタマイズするためのワークフローを提供する。高品質なオーディオブックの生成に適している。
Dubbingオリジナル音声の特徴を維持しながら、別の言語に翻訳された音声に置き換える。高い音声編集機能を備えたDubbing Studioも提供される。

ここでは”Text to Speech”機能を使用して、自分のクローン音声を作成する方法を解説します。なお、この機能を使うには、”Starter”以上の有料プランへの登録が必要です。

初めて使う場合は、事前にGoogleログインなどでアカウント作成しログインしておきます。

AI Voice Generator & Text to Speech | ElevenLabs

ElevenLabsでクローン音声を作成してみた

声のサンプルをアップロード

ダッシュボードから、自分の声のサンプルをアップロードします。この声のサンプルは、クローン音声を作成するための基になるため、クリアでノイズの少ない音声サンプルを用意することが重要です。

まず、ダッシュボードの”Voices” > “Create”を選び、”VoiceLab”画面で”Add Generative or Cloned Voide”を選択します。そして表示されるメニューから、”Instant Voice Cloning”を選択します。

引用 – AI Voice Generator & Text to Speech | ElevenLabs

次に、音声クローンを作成するための音声を登録していきます。録音した音声ファイルをアップロードする以外にも、”Record Audio”ボタンでダッシュボードから直接録音して登録することができます。

引用 – AI Voice Generator & Text to Speech | ElevenLabs

精度の高いクローンを生成するためには5分以上の音声から学習させる必要があるため、それに満たない音声の場合は複数登録して条件を満たすことが望ましいです。

引用 – AI Voice Generator & Text to Speech | ElevenLabs

登録が終わったら名前や説明を入力し、”Add Voices”ボタンを押すと音声クローンの生成が開始されます。

テキスト入力

音声クローンの生成が完了すると、次の画面に遷移します。

引用 – AI Voice Generator & Text to Speech | ElevenLabs

音声クローン生成時に指定した名前とコメントが表示されますので、そこにある”Use”を選択します。この音声クローンを「使って」音声を生成するということです。

引用 – AI Voice Generator & Text to Speech | ElevenLabs

“Text to Speech”を選択、”Text”欄に音声生成したいテキストを入力し”Generate”ボタンで音声の生成が開始されます。

音声生成

音声生成に要する時間はテキストサイズに依存します。上記画面キャプチャにある一行程度のテキストであれば、概ね数秒で生成が完了します。音声の生成が完了するとすぐに再生されるので確認は容易です。

上記画面では”Text”に「我輩は猫である。名前はまだ無い。」を指定していますが、このテキストでは期待した出力は得られませんでした。「我輩」の読みが誤った音声が生成されてしまいました。「吾輩」を「わがはい」と入力し直すことで正しい音声が生成されました。

これは音声の生成品質の問題ではなく、漢字から読みを生成する処理が最適化されていないことが原因です。同様の問題は日本語文字を扱う多くのアプリケーションで見られる問題です。

音声の確認とダウンロード

調整した結果、生成された音声が満足できる品質であれば、その音声をダウンロードして使用できます。今回作成した音声がこちらです。

筆者のクローン音声から生成した音声ですが、あまりに自分そっくりの声で大変に驚かされました。

ElevenLabsは商用利用可能?

ElevenLabsの料金体系にも記載した通り、有料プラン(Starter以上)であれば生成した音声を商用することができます

ただし、無料プランであっても”elevenlabs.io”とクレジット記載することで商用利用可能になります。

Attribution to elevenlabs.io is required.

Pricing | ElevenLabs

ElevenLabsの対応言語⎟日本語対応や翻訳は?

ElevenLabsは、多言語サポートを大きな特徴の一つとしています。29言語に対応しており、日本語を含む多様な言語で音声クローンを作成することが可能です。このセクションでは、ElevenLabsの言語対応範囲と、言語モデルごとの特徴、翻訳機能について説明します。

言語モデルごとに対応言語が変わる

ElevenLabsでは、各言語に最適化された言語モデルを使用しています。これにより、各言語の特性やニュアンスを捉えた自然な音声生成が可能になっています。ユーザーは、自分が作成したい音声の言語に合わせて、適切な言語モデルを選択することができます。

日本語を元に他言語のクローン音声を作成

日本語を含む各言語で音声クローンを作成できるだけでなく、ElevenLabsは日本語のテキストを他言語に翻訳し、その言語で音声を生成する機能も提供しています。

これにより、グローバルな視聴者に向けたコンテンツ制作がより手軽になります。例えば、日本語で書かれたスクリプトを英語や中国語など、他の言語の音声に変換することができます。

吹き替え音声を作成⎟「Dubbing」機能

特に注目すべきは「Dubbing」機能です。この機能を使えば、既存のビデオコンテンツを様々な言語に吹き替えることができます。映画、ドキュメンタリー、教育コンテンツなど、多岐にわたる用途で利用することが可能です。

吹き替えに必要な音声はElevenLabs上で簡単に生成し、既存の映像に同期させることができます。

ElevenLabsの対応言語と翻訳機能は、言語の壁を越えたコミュニケーションを可能にし、多言語でのコンテンツ制作を援します。これにより、より幅広いオーディエンスにリーチすることができ、グローバルなプレゼンスの強化が期待されます。

ElevenLabsのまとめ

いかがでしたでしょうか?本記事では、ElevenLabsを使用した音声生成について詳しく解説しました。

今回のポイントをまとめると、以下のようになります。

  • アクセシブルな料金体系:無料プランから始めて、必要に応じて有料プランにアップグレードすることができる。
  • 簡単な使用方法:クローン音声の作成手順はユーザーフレンドリーで、誰でも簡単に利用開始できる。
  • 高度なカスタマイゼーション:ユーザーのニーズに応じて、音声の感情やスタイルを細かく調整することが可能。
  • 多言語サポートと翻訳機能:29言語に対応し、日本語を含む多様な言語でのクローン音声の生成や、異なる言語への翻訳が可能。
  • 商用利用が可能:有料プランを選択することで商用プロジェクトでの使用が許可されます。
romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
AIツール
スポンサーリンク
romptn Magazine