最近、話題のAIボイスチェンジャー。YouTubeなどでもAIボイスチェンジャーを利用した動画が多くあります。
数あるAIボイスチェンジャーの中でも、RVCなら誰でも簡単に無料で精度の高いものが得られます。
「RVCを使ってみたいけど、何からすればいいか分からない」「パソコンのスペックがあまりよくないけど使えるのか?」「中国語で何が書いてあるのか分からない」
そんな初心者のために、簡単で分かりやすい記事にしました。
この記事を読めば、誰でも簡単に使えるようにしたので、ぜひご覧ください。
AIボイスチェンジャー「RVC」とは
RVCとは、Retrieval-based-Voice-Conversionの略で、中国初のAI音声変換ソフトウェアです。
従来のボイスチェンジャーでは基本的にユーザーの地声にエフェクトをかけるだけでしたが、RVCは学習させた特定の人物の声に変換することができます。これにより、理論上は誰の声にでもなることができます。
また、リアルタイムで変換できる点、無料で使える点もRVCの大きな特徴です。
RVCを使う方法
RVCには大きく分けて2種類の使い方があります。
RVCを使う方法:①インストール
パソコン上にインストールして使う方法です。この方法を使うには、パソコンのスペックが必要になってくるため、気を付けなければなりません。
因みに、筆者のノートパソコン(メモリ:16G、CPU:12th Gen Intel(R)Core(TM)i7-1255U、GPU:Intel(R)Iris(R)Xe Graphics、Windows 11)では、動くことが確認できました。
RVCを使う方法:②GoogleColab
GoogleColabとは、Googleが機械学習の教育および研究用に提供している無料のサービスです。
このサービスはインストール不要で、Googleアカウントがあれば、Pythonや機械学習、深層学習の環境をすぐに整えることができます。
RVC WebUIの使い方
今回は、GoogleColabでRVCを使う方法を解説していきます。
RVC WebUIの使い方:①RVCをColabに導入しよう
まず、GitHubからRVCをColabに持ってきましょう。
GitHubのページに飛んだら、下にスクロールしてください。

プラカードを持った猫耳娘の左下あたりにある、COLABをクリックしてください。
そうすると下記のような画面になります。

中国語で色々書かれていますが、今は一旦無視しましょう。

左上の「ファイル」から、「ドライブにコピーを保存」をクリックしてください。
すると新規タブで、コピーが開かれます。

ノートブックのタイトルにコピーとついていたら成功です。
最後に、Google Driveからも確認しましょう。

マイドライブにしっかり保存されています。
これで次回以降、ここから開くことができます。
RVC WebUIの使い方:②データセットを用意しよう
データセットとは、、特定の目的や研究のために収集・整理されたデータの集まりのことです。
RVCでは、特に以下の特徴を持つ音源を複数用意することがおすすめです。
- wavファイルである
- 純粋に声だけのファイル(BGMなどが含まれない)
- 短時間
- ノイズがない
- 発音がハッキリしている
今回はあみたろの声素材工房(https://amitaro.net/)さんの音声を使用しました。
使用する際は、こちらの規約をよく読むようにしましょう。
データセットが準備できたら、GoogleDriveにアップロードしましょう。
この際、ファイルをzipに圧縮してからアップロードしてください。
イメージは、
- 音声1.wav
- 音声2.wav
- 音声3.wav
- 音声4.wav
この様な形になっていることです。
RVC WebUIの使い方:③WebUIを実行しよう
それでは、マイドライブからRVCを開いてください。

まず、「查看显卡」を実行します。「查看显卡」とは、日本語で「グラフィックカードを見る」という意味です。

同様に以下のセルを一つずつ実行していきます。
「挂载谷歌云盘」、日本語では「GoogleDriveをマウントする」という意味です。

実行すると、次のようにアクセスの許可を求める、ポップアップが出るので、Googleドライブに接続を選択して、Googleアカウントにログインしてください。

「安装依赖」、日本語では「依存関係のインストール」という意味です。

「克隆仓库」、日本語では「リポジトリのクローンを作成する」という意味です。

「安装aria2」、日本語では「aria2をインストールする」という意味です。

「下载底模」、日本語では「ベースのダウンロード」という意味です。

「下载人声分离模型」、日本語では「音声分離モデルのダウンロード」という意味です。

「下载hubert_base」、日本語では「hubert_baseのダウンロード」という意味です。

以上のセルを実行して、ダウンロード、インストールを終えてください。
次に、左のファイルタブからデータセットを取り出します。
MyDriveに、用意したデータセットのzipファイルがあります。

カーソルを合わせると、右に表れる︙をクリックしてください。

「パスをコピー」をクリックしてください。

このように数据集位置に、ペーストしてください。
「从谷歌云盘加载打包好的数据集到」は、日本語だと「パッケージ化されたデータセットを Google クラウド ドライブから読み込む」です。

最後に「启动web」を起動して、WebUIを動かします。

実行ログにある、Running on public URL:をクリックしてください。

これでRVCが使えるようになりました。
RVC WebUIの使い方:④学習させてモデルを作ってみよう
それでは、RVCで学習して、モデルを作りましょう。
WebUIで、上もタブにある、Train(3つ目)へ切り替えます。

WebUIのStep1から順に進めていきます。
- Input experiment name:自分が今から作るモデルの名前を付けます。
- Target sample rate:サンプリングのグレードを決めます。とりあえずは40kで大丈夫です。
- Does the model have pitch guidance (singing must, voice can not.):基本的にはyesで大丈夫です。
- Input training folder path:Colabのデータセット内にあるフォルダのパスを入力します。/content/dataset/001_aisatsu←このような形で入力してください。
- Total training epochs (total_epoch):何回学習するかを決めます。やみくもに多くしても過学習となってっしまうので、20程度から始めて、だんだん増やしてみてください。
- One-click training:クリックすると学習されます。
- Train feature index:学習した結果で、インデックスファイルを作ります。
※Step3の結果などは、右隣にあるExport messageに表示されます。
これで学習は完了です。
RVC WebUIの使い方:⑤作ったモデルを使ってみよう
それでは、RVCでつくったモデルを、使ってみましょう。
WebUIで、上もタブにある、Mpdel inference(一番左)へ切り替えます。

上段中央のRefresh timbre listをクリックしてください。
すると、左の隣のInferencing timbreで、プルダウンから、先ほど作ったモデルが選択できます。

真下にある以下の3つを設定します。

- transpose(integer, number of semitones, octave sharp 12 octave flat -12):音声データのピッチをどれだけ上げるか下げるかを設定します。異性の声に変換する場合は12程度、同性の場合は0のままで大丈夫です。
- Enter the path of the audio file to be processed (the default is the correct format example):変換元のデータパスです。任意のデータをDriveに保存して利用してください。
- Select the algorithm for pitch extraction. Use ‘pm’ to speed up for singing voices, or use ‘harvest’ for better low-pitched voices, but it is extremely slow.:どっちでも構いませんが、harvestの方が品質が良くなるらしいです。
インデックスファイルを指定します。
先ほどの3つの右隣にある、Feature search database file pathに、added_xxxx.indexの形で指定してください。
最後に一番右にあるConvertをクリックしてください。
右下のExport audio(there dots in the lower right corner, click to download)に音声ファイルが出力されたら成功です。
RVC WebUIの使い方:⑥作ったモデルを保存しよう
作ったモデルはこのままGoogle Colabを閉じてしまうと、消えてしまうので,Google Driveに保存しておきましょう。
Colabの画面側に戻って、 必要な情報を入れて「手动将训练后的模型文件备份到谷歌云盘」のコードを実行してください。「手动将训练后的模型文件备份到谷歌云盘」は、日本語で「トレーニング済みのモデルファイルを Google ディスクに手動でバックアップする」という意味です。

- MODELNAME:モデル作成時と同じモデル名を書いてください。
- MODELEPOCH:トレーニングの途中のファイルになります。学習を再開したいときに使えるので、バックアップを取りましょう。D_XXXX.pthやG_XXXX.pthなどが生成されていると思うのでこのXXXXの部分の数字で、一番大きいものを入れてください。
実行すると下記のように、マイドライブに保存されます。次回以降は、ここから使うことができます。

RVCでよく出るエラー
ここでは、RVCを使う上で、良く発生してしまうエラーを解説します。
RVCでよく出るエラー:①从谷歌云盘加载打包好的数据集到のエラー
「从谷歌云盘加载打包好的数据集到」の数据集位置のDATASETに貼るときに、このようなエラーが出ていることがあります。

以下のように直すと使えるようになります。
修正前
# @title 从谷歌云盘加载打包好的数据集到/content/dataset
# @markdown 数据集位置
DATASET = (
"/content/drive/MyDrive/amitarovoice_20230207_01.zip" # @param {type:"string"}
)
!mkdir -p /content/dataset
!unzip -d /content/dataset -B {DATASET}
修正後
# @title 从谷歌云盘加载打包好的数据集到/content/dataset
# @markdown 数据集位置
DATASET = "コピーしたパス" # @param {type:"string"}
!mkdir -p /content/dataset
!unzip -d /content/dataset -B "$DATASET"
修正後をコピー&ペーストすれば、そのまま使えます。
RVCでよく出るエラー:②Connection errored out.のエラー

Colabとの連携が外れています。もう一度最初(查看显卡)から、起動していってください。
RVCでよく出るエラー:③よくわからないけど動かない
Colabで確認をしてみてください。启动webが動いていれば、時間を置けば治ります。
動いている様子がなかったり、時間をおいても治らなかった場合は、もう一度最初(查看显卡)から起動していってください。
RVCをもっと活用しよう
ここでは、RVCをさらに活用できる、おすすめな方法を解説していきます。
自分の声を学習させてみる
基本は、データセットのファイルを自分の声に変えれば、使い方の通りでできます。
恐らく、自分の声を録音すると、ファイルがwavファイルでないので、こちらのサイトで変換しましょう。
これで後は、前述の通りに行ってみてください。
学習済みデータを使ってみる
いわゆる、モデルをダウンロードして使う方法です。様々なサイトで手に入れることができます。
「RVC WebUIの使い方:⑤作ったモデルを使ってみよう」で好きなモデルに変えるとできます。
詳しくはこちらの記事をご覧ください。
RVCはスマホでも使える?
スマホでもGoogleColabが使えるので、一応できます。
ただし、使いにくく、発熱もかなりするので、おすすめはしません。
リアルタイムでボイスチェンジをする
RVCを利用した、リアルタイムボイスチェンジも可能です。使用方法や利用規約等の詳細は、こちらのURLからご確認ください。
RVCを日本語化させる
RVCの、英語や中国語が読めない・分からない人のために、日本語用のスクリプトを作成している方もいます。
Discordで情報共有
DiscordでRVCの情報共有を行い、よりRVCを活用できます。
RVC Developersでは、中国語や英語での会話もありますが、日本語も比較的多いので、情報共有をしやすいです。

また、X(旧Twitter)では、日本語の専用サーバーを作っている方もいます。
どちらのサーバーも、有識者の話を聞くことができるので、勉強になります。
まとめ
RVCの使い方について書いてきました。
この記事をまとめると
- RVCとは、無料のAIボイスチェンジャーである
- RVCには2つの使い方がある
- RVCの簡単な使い方は、ColabでWebUIを使うことである
- RVCで学習するための音声はwavファイルである
- RVCで使えるモデル(学習済みデータ)は、pthファイルである
- RVCは、リアルタイムで変換することも可能である
- RVCは日本語でも使うことができる
でした。
この記事を読めば、簡単に使うことができるので、ぜひやってみてください。
- ChatGPTで〇〇を効率化したい
- スライドを作るならどのAIツールがおすすめ?
- おすすめのGPTsが知りたい
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
