動画のナレーション台本をVOICEBOXで一気に音声化mp3にする方法

記事

写真・動画

テキストを音声化するサービスはいろいろありますが、

人工的な音声ではちょっと使いにくいという場合があり、

「人の声」にできるだけ似た音声化が求められるケースがあります。

とくに動画のナレーション原稿を音声化して、画像などと組み合わせて動画にしたいというご相談も受けます。

簡単そうで、意外と面倒な処理が必要となりますが、まずは人の声に近い音声を素材として、簡単に取得できる方法を一つ提案します。

それは、VOICEBOXというソフトをみなさんのPCにインストールして使う方法です。これは、「VOICEBOX」で検索してみてください。

商用でも無料できる音声化ソフトです。

ただ、クレジット表記必要性やキャラクターごとの利用規約があります。

「VOICEBOX NEMO」というキャラクターなしのバージョンもあり、こちらの方がクレジット表記のみなので使いやすいです。

ただ、このソフトだけですと、テキストを音声化するのに、１件ずつ行わなければならないので、かなり時間がかかります。

そこでこのソフトにはAPIが利用できる機能がありますので、それを使うとかなり自動化できます。

APIの仕様も「VOICEBOX API」などで検索するとわかります。

プログラムがわかりAPIが使える方は、これらを使って自動化できると思います。

私も、すべての話者を選んで、テキストファイルを読み込んで、1行ずつを自動的に展開して、複数の音声ファイルmp3を一気に作るローカルPCで動くWEBツールを作成しました。

「変換開始」ボタンを押すと、あとは放置して待つだけで、テキストファイルのすべての行を音声化してくれます。

以下の画像のようなツールです。

voiceboxかvoicebox nemoかを選べます。

話者と速度、高さを選択できます。

テキストエリアもしくはテキストファイルを指定できます。

出力フォルダや出力ファイル名も指定できます(任意です)

動画台本のナレーションテキストを一気にmp3にする方法)

話者、スピード、高さを選択します

テキストエリアでなにか適当な文章を入れて、「変換開始」し、作成された音声ファイルを聞いて、喋り方などを確認します。

テキストファイルの方を選択し、ナレーションのテキストファイルを選択します。出力フォルダや出力ファイル名を指定します。(指定ない場合はデフォルト指定になります)

「変換開始」を押して、すべて完了するまで待ちます。

指定のフォルダに複数の音声mp3が作成されています。

使ってみたい方は、以下、有料で提供していますので、ご購入ください。

Pythonで作製されています。FlaskでWEBツール化しています。

ローカルPCでPythonが利用できることが必要となります。