「自分の声でテキストを読み上げるAIを作りたいけれど、ハイスペックPCがない…」
「環境構築が難しくて諦めてしまった…」
そんな方向けに、現在最高峰の精度を誇るAI音声合成技術「Style-Bert-VITS2」を用いた追加学習(ファインチューニング)を代行いたします。
高価なGPUをお持ちでない方でも、入力した文字をあなたの声(または提供された声)で読み上げる専用モデルを手に入れることができます。
作成したモデルは、ご自身のPC上のStyle-Bert-VITS2アプリなどで使用可能です。
■こんな方におすすめ
・自作ゲームや動画のナレーションを自分の声で自動化したい方
・VTuber活動で、コメント読み上げを自分の声で行いたい方
・特定のキャラクターの声で読み上げソフトを作りたいクリエイター様
・ご自身の声をデジタル資産として保存しておきたい方
■提供内容
ご提供いただいた音声データを使用し、Style-Bert-VITS2の学習を行います。
1. データセットの確認・前処理
音声データの形式チェック、および音声認識AI(Whisper等)を用いた文字起こし・ラベリング作業を代行します。
※お客様側で文字起こしテキストを用意する必要はありません。
2.学習(Training)
汎用性の高い「JP-Extra」等のモデルをベースに、あなたの声の特徴を追加学習させます。
3.納品
Style-Bert-VITS2等で読み込み可能なモデルファイル一式
・モデル本体(.safetensors)
・設定ファイル(config.json)
・スタイルベクトル(style_vectors.npy)
■納品までの流れ
音声データの送付(お客様)
データの確認・学習開始(当方)
学習済みモデルの納品(当方)
動作確認・正式な回答
「他者の権利を侵害する音声データ」の学習代行は固くお断りいたします。
・有名人、声優、アーティストの音声
・アニメ、ドラマ、映画の切り抜き音声
・他社のAI音声合成ソフトの出力音
・その他、依頼者様が権利を持たない音声
これらを使用した依頼と判断した場合、即座にキャンセルさせていただきます。また、納品されたモデルの使用により発生した法的トラブル等について、当方は一切の責任を負いません。
■ご用意いただく音声データについて
・ファイル形式:wav または mp3
・合計時間:推奨 30分~60分程度(最低でも10分以上推奨)
・内容:
BGMや効果音が入っていない「アカペラ」の音声に限ります。
「はっきりとした話し言葉(朗読調)」が最も適しています。
ボソボソとした喋りや、ノイズが多い環境での録音は、読み上げ精度が著しく低下するためお断りする場合があります。
■品質・キャンセルについて
・AI学習の性質上、「思ったような話し方にならなかった」「イントネーションが一部不自然」といった理由でのキャンセル・返金は対応いたしかねます。