RVC（ボイスチェンジャー）との違いは何ですか？

RVCは「マイクに入れた声を変換する」ものですが、こちらは「入力したテキスト（文字）を読み上げさせる」ものです。用途に合わせてお選びください。

どのくらいの量の音声が必要ですか？

自然な読み上げを実現するには、クリアな音声で「30分以上」あるのが理想です。データが少ない（数分程度）場合も作成は可能ですが、機械的な音声になりやすく、滑舌が悪くなる可能性があります。

英語も読み上げられますか？

はい、Style-Bert-VITS2は多言語に対応しているため、日本語で学習させたモデルでも、ある程度英語や中国語を喋らせることが可能です（発音のネイティブさは保証できません）。

納品されたモデルはどうやって使いますか？

PC上で動作する「Style-Bert-VITS2」のWebUIアプリケーション等に、納品ファイルを配置して使用します。モデルの使用（推論）だけであれば、学習ほどのスペックは必要ありませんが、一定のPCスペックが必要です。 ※ソフトの導入方法や操作サポートは本サービスに含まれません。別途サポートをご購入ください。

スマホで録音した音声でも大丈夫ですか？

静かな部屋で、反響や環境音が入らないように録音されていれば可能です。ただし、スマホのマイク特有のノイズが乗っている場合、完成したAIの声にも「サーッ」というノイズが混ざる可能性があります。

1/1

AI読み上げモデル作成！あなたの声を学習させます

Name: AI読み上げモデル作成！あなたの声を学習させます Style-Bert-VITS2データ学習代行します
Brand: ココナラ
SKU: 3962430
Price: 4000 JPY
Availability: OutOfStock

Style-Bert-VITS2データ学習代行します

評価

販売実績

0件

残り

10枠 / お願い中：0人

coffin299

総販売実績：2件

お届け日数: 2日（予定）

定期購入: 可能

サービス内容

「自分の声でテキストを読み上げるAIを作りたいけれど、ハイスペックPCがない…」「環境構築が難しくて諦めてしまった…」そんな方向けに、現在最高峰の精度を誇るAI音声合成技術「Style-Bert-VITS2」を用いた追加学習（ファインチューニング）を代行いたします。高価なGPUをお持ちでない方でも、入力した文字をあなたの声（または提供された声）で読み上げる専用モデルを手に入れることができます。作成したモデルは、ご自身のPC上のStyle-Bert-VITS2アプリなどで使用可能です。 ■こんな方におすすめ・自作ゲームや動画のナレーションを自分の声で自動化したい方・VTuber活動で、コメント読み上げを自分の声で行いたい方・特定のキャラクターの声で読み上げソフトを作りたいクリエイター様・ご自身の声をデジタル資産として保存しておきたい方 ■提供内容ご提供いただいた音声データを使用し、Style-Bert-VITS2の学習を行います。 1. データセットの確認・前処理音声データの形式チェック、および音声認識AI（Whisper等）を用いた文字起こし・ラベリング作業を代行します。 ※お客様側で文字起こしテキストを用意する必要はありません。 2.学習（Training）汎用性の高い「JP-Extra」等のモデルをベースに、あなたの声の特徴を追加学習させます。 3.納品 Style-Bert-VITS2等で読み込み可能なモデルファイル一式・モデル本体（.safetensors）・設定ファイル（config.json）・スタイルベクトル（style_vectors.npy） ■納品までの流れ音声データの送付（お客様）データの確認・学習開始（当方）学習済みモデルの納品（当方）動作確認・正式な回答

購入にあたってのお願い

「他者の権利を侵害する音声データ」の学習代行は固くお断りいたします。・有名人、声優、アーティストの音声・アニメ、ドラマ、映画の切り抜き音声・他社のAI音声合成ソフトの出力音・その他、依頼者様が権利を持たない音声これらを使用した依頼と判断した場合、即座にキャンセルさせていただきます。また、納品されたモデルの使用により発生した法的トラブル等について、当方は一切の責任を負いません。 ■ご用意いただく音声データについて・ファイル形式：wav または mp3 ・合計時間：推奨 30分～60分程度（最低でも10分以上推奨）・内容： BGMや効果音が入っていない「アカペラ」の音声に限ります。「はっきりとした話し言葉（朗読調）」が最も適しています。ボソボソとした喋りや、ノイズが多い環境での録音は、読み上げ精度が著しく低下するためお断りする場合があります。 ■品質・キャンセルについて・AI学習の性質上、「思ったような話し方にならなかった」「イントネーションが一部不自然」といった理由でのキャンセル・返金は対応いたしかねます。

有料オプション

StyleBertVITS2導入サポート

＋ 4,000円

4,000 円

20ポイント (0.5％) 獲得

ココナラの安心保証

出品者プロフィール

coffin299

本人確認

機密保持契約(NDA)

インボイス発行事業者未登録

総販売実績 2

評価

5.0

フォロワー 3

プロフィール詳細を見る

スケジュール

平日日中は即レスのみ、土日祝日24時間対応可

経験職種

エンジニア / フロントエンドエンジニア

エンジニア / バックエンドエンジニア

エンジニア / その他エンジニア

職歴

A株式会社 2024年4月 ~ 2025年1月

B株式会社 2025年3月 ~ 2025年6月

個人開発 2025年7月 ~ 現在

資格・検定

ITパスポート取得年 : 2022年

プログラミング言語・フレームワーク

C#:1年 CSS:4年 HTML:4年 Java:4年 JavaScript:3年 Python:4年 Bootstrap:4年 Spring Boot:4年 Unity:6年 Amazon Web Services:4年 Google Cloud Platform:4年 Linux:4年 Windows Server:4年オンプレミス:7年 Microsoft SQL Server:1年 MySQL:2年 Oracle Database:3年 SQLite:3年 Git:4年 GitHub:4年

ビジネス・クリエイティブツール

Excel:4年 Google サイト:4年 Google スプレッドシート:4年 Google スライド:4年 Google ドキュメント:4年 PowerPoint:4年 Word:4年 Google Analytics:2年 Google Search Console:2年 Stable Diffusion:4年 ChatGPT:4年 Midjourney:4年 Adobe Premiere Pro:1年 AviUtl:7年ゆっくりMovieMaker:7年 MikuMikuDance:7年 OBS Studio:5年

得意分野

IT相談・システム開発 Python

IT業界

Web制作・HP作成・EC構築 html, css, js, ts

IT業界

出品者のポートフォリオ
もっと見る

プログラム集+その他DiscordBot等プロジェクト集

よくある質問

RVC（ボイスチェンジャー）との違いは何ですか？

回答を見る

RVCは「マイクに入れた声を変換する」ものですが、こちらは「入力したテキスト（文字）を読み上げさせる」ものです。用途に合わせてお選びください。
どのくらいの量の音声が必要ですか？

回答を見る

自然な読み上げを実現するには、クリアな音声で「30分以上」あるのが理想です。データが少ない（数分程度）場合も作成は可能ですが、機械的な音声になりやすく、滑舌が悪くなる可能性があります。
英語も読み上げられますか？

回答を見る

はい、Style-Bert-VITS2は多言語に対応しているため、日本語で学習させたモデルでも、ある程度英語や中国語を喋らせることが可能です（発音のネイティブさは保証できません）。
納品されたモデルはどうやって使いますか？

回答を見る

PC上で動作する「Style-Bert-VITS2」のWebUIアプリケーション等に、納品ファイルを配置して使用します。モデルの使用（推論）だけであれば、学習ほどのスペックは必要ありませんが、一定のPCスペックが必要です。 ※ソフトの導入方法や操作サポートは本サービスに含まれません。別途サポートをご購入ください。
スマホで録音した音声でも大丈夫ですか？

回答を見る

静かな部屋で、反響や環境音が入らないように録音されていれば可能です。ただし、スマホのマイク特有のノイズが乗っている場合、完成したAIの声にも「サーッ」というノイズが混ざる可能性があります。