私は、文書翻訳をしている者です。
今日は音声翻訳の仕込みをしよう!ということで、MP3などの音声ファイルからの自動文字起こしに取り組んでみました。
*きっかけは音声翻訳の需要の多さ
これまで音声翻訳をお仕事という形で依頼されたことはないのですが、クラウドワークスに挙がってくる英語のお仕事を眺めているとYoutube動画やインタビュー、オンライン会議などの音声翻訳の割合がけっこう多いことに気づきました。
で、「手で書き起こすのは面倒なので、音声入力をある程度自動化したいな」と思いGoogleドキュメントへの音声入力にチャレンジすることにしました。
*ステレオミキサーが無い!(Windows10)>レジストリいじったら出てきた
ネットで調べてみると、どうやら音声ファイルからの文字入力には「ステレオミキサー」が必要であることはわかりました。
サウンドコントロールの設定を見ると、録音のタブにはマイクだけが表示さていて、ステレオミキサーが存在しません。「無効にされているデバイスを表示」にしても出てきません。
無料ソフトで対応できるのか?と思って価格コムの質問コーナーや知恵袋的なところを見たら「外付けのを買うべし」とか「Lenovoのサウンドカードはそもそもステレオミキサーに対応してないからサウンドカードごと入れ替えないとダメ」などがっかりさせる回答ばかり。ほかにも(結果的には)的外れなアドバイスが多かったです。
が、レジストリいじればどうにかなるのでは?という可能性にかけ引き続き調べていくと、素晴らしいサイトを見つけました。
◯ izanagi.top/2020/04/19/conexant-smartaudio-hd/
◯ jl1jvt.cocolog-nifty.com/blog/2019/01/post-a655.html
上記サイトのやり方に倣い、しかるべき場所に「StereoMixEnable」キーを作成後、新規バイナリ値「Enable」「MixAssocSeq」「MuteGainSettings」をこさえてサイトに書いてある通りの値を入力。これで再起動したところ無事、「サウンド」のダイヤログボックスに「無効のデバイス」としてステレオミキサーがようやく現れました!あとはサウンドミキサーを右クリックして有効にするだけ。
どうやら、PCのスピーカがConexant SmartAudio HDというデバイスを使用している場合、初期設定ではサウンドミキサーをわざわざ無効にしているようです。まったく余計なことをしてくれたな…という感じです。(レジストリいじるのは敷居が高い)
*ステレオミキサーを有効にしたのに音声入力できない>Googleドキュメントのサイトプライバシー設定を変えたら出来た!
ステレオミキサーという眠れる能力を発掘して安心したのも束の間。さっそくGoogleドキュメントで音声入力を試してみたところ、どうもマイクが認識されていないとのこと。うーむ。
ネットで情報を探してはあちこちいじって試してみたのですが、結論から言うと「Chromeのサイトプライバシー設定で、マイク入力を許可したら出来た」という結果になりました。
サイトプライバシー設定の場所ですが、URLの左端に錠🔒のマークがありますよね、そこです。初期値ではマイク入力不可になっていました。
*同じ音声ファイルでGoogleドキュメントに音声入力しているのに微妙に不安定
これはまだ未解決の話です。Googleドキュメントに音声入力するとき、同じ音声ファイル(MP3、MP4など)を繰り返し再生して同じ条件でマイク入力しているにも関わらず、なぜかわかりませんが反応が不安定なのです。
・「全く反応しない」
・「文字起こしが始まったが、せっかく入力された前の単語を次の単語が上書きして最後に数ワードしか残らない」
・「一回目の再生と二回目の再生で文字起こしされている単語が全然違う」
…などの怪奇現象が起こっています。
Googleドキュメントをオンラインで使用しているのですが、通信環境が貧弱なことが影響しているのでしょうか?よくわかりません。
また何か判明したら本投稿を再編集するという形でUPしようと思います。
よろしくおねがいします。(ペコリ)