音質補正について

記事
コラム
※この記事は若干古く、現在の作業環境と少々異なるところがあります。
 大枠ではそこまで変わっていないので、参考程度にとどめてください。



「元作曲家ならではの」って謳い文句で始めた文字起こしですが
具体的に何をしているのかについては、あまり詳細に書いてませんでした。
自分自身のルーツを証明する意味も込めまして
今回はそのテクニックを大公開しちゃいます。

大まかな流れとしては以下になります。

1:大雑把な音量調節
2:ノイズ除去
3:反響音の除去(ひどい場合のみ)
4:イコライザー(周波数帯の操作)
5:コンプレッサー(ミリ秒単位での音量調節)
6:その他

この6段階の補正をかけることにより
聞き取りにくい音声でも、なんとか人間の肉声を抽出します。
これらすべてをかけるということは稀で
大抵は1~2個程度で聞こえやすくなることがほとんどです。
しかし3~4つ以上かける必要がある音声の場合は
文字起こし的にも難易度が高いので、若干の手数料をいただいております。

1:大雑把な音量調節

発言者によって声の大きさに偏りがある場合があります。
広い空間で録音することにより、録音機から離れた人の声が拾えなかったり
オンライン通話の設定ミスによって起こりがちです。

声が小さいままその後の音質補正をしようとすると
言わば音の解像度が低いまま各種ソフトにかけることになるので
余計なノイズを生んだり、誤動作を招きかねません。

この場合は単純に、音量が小さい人に合わせて
音声ファイル全体の音量をグンと上げます。
この際、録音機に近い人の音声が音割れすることがありますが
録音機に近ければ子音母音ともに明瞭に録れているため
多少音割れしていても聞き取りには問題ありません。

この処理によって大きくなりすぎた音は
後に出てくる「コンプレッサー」で対処します。

2:ノイズ除去

ノイズ60%.png

音質補正の要、ノイズ除去です。
常時鳴り続けている環境音をソフトに認識させ、ノイズのみを抽出し
「逆位相」と呼ばれる手法を使ってノイズを取り除きます。

エアコンや換気扇など、同じ音が鳴り続けているタイプのノイズは
この作業をすることで簡単に取り除くことができます。
逆に、テレビの音声やBGM、店内のお客さん同士の会話など
不規則かつ人間の声が混ざっている場合は非常に難しいです。

ただ、AIも完璧ではないので、強くかけすぎると
会話音声そのものが取り除かれてしまいます。
ある程度、耳障りの悪さが緩和できたかな?
くらいのレベルで押さえておくのが吉でしょう。

3:反響音の除去
リバーブ50pa.png

文字起こしの天敵、反響音です。
反響音が多いと子音がかき消されてしまうので
それだけで文字起こしの難易度が格段に跳ね上がります。

加えて、反響音は処理が非常に難しく
ソフトにかけても良い結果にならないこともよくあります。

ですので、もし可能であれば、あまり広くない場所で
できれば防音設備のある部屋で録音していただくのがベストです。
質の高い文字起こしは、会場選びの段階から始まっているのです。

4:イコライザー

EQ75.png


音楽用アプリの設定などで使ったことがある人もいると思います。
部分的に周波数帯を上げ下げして、音を聞こえやすくします。
例えば、くぐもった音声であれば低域をカットし
高音がキンキンした音声であれば高域を抑えます。

あるいは、人間の耳にとって不要な周波数帯をカットすることで
他の音質補正ソフトのかかりを良くするという使い方もできます。

ただ、これをやりすぎると位相ズレという現象が起こって
若干ですが聞き取りにくくなります(理論上は)。
ガチガチに設定するよりも、必要な帯域にピンポイントでかける使い方のほうが無難かもしれません。

5:コンプレッサー

コンプ60.png

1000分の1秒単位で音量の調節ができます。

文字起こしの難易度は、子音が聞き取れるかどうかでだいぶ変わってきます。
そこで、コンプレッサーで子音のみを強調できるよう
例えば1000分の30秒だけ音量を上げるといった使い方をしています。

他にも、発言者によって声量にバラつきがある場合は
大きな声の人を抑える目的で使います。
あるいは、録音機の横で手を叩いたり物を置くなどで
瞬間的な大音量が録音されている場合の対処法にもなります。

これは設定によって効果が千差万別なので
必要に応じて柔軟に設定を変えています。

6:その他

各種ソフトの自動設定では補いきれなかった
イレギュラーな部分を手作業で直していきます。
ただ、手作業はやればやるだけ時間を食ってしまうので
著しく音量がデカい箇所があるとか、左右片方しか聞こえないなど
極端に支障をきたす部分だけ直していくという感じです。

ちなみに

私はいったん文字起こしを全部し終えたあとに
もう一回最初から見直し作業を行っております。
その際、最初の文字起こしは補正をかけた音声で行うのですが
見直しのときは、なるべく原音のデータを使うようにしています。

理由としては、語尾を濁していたりなどで声が小さい場合
ノイズカット時に誤って消されてしまうことがあります。
その状態で文字起こし・見直し両方をやってしまうと
消えた声は消えたままになってしまいます。

なので、補正をかけた音声と元データの2種類を使い分けることで
できるだけ聞き取れる範囲を増やせるようにしております。

終わりに

以上、私が普段している一連の流れになります。
もちろん、元々が綺麗な音声であれば
ソフトにかけると逆に音質劣化させてしまうので
そのままにしておくという選択肢も当然あります。

また、いくら補正ができると言っても
最初から音質が綺麗であることに越したことはありません。

・広い空間は避けて、音が反射しにくい部屋を選ぶ(重要)
・なるべく全員が録音機の近くに居る
・録音機をカバンやポケットに入れない
・オンライン通話の場合は、PC内でデータとして録音する
・(できれば)マスクを外す

以上のうち、できる範囲で取り入れていただければ
より質の高い文字起こしが可能になります。
一字一句とりこぼさないよう、お互い頑張りましょう!
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す