音声合成ってどんな技術？どんな使い道？

コンテンツ

IT・テクノロジー

現在、２つの音声合成サービスを出品してます。

音声合成は、使い方をうまく考えれば、新たなアウトプットとして、さらに訴求力を高められる手段。

今回は、そんな音声合成をもっと理解していただけるブログです。

音声合成は実は古い

音声合成は、コンピュータが産まれ、音を扱えるようになって割とすぐに出てきた老舗の技術です。

ただし、言語としては英語。研究が進んでいたこと、コンピュータの普及が速かったこと、に加え、

言語的に向いている特長

が英語にはありました。それは、分かち書き、という単語と単語の間にスペースが入る形式。

これにより、処理の間違いが起こりにくく、言語的な解析も正確になり、結果、多くの技術が産まれました。

自分は8ビットの頃から、これらの技術をなんとかエンタメに使えないかと奮闘しつつも、日本語の壁にぶつかり続けてましたが・・・

日本語ワードプロセッサーの誕生

今ではPCで日本語を入力して文字を書くのは簡単で、誰でもできます。でも、昔は大変。自分で漢字とひらがなを並べるような、地道なことをやっていた時代もありました。

仮名漢字変換、という技術がそこに登場。ひらがなで入力された日本語を漢字に変換する技術が発達。まさに、いま自分がこのブログを書いている時に便利に使っている技術です。

これにより、日本語の構造研究が一気に進み、また、様々な単語のデータベースが作られました。

これが、日本語音声合成の発達に役立つことに。

人間の発音を50音の表の単位でバラバラに作ったとします。

あ・い・う・え・お・か・き・く・け・こ、など。

これを、例えば、「赤い柿」という文章に当てはめると、上からひとつずつ拾って並べれば、たどたどしいけど、テキストデータ→音声、という変換ができます。

でも、これではイントネーションが足りなかったり、さらに音と音の間もスムーズに接続されません。

ここに、赤い、ならば、　あ　↑か　↑い、といった、単語に付随する音程の上げ下げ情報を適用したり、あ、と、か、の間の発音も素材として使ったり、など細かい調整が始まり、少しずつ人間っぽい音になってきました。

これらの技術は、まだ産業で使うレベルにない、ということで多くは大手電機メーカーや通信系の会社の「研究」がその開発を担っていました。

そこで目指したのは、まさに「どれだけ人間に近づけるか」ということ。

これは今でも続いてます。

でも、大きな欠点が。

近づくけど、必ずどのレベルでも人間に及ばない点が出てくるのです。

イントネーションを付けたら、次は、それが自然ではない、というのが目立ちます。間の音を作ってみたら、さらにその間の音が欲しくなります。

なので、80点→90点→95点→97点→97.5点→のように、いつまでたっても100点にたどり着かない状況。

それでも、テキストデータが音声になる、という「利便性に着目」して、使い始める世の中になってきました。

一番ポピュラーにしてくれたのは人間型ロボット。これなら、多少人間っぽさが足りなくても、ロボットがしゃべる、というメタファーが挟まることで、なにかたどたどしさもそのロボットの愛嬌につながり、許容されることに。

さらに、入力手段とのセットですが、スマートスピーカーの台頭も普及を後押しします。元々、やり取りが音声で完結するサービスなので、とにかく音で情報を出さないといけない。

ならば、100点でなくてもいいじゃないか、ということで。

別のブログでも書きますが、ここで重要なのは「メタファー」です。いったい誰がこのしゃべりをしているのか、というところでうまく大きなシステムを構成すれば、人間っぽいかどうか、はあまり気にならなくなるのです。

今日は、ここまで。

また継続して音声合成を説明していきます。お楽しみに。