AI文字起こしの精度とプランの選び方

記事
IT・テクノロジー

AI文字起こしの精度と、プランの選び方


このサービスでは、AIを使って音声・動画の文字起こしを行います。

「AIの文字起こしで本当に大丈夫なのか」と不安に感じる方もいると思います。結論から言うと、現在のAI文字起こしはかなり実用的です。会議、インタビュー、対談、動画音声などであれば、まず内容を確認できる原稿として十分に使える水準まで来ています。

ただし、完璧ではありません。

音質が悪い部分、声が重なっている部分、発音が揺れている部分、専門用語や固有名詞が多い部分では、誤りや確認が必要な箇所が残ることがあります。そのため当サービスでは、ただ文字起こしを出すだけでなく、AIが迷った箇所や表記確認が必要そうな箇所をレポートとしてまとめる運用にしています。

AI文字起こしが向いているケース


AI文字起こしは、次のような用途に向いています。

・会議や打ち合わせの内容を確認したい
・インタビューや対談を記事化したい
・YouTubeや動画教材の字幕原稿を作りたい
・講演、セミナー、説明会の内容を文章で残したい
・文字起こしを早く安く用意したい

特に、長時間の音源や定期的に発生する会議音声では、人手だけで起こすよりも費用と時間を抑えやすいです。

一方で、法的な証拠、契約に関わる発言、医療・金融などの重要判断に関わる内容では、AIの結果をそのまま確定版として扱うのではなく、必ず人の確認を入れることをおすすめします。

実際のサンプル


精度の説明だけでは分かりにくいため、公開されている記者会見動画を使って検証しました。

音源: デジタル庁の記者会見
長さ: 12分44秒
形式: 素起こし
話者分離: あり
出力: 205行、5061文字
YouTube: 

文字起こし結果(自動処理):


素起こしは、「えー」「あのー」などのフィラーや言いよどみも含め、聞こえた内容をできるだけ残す形式です。そのため、このサンプルにもフィラーが多く入っています。読みやすく整えるケバ取りや整文より文字起こしの難易度が高い形式ですが、その条件でもこの精度で出力できています。

このサンプルでは、致命的に意味が変わる誤りは見当たりませんでした。細かく確認すると、音量が小さい発言が拾われていない箇所や、発音の揺れを別の言葉として解釈している箇所はありました。

たとえば、121(07:38)では、人間が聞けば「うっかりすると」と分かる発言が、AIの出力では「いっぺんにすると」になっていました。実際の発音は「う」と「い」の中間に近く、かなり「い」寄りに聞こえます。AIが音を細かく拾った結果、文脈上の解釈を外して別の言葉として認識した例です。

この121行目も、文全体の意味が致命的に変わるほどの誤りではありません。このようなAI特有の認識違いはゼロではありませんが、サンプル全体では数が少なく、致命的に意味が変わるミスは見当たりませんでした。重要なのは、AI文字起こしを「完全な正解」として扱うのではなく、確認が必要な箇所を把握しやすい形で納品することだと考えています。

一方で、専門的な言い回しや固有名詞に近い表現はかなりよく拾えていました。たとえば、次のような箇所です。


019(01:25): 「きめつのやいば」を、無理に漢字へ確定せず、かな表記で残しています。固有名詞は勝手に断定せず、要確認レポートにも「鬼滅の刃 / 作品名の正式表記確認」として出しています。
042(02:51): 「りくりゅうコンビ」も聞き取ったうえで、正式表記の確認候補としてレポートに出しています。
091(05:42): 「首長選挙(くびちょうせんきょ)」を文脈に合わせて正しく漢字にしています。読み方を知らないと、別の表記にしてしまいやすい箇所です。
046〜079(03:07〜05:11): NHK記者の質問部分は、早口で言いよどみも多く、文字起こしの難易度が高い箇所です。それでも、言い直しやフィラーを含めてかなり細かく拾えています。
113(07:03): 「機運を醸成」のような固い表現も自然に漢字で出せています。人間だとパッと漢字が出てこなかったりする部分です。


AIは、行政用語、時事的な語彙、聞き慣れない言葉を含む音声でも、文脈から自然に解釈できる場面が多くあります。最近のスラングや固有名詞も拾えることがあり、人手だけでは表記ゆれや漢字ミスが起きやすい箇所を補ってくれるのが強みです。

AIが間違えやすいところ


AI文字起こしで注意が必要なのは、主に次のような部分です。

・音量が極端に小さい発言
・複数人が同時に話している箇所
・早口、言いよどみ、噛んでいる発言
・固有名詞、人名、社名、商品名
・その場の関係者にしか分からない略語
・方言、内輪の呼び方、聞き慣れない専門用語

これらは人間が聞いても判断が分かれることが多いです。

そのため、当サービスでは「AIがすべてを完璧に確定する」という考え方ではなく、まず実用レベルの原稿を作り、確認が必要な箇所を分かりやすく残す方針にしています。

当サービスで行っていること


一般的なAI文字起こしツールでは、音声をアップロードして、出てきた文字起こしをそのまま受け取る形が多いです。

当サービスでは、AI文字起こし仕上げシステムを使い、次のような処理を組み合わせています。

音声の前処理
AIによる文字起こし
文脈を見た本文補正
話者分離
ケバ取り、素起こし、整文
タイムスタンプ付与
Word(.docx)、Excel(.xlsx)、.csv、.txt、.srtなどへの変換
要確認ポイントのレポート作成

「とにかく安く早く原稿がほしい」場合にも、「公開前なので人の確認も入れて整えたい」場合にも対応できるように、2つのプランに分けています。

プランの選び方


基本的には、まず「まとめてお得プラン」をおすすめします。

まとめてお得プラン

1分50円のプランです。

AIによる文字起こし、表記の整理、ケバ取りや整文、必要に応じた話者分離、要確認ポイントのレポートまで行います。

次のような方に向いています。

・まず内容を確認できる原稿がほしい
・長時間の音源を安く文字起こししたい
・会議やインタビューの内容をあとから確認したい
・自分で最終確認や微調整ができる
・定期的に文字起こしを依頼したい

AIだけでは判断しきれない箇所はレポートにまとめるため、確認すべき場所を探しやすくなります。

お急ぎ優先プラン

1分75円のプランです。

まとめてお得プランの成果物をもとに、こちらで要確認ポイントや音源を確認して仕上げます。優先対応のため、納期も短くなります。

次のような方に向いています。

・公開前の動画や記事原稿に使いたい
・提出用の原稿として整えたい
・自分で確認する手間を減らしたい
・話者が多い音源をできるだけ整理したい
・なるべく早く仕上げてほしい

ただし、人が確認しても、音質や発話の状態によっては完全に判断できない箇所が残ることがあります。その場合は、無理に断定せず、確認箇所としてレポートに残します。

話者分離について


話者分離とは、「誰が発言したか」を整理することです。

2人の対談や、司会者とゲストのように声や役割が分かりやすい音源では、比較的うまく分離できます。一方で、声質が似ている人同士の雑談、早口の会話、発言の重なりが多い音源、4人以上の会議では難しくなります。

話者分離をご希望の場合は、分かる範囲で次の情報を教えてください。

・話者数
・話者名
・それぞれの役割
・どの発言が誰なのか分かる手がかり

話者分離が不要な用途であれば、無理につけなくても大丈夫です。文章として内容を読むだけなら、話者名なしのほうが見やすい場合もあります。

セキュリティについて


お預かりした音声や動画の内容を、第三者に共有することはありません。

AIを使用しますが、原則として学習に使われない設定で処理します。また、処理のために一時的なクラウドを使う場合でも、不要になったデータは削除し、公開状態にならないよう管理します。

ただし、非常に高い機密性が求められる案件では、AI処理そのものが社内規定に合わない場合があります。金融、医療、法務、社外秘情報などを含む場合は、ご購入前にご相談ください。

まずは初回価格でお試しください


初回の方は、まとめてお得プランに限り、1時間以内の音源を一律500円でお試しいただけます。
お見積もりでは500円からのご依頼が可能なのでこちらからご依頼ください。

短い音源でも、60分近い音源でも同じ価格です。まずは実際の仕上がり、納品形式、要確認レポートの内容を確認してから、継続依頼をご検討ください。

迷う場合は、音源の用途だけ教えていただければ、起こし方や納品形式をご提案します。
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら