5時間4万文字の声配信をAIで書籍化したらどれだけかかる?

記事
ビジネス・マーケティング
平均10分を30本、300分の5時間分、4万文字を電子書籍化した実績公開!

前にKindle読み放題+stand.fmによる感想配信が最強習慣だと言った。
理由は、声はAIでそのままnote有料記事や動画化、書籍化で簡単に大量にマネタイズができるようになったからである。

それは、2023年7月中旬に起きた革命である。


気づいた賢いものは、chatGPT等のAIに触れて自分の「過去の資産」をどのように「不労所得」に変えるのか調べて行動する。

気づいたけど忙しいものは、家族や仕事を優先して、余った時間の副業として数年後に結果が出て開花する。

本気で動けるものは、今までの習慣や生活を全て捨てて、新しいことを優先に拾い直して全力で行動して失敗し続ける。


この中でどれがこのAI革命の混乱を起きの来れるだろうか?


という脅しを入れた後に、今月依頼を受けた「AIによる声から電子書籍化」の実績を語る。


まず入力の素材。
5分から15分の音声データずらーっと30個。
KoeMillというWhisper系の無料文字起こしアプリを使って全部変換する。
1つはおおよそ5分、グラボが悪い昔のPCでも10分ちょいで終わる。

5分x30=150分。

このKoeMillの良い所は、ただの文字化だけではなく、SRTの字幕ファイルであることだ。
これにより、そのままYoutube動画に追加したり、PremiereProの動画編集でテロップ取り込が簡単にできるため、とても時短になる。

もちろん、声の字幕=ミリ秒単位の範囲指定をなくした、単純文字だけ出力も可能だ。
イメージ、ペイントソフトのレイヤー色々データと、1つにまとめたjpg画像みたいなものだ。

だから、今後声配信や動画撮影でしゃべっている人は「KoeMill」による字幕変換がデフォルトになると思う。
有料だとPremierePro他色々あるけどね。無料だとコレが最強だった。

で、5時間分の音声をSRTファイル化した後に、chatGPTで字幕情報を取り除いて電子書籍様にプロンプト(命令)で加工する。

呪文内容は以下↓
あなたは書籍を作る編集者です。入力の字幕ファイルを変換ルールに従って修正してテキストをダウンロードできるようにしてください。対話したり、確認するメッセージ出力は不要です。これ以降ファイルのみ入力した場合は同じ処理を繰り返してください
"""
変換ルール
1. 改行、読点、句読点は処理せず残すこと
2. 字幕ファイルのテキスト部分を連結して半角スペースと全角スペースを削除する
3. 半角の「?」と「!」は全角に置き換え、次の文字の前に全角スペースを入れる
4. するんですが、のような「ん」を「の」に変換する

これでSRTの字幕情報は取り除かれ、シンプルな文章が出力される。字数にして4万文字。次に、それら文章を連結して解釈して、読点句読点を合わせる。

あなたは書籍を作る編集者です。入力テキストから変換ルールの従って順番に処理し、結果をダウンロードできるようにしてください。
今後「、」の全角文字を「読点」、「。」の全角文字を「句読点」として表現します。途中の確認メッセージは出力しないでください。これ以降ファイルのみ入力した場合は同じ処理を繰り返してください
"""
変換ルール
1. 字幕ファイルの文字部分だけ抽出して処理する
2. 変換表に従って専門用語を変換する
3. 半角スペースを読点に変換する
4. 行の末尾をチェックし、読点または句読点以外の場合は追加処理を行う。「です」「ます」の敬語で終わる場合は句読点、それ以外は読点を挿入する
5. 改行、半角スペース、全角スペースを削除し、1行にまとめる
6. 文章を先頭からチェックし、句読点があった場合は改行コードを2つ連続で挿入すること。連続した読点がある場合は1つにまとめること。行の先頭に読点がある場合は削除すること。
"""
変換表
例) 間違った文字→正しい文字
すきずき→すきづきん
A→B


これらの変換はchatGPT Plusの有料版を使って、1つ20秒ほど。
2週間前に実装された「コードインタプリタ」による神アプデにより、ファイルやエクセルやが画像を入出力できるようになった。
なので、字数がとても多いデータも、アップロードしてダウンロードできるようになった。

20秒 x 30個 x 2巡 = 1200秒=20分。


まあ20分あればこれらSRTからの声抜きだしからの単純置換と校正はできる。


で、このやり方にたどり着いて、他細かい専門用語の修正などをやるのに、トータル12時間はかかった。
その後、出来上がった30話について、でんでんコンバーター用のフォーマットに手で加工して目次を作って、SigilでEPUB3を出力する。
最後に、挿絵と表紙を取り込んで完成。これらを2冊で5時間ほど。

トータル 150+20=2時間+12時間+5時間=19時間!


5000円で請け負ったので、時給だと……200円……。
普通にこのボリュームをガチ文字起こしと校正やったら5万円じゃ終わらないと思う。
これを5万円でうけたなら、まあ時給2000円なので、今の会社員をやめてココナラ専業になるかもね。なお手数


結果、5時間4万文字の2冊は20時間弱で完成!

もし次回以降であれば、ある程度プロンプトは分かったから、半分の10時間で出来るかもね!


逆に考えるんだ。4万文字の文字起こしと電子書籍化を10時間で試作品を作って、そこから手作業で遣れば効率的だ、と。


そう、AIは悪でも敵でもなく、便利なツールなのである。

時にはチェーンソー、時には自動車。

扱い方を間違えれば大変なことになるが、しっかり訓練して安全に扱えば人類に貢献するのである。

ということで、皆さんもchatGPTとKoeMill、でんでんコンバーター、Sigilを使ってAI電子書籍やってみよう!!

サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す