音声文字起こしツールのリリース

告知

ビジネス・マーケティング

HasegawaTech

2024/07/14 14:48

動画や音声ファイルから文字起こしをするツールをリリースしました。このツールは、faster-whisperを利用しており、低スペックの環境でもこれまでのモデルより高速かつ高精度な文字起こしを実現しています。

動画、音声から文字起こしを行うツールを提供ます

高速かつ高精度な文字起こし

このツールの核となるのは、faster-whisperというモデルです。faster-whisperは、オリジナルのWhisperモデルと同等の精度を維持しながら、低スペックのシステムでも高速に動作します。これにより、高スペックな環境を必要とせず、どこでも高品質な文字起こしが可能です。

オフライン環境でも安心して利用可能

文字起こしだけの場合であれば、オフライン環境でも利用できます。これにより、情報漏洩などのセキュリティ面でも安心してお使いいただけます。また、無料（従量的に料金が発生しない）で提供しているため、誰でも気軽に利用できる点も魅力です。

柔軟なインターフェース

このツールは、ファイルの拡張子から、動画ファイル、音声ファイルを判定して、文字起こしを行い、テキストファイルとして出力します。

要約機能

文字起こしの結果をそのまま使用するだけでなく、LLM（大規模言語モデル）を利用して要約することも可能です。要約を行うかどうかも簡単に切り替えることができます。オープンソースのLLMモデルを利用しており、こちらも無料（従量的に料金が発生しない）でセキュリティ的に問題ありません。

要約機能（オプション）

要約の精度を向上させるために、ChatGPTやClaudeのAPIを利用するカスタマイズも対応しています。ただし、APIを利用する場合はセキュリティ面でのリスクは考慮できなくなりますので、ご注意ください。

多様な出力形式に対応（オプション）

文字起こしの結果を、WordファイルやGoogleドキュメント、Notionなど、ご希望の出力形式に反映することができます。これにより、既存のワークフローに合わせた柔軟な対応が可能です。ただし、こちらもインターネット上のサービスを利用する場合には、セキュリティ面でのリスクは考慮できなくなりますので、ご注意ください。

その他（オプション）

例えば、任意のフォルダ内に格納された動画ファイル、音声ファイルを夜間に処理しておくといったようなカスタマイズや、クラウド上の動画ファイル、音声ファイルを取得して処理を行うといったことも可能です。ご希望のワークフローに合わせたカスタマイズが可能ですので、お気軽にご相談ください。

使用イメージ

約30分の動画を処理した場合です。ご利用環境によって処理時間が変わります。どうしても高性能な環境での処理には敵いませんが、処理時間が長くても構わないから、無料（従量的に料金が発生しない）、情報漏洩のリスクを押さえたい場合など有用だと思います。お試しで文字お越しの精度、処理時間など確認いただいて購入いただくことも可能です。

#Whisper #文字 #音声のテキスト化 #動画のテキスト化

HasegawaTech

フリーランスITエンジニア / 40代前半 / 男性

一覧に戻る