こんにちは、ペンスケです。
今日ご紹介するGASプチは、GASで画像から文字を判別するOCR→文字変換スクリプトです。
今回作ったツールは、名刺をOCRで文字化して1セルに名刺の文字データを押し込んでいくという代物です。
GoogleドライブにはOCR(画像から文字を判別する機能)をするための機能がデフォルトでついています。
画像からドキュメントファイルを生成することが自動でできるのですが、これがそれなりに精度が良い。
なので、この画像認識の機能をGASから使いにいって、ファイルごとに整理できたら。
なんかに使えるかもしれない。
というふわっとした動機で作成しました。
なんのこっちゃと思われる方もおられると思うので、わかりやすくします。
つまり
↓これを
↓こう
処理の元になった画像の画質が低すぎたため、文字化けしております。
GASに詳しい方むけの説明。
→Google Apps Scriptを使って一時ファイルを生成し、その中のテキストデータをセルに押し込んでいます。
→GAS OCRで検索するとサンプルコードがたくさん落ちてます。参考サイトをご紹介しようと思ったのですが、ココナラの仕様で外部サイトの貼り付けができないので、ご自身で調べてみてください。結構わかりやすいコードが3~4個おちてます♡
さて、このOCRのGASプチツール。
出力結果の全体像はこちら。
(印刷会社さんの名刺サンプル画像をテストデータとして利用したため、会社名などの情報は伏せさせていただいてます)
文字の識別精度はまあまあ悪くないレベル。
日本語が稀に文字化けしてしまいますが、アルファベットに至ってはほぼ問題なく識別ができています。
手書き文字の精度がどの程度耐えるのかという部分はまだ未検証ですが、PCで使われている明瞭な文字はある程度読むことができます。
今回pngファイルの解析で作成しましたが、データ型を変えることでjpegやPDFもOCRができるとか。
今後、手書きの大学ノートをOCRできるか。
PDFデータをデジタル化できるか。
おみくじなどの縦書き文字は対応できるのか。
などなど、検証とカスタマイズを進めていこうと思います。
1セルにすべてのデータが入っているため、データの整形は必要です。
また、前述のとおり、OCR識別は誤作動することがあるので、誤字のチェックは必須です。
複数の画像をOCRで文字にまとめて変換したい時にいかがでしょうか。
↓ツールの設置のご相談はこちらから