大量JPEGを“止めずに流す”OCRバッチをChatGPTで実現した話
■ 導入:大量の画像をまとめてOCRしたいという相談今回の相談は、フォルダに入った大量のJPEG画像を、ChatGPTで順にOCRし、テキストとしてまとめたい。できれば途中で止まらず動いてほしい。というものでした。依頼者は ChatGPT のOCR精度を評価しており、これを“実務でも使える形”に落とし込みたいというニーズがありました。■ 課題:ChatGPTのUIは環境差が大きく、固定的な自動化では“止まりやすい”ChatGPT の画面は、画像アップロードの位置アップロード後の待ち時間返信の表示テキストコピーの挙動などが環境によって微妙に違うため、単純な時間待ちで自動化すると、遅延やUI変更で止まってしまいやすい問題がありました。また、画像が多いと 1枚止まる=全体が止まる という致命的な状況になります。依頼者が求めていたのは、“枚数が多くても、できる限り止まらず処理を進められる仕組み”でした。■ 改善①:アップロード操作を“安定しやすい方法”に統一画像添付は、UIの変化に影響されやすい“ボタン操作”ではなく、画像を貼り付ける方式最小限のキー操作で確実に添付できる方法に切り替えることで、アップロード操作の安定性を大きく高めました。“どこの環境でも同じ動きになる”という視点を最優先にした設計です。■ 改善②:ChatGPTの回答取得も“状態を見て判断する”方式へOCR結果の取得も、固定スリープではなく、ChatGPTが回答を出したタイミングコピーが可能になったタイミングを“状態として確認”しながら進めることで、ネットワークが遅い日でも早い日でも、比較的安定して処理が進むようにしま
0