Webサイト上の文字を抽出してExcelに出力します。csvやtxtも可能です。
基本的にrequests、beautifulsoup、seleniumを使用してスクレイピングします。Excel出力にはopenpyxlを使用します。
Pythonコードをお渡しします。
コマンドプロンプトからpyファイルを実行することで、数秒から数十分ほど放置するとExcelファイルが出力されます。
(注記・待ち時間について→Webサイトが情報を個別のページにしか掲載していないような場合、1ページずつアクセスしなければならないことがあります。短時間に何十件もアクセスするとWebサーバーに負荷がかかり、業務妨害とみなされるかもしれないため、法律で取り締まられてはいませんが間を置いてアクセスするのが良いとされています)
抽出する情報はWeb上に表示されている文字ならなんでも可能です(画像上の文字は対応できません)。
例としてauの店舗情報を抽出したい場合、例としてこのページ→https://www.au.com/storelocator/detail/?shopId=T-00115 であれば店舗名→auショップ 寒河江、郵便番号→991-0041、住所→山形県寒河江市大字寒河江字赤田73-1、営業時間→10:00~19:00、定休日→無 など抽出できます。
WebサイトによってはマークアップがされていなかったりHTMLのタグが正しく閉じられておらずBeautifulSoupでの解析に失敗することがあるので、Webサイトを見てみないと抽出できるか分かりません。そのため、スクレイピングしてExcelファイルにするまでを見積もりに含ませていただきます。
必要な情報→
スクレイピングするサイトのURL、抽出したい情報(例えば商品の価格、作者名、店舗の住所などの項目名でお願いいたします)、出力形式(Excelなど)
必要な準備→
パソコン(Windowsの方のみ可)、Python(無料ソフトウェア)のインストール、必要pipライブラリのインストール(抽出の目処が付いてからお伝えします。無料ライブラリしか使いません)、Seleniumを使用する場合はEdgeドライバー(MicrosoftのEdge