webスクレイピングについて②

記事

学び

しやに　理学療法士

2023/07/02 08:16

seleniumでウェブサイトの情報を取得する際に、ネット環境が不安定であったり、ウェブサイトの情報が大きいと、サイトが表示されるまで時間がかかってしまいます。

表示するだけならいいのですが、ウェブサイトを操作したりする場合には、スクレイピングが中断してしまいます。

過去のブログでtime.sleep(ｘ)を利用して、コードの進行を意図的に止める方法をお伝えしましたが、止める時間を具体的に指定できる一方で、あらゆるウェブサイトの表示時間をあらかじめ予測することは難しいと思います。

そこで、ウェブサイトがすべて表示されたら、次のコードに進むようにしてしまえば、具体的に秒数を指定する必要もなくなります。

また、あまりにも表示に時間がかかる場合も考えられますので、待機時間を最大30秒にも指定してみます。

具体的には、

①必要なモジュールのインストール

pip install selenium

#seleniumをインストールします。

②必要なモジュールをインポート

from selenium import webdriver

＃ドライバーのインポート

from selenium.webdriver.support import expected_conditions as EC

＃読み込むまで待機する機能のための、インポート。

from selenium.webdriver.support.ui import WebDriverWait

＃最大の読み込み時間を設定するためのインポート

③コード内容

driver = webdriver.Chrome()

wait = WebDriverWait(driver=driver,　timeout=30)

　　　#最大の読み込み時間を設定　ここでは最大30秒の待機を指定

wait.until(EC.presence_of_all_elements_located)

#要素がすべて検出するまで待機するためのコード

上記内容を個別の事象に合わせてカスタマイズすると、

汎用性が高くなると思います。

書類管理の効率化を致します

#python #Selenium #待ち時間

一覧に戻る

しやに　理学療法士

プロフィール詳細を見る

本人確認

機密保持契約(NDA)

インボイス発行事業者未登録

総販売実績 5

評価

5.0

フォロワー 5

スケジュール

土曜日、日曜日の固定でのお休みになり、週末での作業が中心になるため、お時間をいただく可能性があります。お急ぎの場合には、ご相談下さい。

経験職種

医療・介護 / 理学療法士経験年数 : 15年

資格・検定

理学療法士取得年 : 2008年

プログラミング言語・フレームワーク

Python:2年 VBA:3年

得意分野

IT相談・システム開発 Excel

医療、介護 Excel データベース訪問看護リハビリ理学療法士 VBA 自動化管理スケジュール

出品者のポートフォリオ
もっと見る

webアプリケーションの作成

移動時間、訪問時間をガントチャートに基づいてスケジュール作成

データベースへの入力フォーム呼び出し

利用者様データベースの作成

Pythonでのスプレイピング

訪問実績自動集計表

入力項目に不備がある場合のエラー表示

リストの作成

出品者の人気サービス

データをまとめ、データベース化します必要な情報をとりまとめ、データベース化するVBAを作成

5.0

(1)

3,000 円

書類管理の効率化を致します書類管理からの脱却、空いた時間を有効に活用できるように

5.0

(1)

3,000 円

理学療法士の転職、再就職について相談をお受けします病院、施設において踏まえおくべき心構えについて

5.0

(1)

1,500 円