netkeibaから出走表と結果を取得する方法【第２回】pythonスクレイピング

コンテンツ

エンタメ・趣味

kj2007ya

2023/11/08 15:47

netkeibaからデータを取得するの第二弾です。

netkeibaからレース日程とレース一覧を取得する方法【第1回】pythonスクレイピングの基本編

前回は指定の日付範囲から日程とレース一覧を取得しましたが、

今回は具体的な出走表と結果と払い戻しを取得します。

netkeibaには通常の結果とデータベースの結果ページが存在しますが、今回は前者をターゲットとします。

対象ページの確認

まずは出走表のページを見ると、

レースIDが書いてます。そして結果ページも同様です。

レースIDは前回のレース一覧で取得済みです。(RIDという列名で保存してます)

出走表ページに戻って、欲しい出走表がどのように配置されているか開発者ツールで確認します。

するとテーブルになっているので、こういう時は便利なpandasを使いましょう。

取得テスト

前回同様にget_driver関数でドライバを取得し、出走表のURLを入力してdriver.get(url)します。

そして以下のようにpandasのテーブルタグを読みこんでデータフレームリストで返す関数を使用します

data = pd.read_html(driver.page_source)

len(data) # テーブルが何個読み取られたか

# 5

お目当てのデータは最初のリストに格納されていました。

pandasを使用すると簡単に取得できますが、馬名に貼られているリンクは別途取得する必要があります。

今回は省略しますが、作成したツールの方では取得しています。

出走表取得コード

def get_race_table(driver, race_id):

url = f"race/shutuba.html?race_id={race_id}" # 禁止文字列のため、プロトコルやドメインは略

driver.get(url)

sleep(2)

data = pd.read_html(driver.page_source)

race_table = data[0]

return race_table

df = get_race_table(driver, "202305040911") # 天皇賞の秋の出走データを取得

結果と払戻しを取得

続いて結果ページも見てみると、まずURLのshutubaがresultにかわっただけで、結果テーブルと払い戻しはテーブル構造のため、1回のpd.read_html(driver.page_source)でまとめて取得できます。（ついでにラップタイム等も取得できます）

先程の関数を一部いじって少し加工して

def get_race_result(driver, race_id):

url = f"race/result.html?race_id={race_id}" # 禁止文字列のため、プロトコルやドメインは略

driver.get(url)

sleep(2)

data = pd.read_html(driver.page_source)

result_table = data[0] # 結果

payment1 = data[1] # 払い戻し１

payment2 = data[2] # 払い戻し２

return result_table, pd.concat([payment1, payment2])

race_id = "202305040911"

result_table, payment = get_race_result(driver, race_id) # 実行

結果

払い戻し

終わりに

以上で出走表と結果の取得は完了です。

あとは前回作成したレースリスト毎にループして出走表と結果を取得できます。

テーブル上のHTMLエレメントはpandasを使うと簡単に取得できますが、リンク等必要な場合は別途タグ解析する必要があります。

作成したツールでは馬コードも取得しております。次回の馬のプロフィールや過去成績データ取得に必要になります。

第2回　競馬の出走表と結果取得ツールを提供します

#競馬 #スクレイピング #分析 #データ収集

一覧に戻る

kj2007ya

プロフィール詳細を見る

本人確認

機密保持契約(NDA)

インボイス発行事業者未登録

総販売実績 13

評価

5.0

フォロワー 8

スケジュール

平日08:00-11:30,20:30-23:00 休日全日対応可能

経験職種

エンジニア / フロントエンドエンジニア経験年数 : 5年

エンジニア / バックエンドエンジニア経験年数 : 8年

エンジニア / データエンジニア経験年数 : 10年

プログラミング言語・フレームワーク

C:2年 PHP:2年 Python:10年 SQL:10年 TypeScript:3年 VB.NET:3年 Flask:2年 Next.js:1年 Node.js:5年 Nuxt.js:1年 React:3年 React Native:2年 Amazon Web Services:5年 Firebase:1年 Linux:3年 Oracle Database:5年 PostgreSQL:3年 SQLite:4年 Git:7年 GitHub:7年

ビジネス・クリエイティブツール

Wix:0年 WordPress:5年 Access:11年 Excel:12年 Google サイト:12年 Google スプレッドシート:10年 Google ドキュメント:8年 Word:5年 Shopify:2年 Google Analytics:4年 Google Tag Manager:3年 kintone:1年 Salesforce:0年 Zoho:1年 Tableau:1年 Stable Diffusion:1年 ChatGPT:2年 Midjourney:1年 DALL-E:0年 PowerDirector:2年

学歴

MJ 2009年4月 ~ 2013年3月

出品者の人気サービス

第3回　競走馬のデータ取得ツールを提供します競走馬分析用に自動スクレイピングしよう

(1)

3,000 円

スクレイピングによるデータ収集・加工・集計をします繰り返しによる面倒なデータ収集に困っている方

5.0

(1)

3,000 円