netkeibaから馬のプロフィールと過去成績を取得する方法【第３回】pythonスクレイピング

コンテンツ

エンタメ・趣味

kj2007ya

2023/11/09 15:23

netkeibaからデータを取得するの第三弾です。

前回は取得済みのレース一覧または指定の日付範囲から出走表と結果を取得しました。

netkeibaから出走表と結果を取得する方法【第２回】pythonスクレイピング

今回は馬ごとのプロフィールと過去成績を取得していきます。

競走馬のページを確認

特定の馬のページは以下

urlに’horse/{horse_code}/’という形でページ分けされています。

今回欲しい情報はページ上部中央のプロフィールとその下にある過去レースの成績一覧です。

取得テスト

前回のブログをご覧になった方なら、テーブル状になってるからpandasで簡単に取得できるかも！ということがわかるかもしれません。

試しにやってみましょう。

前回同様にdriverをgetするところからです

from time import sleep

import pandas as pd

driver = get_driver()

# アーモンドアイのページを取得

driver.get(r"/horse/2015104961") # 使用不可文字なのでドメイン部分を追記してください

sleep(3) # 遅延

data = pd.read_html(driver.page_source)

取得したdataを確認します

これをみると２つ目と５つ目を取得すれば問題なさそうですが、実はそう上手く行かず。。

というのも4つ目のテーブルを見てみると

この受賞歴の欄は、優秀な実績を残した馬にのみ与えられる賞で、ほとんどの馬には存在しない欄なのです。

試しに重賞馬ではない他の馬を見てみましょう。

この馬は現在2勝クラスで活躍中のエンプレスペイという馬です。

余談ですが、私がDMMの一口馬主で出資している馬なので注目してみてください。おそらく次の土日に出走します。

この馬で先程のアーモンドアイと同様にデータを取得して見てみましょう。

# エンプレスペイのページを取得

driver.get(r"/horse/2020103779") # 使用不可文字なのでドメイン部分を追記してください

sleep(3) # 遅延

data = pd.read_html(driver.page_source)

結果

先程は５つめ（data[4]）で取得できました。今回はdata[3]です

前述の通り、受賞歴がない馬は４番目に前倒しで格納されています

なので、馬情報取得の関数をpandasを使って取得する場合は以下のように場合分けをする必要があります。

取得コード

def get_horse_data(driver, umacd):

url = f"/horse/{umacd}" # 禁止文字なので追記してください

driver.get(url)

sleep(3)

data = pd.read_html(driver.page_source)

profile_df = data[1]

results_df = data[3]

if "着順" not in results_df.columns:

# 4つ目のテーブルに【着順】という列が無ければ受賞歴とみなし、５番目のテーブルを代入する

results_df = data[4]

return profile_df, results_df

この関数で再度、アーモンドアイとエンプレスペイのプロフィールと過去成績を取得してみましょう

AlmondEye = ("アーモンドアイ","2015104961")

profile_df, results_df = get_horse_data(driver, AlmondEye[1])

print(f"{AlmondEye[0]}のプロフィール")

display(profile_df)

print(f"{AlmondEye[0]}の成績")

display(results_df)

EmpressPey = ("エンプレスペイ","2020103779")

profile_df, results_df = get_horse_data(driver, EmpressPey[1])

print(f"{EmpressPey[0]}のプロフィール")

display(profile_df)

print(f"{EmpressPey[0]}の成績")

display(results_df)

このように場合分けして取得できました。あとは前回取得した出走表からumacdをループすれば全データ取得可能です。

今回のスクレイピングの課題点・問題点・注意点

まず今回のように馬の情報を取得しようとすると、

例えば１日に開催場所が３箇所×レース数１２×出走馬数平均１２とすると432回馬のページをリクエストして取得することになります。

もしページをリクエストして3秒待機する処理を行っていた場合、1296秒つまり22分かかります。多くの日数のデータを取得する場合はかなりの時間がかかることになります。

また、netkeibaのページはグーグルアドをロードするため、表示に非常に時間がかかります。

これはページを完全に読み込む前にHTMLを解析してしまい、エラーの原因となることが1点と

有料会員でログインすれば広告がロードされないため表示を時間短縮出来ますが、Amazonなどのサイト同様、アカウントでログインすることはすなわち利用規約に同意したものとみなされるため

スクレイピング禁止というように解釈されることが一般的ですので、自己責任でお願いします。

また、技術者であれば、マルチスレッドや複数のプロセスから実行することもあり得ると思いますが、待機時間を設けることが意味するように同時に多くのリクエストを送信することはサーバへの妨害とみなされてアクセスブロックされるリスクがあることも考慮が必要です。

通信が得意な技術者ならルーティングやプロキシを設定することもあるでしょうが、これも同様です。

サーバに負荷をかけることなくデータ収集と分析を楽しみましょう。

最後に

今回作成したツールではプロフィール、過去レースの成績一覧に加えて、血統（父や母など５代血統）や各リンク先のコード（調教師やレースID等や母や父のコード）を取得できます。

第3回　競走馬のデータ取得ツールを提供します

次回は未定ですが、一連のデータ取得とデータベースに格納するツールを作成するか、分析をテーマに記事を書こうと思います。

#競馬 #スクレイピング #データ収集 #競走馬

一覧に戻る

kj2007ya

プロフィール詳細を見る

本人確認

機密保持契約(NDA)

インボイス発行事業者未登録

総販売実績 13

評価

5.0

フォロワー 8

スケジュール

平日08:00-11:30,20:30-23:00 休日全日対応可能

経験職種

エンジニア / フロントエンドエンジニア経験年数 : 5年

エンジニア / バックエンドエンジニア経験年数 : 8年

エンジニア / データエンジニア経験年数 : 10年

プログラミング言語・フレームワーク

C:2年 PHP:2年 Python:10年 SQL:10年 TypeScript:3年 VB.NET:3年 Flask:2年 Next.js:1年 Node.js:5年 Nuxt.js:1年 React:3年 React Native:2年 Amazon Web Services:5年 Firebase:1年 Linux:3年 Oracle Database:5年 PostgreSQL:3年 SQLite:4年 Git:7年 GitHub:7年

ビジネス・クリエイティブツール

Wix:0年 WordPress:5年 Access:11年 Excel:12年 Google サイト:12年 Google スプレッドシート:10年 Google ドキュメント:8年 Word:5年 Shopify:2年 Google Analytics:4年 Google Tag Manager:3年 kintone:1年 Salesforce:0年 Zoho:1年 Tableau:1年 Stable Diffusion:1年 ChatGPT:2年 Midjourney:1年 DALL-E:0年 PowerDirector:2年

学歴

MJ 2009年4月 ~ 2013年3月

出品者の人気サービス

第3回　競走馬のデータ取得ツールを提供します競走馬分析用に自動スクレイピングしよう

(1)

3,000 円

スクレイピングによるデータ収集・加工・集計をします繰り返しによる面倒なデータ収集に困っている方

5.0

(1)

3,000 円