【競馬/番外編】予想モデル:まだデータ前処理中…

【競馬/番外編】予想モデル:まだデータ前処理中…

記事
エンタメ・趣味
「機械学習の8割は、データの前処理である」

…なんてことを言うのですが、まさにそこにはまり込んでいます。

いろんなカテゴリーのデータを、入着率に置き換える作業をしているところです。例えば、種牡馬Aという馬が、阪神芝2000mの結果を見ると【2-1-2-5】だったとして、勝率20%、連対率30%、複勝率50%、データ数10,という形に置き換えることで、「種牡馬A」というデータを置き換えることができます。

ようやく、その計算ができるところまで仕掛けができたのですが、問題はこれが本当に上手くいくか?ということ。データの中にはゴミも紛れることがあるし、カテゴリー数が多いと処理に時間がかかるし(例えば、10万行あるデータを10チームに分けるのと、200チームに分けるのでは時間のかかり方が段違い)、何とか金杯までに間に合えばいいのですが…。

サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら