重回帰分析を覚えたので競馬に使ってみました
こんにちは。データアーティスト内定者の山崎です。
私は悩んでいました。どうにかして楽にお金を稼げないかと。
来春から社会人として働き始めるわけですが、長い人生何が起きるかわかりません。お金を稼ぐ手段はいくらあっても足りないでしょう。後悔先に立たず。今のうちに稼ぐ手段を増やしておきましょう。
そんなわけで始まりました。副業探しの旅です。第一弾は競馬です。調度良いタイミングで11月2日(日)に天皇賞が開催されましたので早速荒稼ぎしに行きました。
その前に、、、
素人がどうやって稼ぐのか
当然の疑問です。
競馬に勝つためには順位を当てなければいけません。順位を決定するのはその馬の速度です。つまり、ある馬の速度を求める予測式を作れば順位も決められるのです。
今回は重回帰分析を用いて予測式を作成し、天皇賞の出走馬が当日出すであろうタイムを予測しました。
どうやって重回帰式を作るのか
重回帰式は様々な変数を用いて作りますが、まずはその前に各データを集めなければいけません。今回はJRA(日本中央競馬会)が公開している過去のレースデータをお借りし、Excelに起こして分析しました。
天皇賞のコンディションに近い条件で行われたレースを過去1年、のべ32レース、重複含む486頭分のデータを用いて予測式を作成しました。
以下のとおりになります。
当日の秒速=(ある馬の直近4レースの平均秒速)*0.16908+(その馬の直近4レースの平均推定上りタイム)*-0.10239+(負担体重)*-0.01285+18.12827
この予測式に従って天皇賞に出馬する馬の当日タイムを導けば、それがそのまま当日の順位の予測になります。
さっそく計算して上位の馬を出しました。
1位 スピルバーグ
2位 ペルーサ
3位 ディサイファ
できました。今回はこれで行きましょう。
巷では「イスラボニータ」やら「ジェンティルドンナ」などが騒がれているようですが今回はスピルバーグです。
実際に買ってみた(自腹です)
さて、いよいよ本番です。頼むスピルバーグ!!!
詳しくはこちらの動画から → JRAの動画ページに飛びます
やりました。5番人気のスピルバーグが1着です。単勝11倍、複勝でも2.6倍です。やりました。1番人気のイスラボニータを終盤で一気にまくる快走でした。
今回は権利上の問題で写真を掲載することができませんでした。詳しくはJRAのホームページでご確認ください。あしからず。
反省とこれからの改善点
さて、今回は見事に1着を当てたわけです。めでたしめでたし。とは行かないのが辛いところです。
スピルバーグ以外の馬の予測順位と実際の順位を確認しましょう
順位 | 私の順位予想 | 当日の結果 |
---|---|---|
1 | スピルバーグ | スピルバーグ |
2 | ペルーサ | ジェンティルドンナ |
3 | ディサイファ | イスラボニータ |
4 | ダークシャドウ | ラブイズブーシェ |
5 | フラガラッハ | ヒットザターゲット |
6 | マーティンボロ | エピファネイア |
7 | エピファネイア | デニムアンドルビー |
8 | マイネルラクリマ | サトノノブレス |
9 | アスカクリチャン | カレンブラックヒル |
10 | フェノーメノ | ダークシャドウ |
11 | カレンブラックヒル | マイネルラクリマ |
12 | イスラボニータ | ディサイファ |
13 | デニムアンドルビー | マーティンボロ |
14 | ヒットザターゲット | フェノーメノ |
15 | サトノノブレス | フラガラッハ |
16 | ラブイズブーシェ | ペルーサ |
17 | ジェンティルドンナ | トーセンジョーダン |
18 | トーセンジョーダン | アスカクリチャン |
全然ダメです。ディサイファやペルーサは上位争いに全く絡んでない上に、本命と言われ実際に最後まで1着を争ったイスラボニータは中位より下まで沈んでいます。そこで、予測値と実測値がどのくらいズレているのか、以下の散布図にプロットしました。見事な無相関です。わずか1レースだけの結果といえどもこれだけ食い違うとは。
何がダメだったのでしょうか。
今回の重回帰モデルの精度を今一度確認しましょう。
重回帰モデルの精度を表現する指標として重相関があります。
簡単に言うと1に近ければ精度が良くなり、0に近ければ精度が悪くなるという指標ですが、今回はこれが0.63ほどにとどまっています。この数値は低いとは言えませんが高いとも言い難いです。これでは競馬で副収入など夢のまた夢です。
重回帰モデルの精度を上げるためにはより良い変数を選ぶ必要があります。
今回は①馬の平均秒速と②馬の平均推定上りタイム(ラストスパートの速さ)と③負担体重のみ使用しましたが、騎手の実力やレース展開などの情報が入っていません。
私自身も当然このデータを入れるべきだと考えましたが、今回取ってきたデータの中には以上の指標を示す有力な手がかりがありませんでしたし、何よりも私自身が競馬に無知ななため、レースに影響するであろう指標が分かりませんでした。
しかし、これで諦める必要はありません。私が競馬に習熟すれば重回帰式の変数選びもうまくなるでしょうし、重回帰分析の他にもアプローチ手法はあります。次回の記事に含みを持ったままで恐縮ですが今回はここらで筆を置きます。山崎の次回作にご期待ください!(完)