はじめに
前回, 大相撲のデータを正しく作るのが辛い, ということを書きました.
Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい
まだ整形できていないのですが, 現段階で可能な解析をしたいと思います.
八百長問題が気になりますので, 千秋楽の勝率を集計してみます.
先行研究
大相撲のアノーマリー. 2010年に書かれた記事です.
八百長がありそうかどうか, という解析です.
実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT
もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います。
私の手元には, 1932年初場所から2014年9月までの幕内取組データがあります.
https://raw.githubusercontent.com/gghatano/sumo_data/master/winLoseDataTable.dat
このデータを使って, 追試をしてみようと思います.
まずは簡単なところで, 千秋楽(最終日)での勝率を計算してみました.
千秋楽での勝率
大相撲では, 勝ち越すかどうかが重要らしいです.
つまり, 各場所を8勝7敗以上で乗りきることが目標になるかと思われます.
なので, 最終日(15日目)を7勝7敗で迎えた力士は頑張らないといけません.
これを踏まえて, 最終日の勝率に注目します.
14日目までの勝敗状況別に, 最終日の勝率を集計してみました.
扱うデータは, 1932年から2014年9月場所までの, 幕内の取組208,612試合の結果です.
結果はこんな感じです.
左端が, 14日目で0勝14敗の力士の, 千秋楽での勝率.
右端が, 14日目で14勝0敗の力士の, 千秋楽での勝率です.
7勝7敗の人だけ急に強くなっているように見えます.
詳細はこちら.
まとめ
相撲. 面白そうですね.
以上です