やりたいこと
gg_hatanoさんの野球データ解析のブログを見て,いつか自分もバドミントンのデータを色々いじってみたいなと思っていて,その準備が整いました.
準備とは何かということなんですが,野球のようなメジャーなスポーツと違ってバドミントンはcsv形式でデータをダウンロード出来るなんてことがないので,自分でデータを集めて整理しないといけません.それが思いの外面倒で,時間を食ってしまいました.
データ収集元のサイトはtournamentsoftwareです.BWF管轄の大会の試合結果は全てこのサイトで公開されています.例えば,今年始めのKorea Openのページではこんな感じに結果が公開されています.
各試合ごとに,次のようなスコアの推移も公開されています.
これらのデータを解析し易い形で集めたい,という訳です.
プログラミング
ここからはプログラミングのお時間です.webサイトの情報を自動収集したいということで,Pythonでwebクローラを書くことにしました.Pythonで収集したデータは,そのままPythonからMySQLを呼び出し,そこにデータを保存するという形を取ります.その後,RからMySQLを呼び出して収集したデータを取り出し,解析をすることにしました.
言葉にするとあっけないですが,かなり面倒です.現在はデータ保存部だけとりあえず書き上げました.(まだまだバグが多いですが...)
今後の予定
あと少しバグ潰しをしたら,早速データ収集を始めたいと思います.とりあえずは2007年から始まったSuper Seriesのデータに絞って,色々いじってみたいと思います.こんなことしたいなー,というのはぼんやり考えてますが,まだそこまで固まってません.
このブログに読者がいるかはかなり怪しいところですが,もし解析して欲しいネタがあったらコメントで提供して頂けると嬉しいです.