教師付き機械学習における憂慮点
・訓練データとテストデータが異なる規則に従って生成されれば、訓練データからテストデータに関する情報が抽出できない。
→意味のある学習を行うためには訓練データとテストデータが何らかの共通点を持つ必要がある。
http://sugiyama-www.cs.titech.ac.jp/~sugi/2007/covariate-shift2-jp.pdf
・識別器の学習に必要なテストデータの数は次元数の増加と共に急激に増加する(次元の呪い)
→一般にデータ集めは難しいため、その分次元を圧縮する必要がある。次元圧縮は正則化や主成分分析が挙げられる。(最適なバランスはトライ&エラーで求めるしかない?)
http://roadtomachinelearning.blogspot.jp/2012/10/blog-post_24.html
http://www.kamishima.net/jp/clustering/
ここも参考になりそう。
http://d.hatena.ne.jp/jetbead/20131109/1383968030
・ポジティブ標本数、ネガティブ標本数の枚数/割合
→ポジティブ7000、ネガティブ3000
http://www.isas.jaxa.jp/home/rikou/kogata_eisei/symposium/1st/p_session/P41_kamata.pdf
→ポジティブ2054、ネガティブ6258
http://www.vision.cs.chubu.ac.jp/joint_hog/pdf/HOG+Boosting_LN.pdf
→ポジティブ500、ネガティブ1000
http://opencv.jp/sample/svm.html
ポジティブ数、ネガティブ数は経験則・トライアンドエラーで決定するのかもしれない。しかし、どの場合でも割合比率は1:3よりも大きく開かないのではないか。
用意できた訓練データに対して、ポジティブ:ネガティブ比率を1:1、1:2、2:1、1:3、3:1でふってみて、それぞれにおいて精度を検証することで最も良いケースが見つかればそれで適正化すれば良い、か(推測)。
・学習器の精度検証方法
→k-分割交差検証(標本数をk個に分割、その内1つを評価データ、k-1個を訓練データとする。
→精度、再現率、F値計算
http://www.seto.nanzan-u.ac.jp/msie/ma-thesis/2012/ISHIZAKI/m11mm069.pdf
学習器に対する精度検証は上記で正確なモノが得られるかもしれないが、分類結果を何に応用させるかによって、それに対する精度も見る必要がある(意味不明だけど自分のためのメモ)