(cache) PRML読書会 #5 資料「線形識別モデル(3)」 - Mi manca qualche giovedi`?

home > 2009-08-07 > PRML読書会 #5 資料「線形識別モ...

2009-08-07 英語併記しがちなのは、単語わかんないと論文読めないから。

PRML読書会 #5 資料「線形識別モデル(3)」

機械学習, 読書会, PRML

これはパターン認識と機械学習(PRML)読書会 #5 (4章線形識別モデル) での発表用の資料「4.1.7 パーセプトロン・アルゴリズム」～「おまけ(PA, CW)」です。まとめメインで、細かい計算やサンプルは板書する予定です。

4.1.7 パーセプトロン アルゴリズム

参照
- [3.1.3] 逐次学習
- [5.2.4] 勾配降下最適化
- ★Perceptron を手で計算して理解してみる
- ★コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか？ (Ruby実装)

線形モデルにおいて、
- φは特徴ベクトル、 $￥phi_0(￥bf{x}) = 1$ (bias)
- 目的変数: t ∈ {-1, +1}
- $￥bf{w}^T ￥phi(￥bf{x}) ￥geq 0$ なら +1(positive), < 0 なら -1(negative) に分類
ここで $￥bf{w}^T ￥phi(￥bf{x}_n) t_n$ が正の時は正解、負の時は誤分類を示す

誤差関数 : 誤分類された n
- 確率的最急降下アルゴリズム[3.1.3]でこれを最小化
- $￥eta$ : 学習率パラメータ。w を定数倍しても符号は不変ゆえ、 $￥eta=1$ としてよい
w は decision surface の法線ベクトル。これに誤分類した入力ベクトルを加える(あるいは引く)という動作になる

パーセプトロンの収束定理

「厳密解が存在する場合は」

「有限回」の繰り返しで解に収束する

問題点：

収束に必要な繰り返し回数が非常に多い
初期値やデータの提示順によって様々な解に収束してしまう(★解の最適性を評価していない)
K>2 への一般化が容易ではない(値の正負しか意味を持たないため)

Passive Aggresive Algorism *1

margin が閾値 1 を下回っていたら、正解であっても補正する(aggressive)
累積二乗損失(cumulative squared loss)の最大値が想定可能であることを示す
１次＆２次の正則項を導入できる(PA1 & PA2)
- ★ Ruby 実装
Cost-Sensitive Multiclass Classification に応用
- ★そのうち試してみるつもり

Confidence-Weighted*2

がに従うとして、を逐次学習するアルゴリズム
- ★結構泥臭い計算＆泥臭い結果なのに、性能がいいというのがおもしろい
収束が早い。繰り返し無しでも十分な精度
- ★と書いてあるが、岡野原さんの oll＋手元のデータで試した限りでは、１回では精度がでなかった

Permalink | コメント(0) | トラックバック(3)

*1：Crammer, K., Dekel, O., Keshet, J., Shalev-Shwartz, S., & Singer, Y. (2006). Online passive-aggressive algorithms. JMLR, 7, 551-585.

*2：Mark Dredze, Koby Crammer, and Fernando Pereira. 2008. Confidence-weighted linear classification. In ICML.

トラックバック - http://d.hatena.ne.jp/n_shuyo/20090807/perceptron

>> 記事一覧へ