(cache) PRML読書会 #5 資料「線形識別モデル(2)」

home > 2009-08-06 > PRML読書会 #5 資料「線形識別モ...

2009-08-06 E-Mobile届いた。お外でネットができるのは１年ぶり

これはパターン認識と機械学習(PRML)読書会 #5 (4章線形識別モデル) での発表用の資料「4.1.3 最小二乗」～「4.1.6 多クラスにおけるフィッシャー判別」です。まとめメインで、細かい計算やサンプルは板書する予定です。
【更新】読書会での指摘を反映。

学習データ $￥{￥bf{x}_n, ￥bf{t}_n￥}$ から

二乗和誤差関数(sum-of-squares error function)を最小にする

weight vector(matrix) を求める。

最小二乗の解は、条件付き期待値の近似を与える [cf. 1.5.5]
(★*1, t=1 がに対応するような)２値表記法では、クラス事後確率に一致
- $y(￥bf{x}) ￥approx ￥mathbb{E}￥[￥bf{t}|￥bf{x}￥] = 1￥cdot p(C_1|￥bf{x})+0￥cdot p(C_2|￥bf{x}) = p(C_1|￥bf{x})$
- 近似精度が悪い。[0, 1] の範囲外になることも。

K クラス分類における、各クラスの線型モデル
- $y_k(￥bf{x}) = {￥bf{w}_k}^T ￥bf{x} + w_{k0}$ ,　 $(k=1, ￥ldots, K)$
- $y_k$ が最大となる $C_k$ に割り当てる

ひとまとめにして
- (D+1)×K 行列 $￥tilde{￥bf{W}} = (￥tilde{￥bf{w}}_k)$ ,
- $￥tilde{￥bf{w}}_k = (w_{k0}, {￥bf{w}_k}^T)^T$ ,
- $￥tilde{￥bf{x}} = (1, ￥bf{x}^T)^T$

$￥mathbb{E}_D(￥tilde{￥bf{W}}) = ￥frac{1}{2}Tr￥left￥{ (￥tilde{￥bf{X}}￥tilde{￥bf{W}} - T)^T (￥tilde{￥bf{X}}￥tilde{￥bf{W}} - T) ￥right￥}$

これを最小化する $￥tilde{￥bf{W}}$ は

計算とサンプルは板書で。

$￥forall￥bf{t}_n$ が線形制約 $￥bf{a}^T￥bf{t}_n+b=0$ を満たす場合、

$￥forall￥bf{x}$ について $￥bf{a}^T￥bf{y}(￥bf{x})+b=0$ を満たすことがある

細かいところは読書会にて

クラス平均間の分離度を大きく、各クラス内の分散を小さくする射影による判別

フィッシャーの判別基準＝(クラス間分散)/(クラス内分散)

- 射影されたデータのクラス内分散: $s_k^2 = ￥sum_{n ￥in C_k} (y_n-m_k)^2$
- between-class covariance matrix: $￥bf{S}_B = (￥bf{m}_2-￥bf{m}_1)(￥bf{m}_2-￥bf{m}_1)^T$
- within-class covariance matrix: $￥bf{S}_W = ￥sum_{k=1}^2 ￥sum_{n ￥in C_k}(￥bf{x}_n-￥bf{m}_k)(￥bf{x}_n-￥bf{m}_k)^T$
これを最大にする $￥bf{w} ￥propto ￥bf{S}_W^{-1} (￥bf{m}_2-￥bf{m}_1)$

フィッシャー判別は最小二乗の特殊な場合と一致する

sum-of-squares error function $E=￥frac 12￥sum_{n=1}^N(￥bf{w}^T￥bf{x}_n+w_0-t_n)^2$ の

$w_0, ￥bf{w}$ における導関数を 0 とおくことで、E を最小にする $￥bf{w}$ を求めると

K>2 への一般化 (K < D)

$￥bf{y}=￥bf{W}^T ￥bf{x}$ により D' 次元への射影を考える(★一般に K < D' < D)
within-class covariance matrix: $￥bf{S}_W = ￥sum_{k=1}^K ￥sum_{n ￥in C_k}(￥bf{x}_n-￥bf{m}_k)(￥bf{x}_n-￥bf{m}_k)^T$
総共分散行列 $￥bf{S}_T = ￥sum_{n=1}^N (￥bf{x}_n-￥bf{m})(￥bf{x}_n-￥bf{m})^T$
総共分散行列は $￥bf{S}_W$ と between-class covariance matrix $￥bf{S}_B$ の和に分解できる(★ほんと？)
∴ $￥bf{S}_B = ￥bf{S}_T - ￥bf{S}_W = ￥sum_{k=1}^K N_k(￥bf{m}_k-￥bf{m})(￥bf{m}_k-￥bf{m})^T$

クラス間共分散が大きく、クラス内共分散が小さい場合に大きくなるスカラー

そのような基準はたくさんある*3
一例:
- $￥bf{s}_W, ￥bf{s}_B$ は $￥bf{S}_W, ￥bf{S}_B$ の D' 次元空間への射影
J(W) を最大化する W はの固有ベクトルによって決定される(★版によって誤植有り)
- $￥bf{S}_B$ のランクは高々 (K-1) ゆえ (K-1) 個以上の線形特徴を発見することはできない