Hatena::ブログ(Diary)

Mi manca qualche giovedi`? このページをアンテナに追加 RSSフィード Twitter

2009-08-05 パターン認識と機械学習(PRML)読書会

PRML読書会 #5 資料「線形識別モデル(1)」

これは パターン認識と機械学習(PRML)読書会 #5 (4章 線形識別モデル) での発表用の資料「4.1 識別関数」〜「4.1.2 多クラス」です。
まとめメインで、細かい説明/計算やサンプルは板書する予定。
【更新】読書会での指摘を反映。

PRML 4章 線形識別モデル

  • 2クラス分類 [4.1.1]
  • 多クラス分類 [4.1.2]
  • 最小二乗による学習 [4.1.3]
  • フィッシャーの線形判別による学習 [4.1.4-6]
  • パーセプトロンアルゴリズムによる学習 [4.1.7]
  • おまけ

分類問題
  • 入力ベクトル ¥bf{x} を K 個の離散クラス C_k の1つに割り当てる
    • 入力空間は決定領域 ( decision region ) に分離される
    • 決定面 ( decision surface ):決定領域の境界

線形識別モデル

決定面が superplane

  • 線形モデル
  • 一般化線形モデル
    • 非線形な活性化関数(activation function) f によって変換
    • y(¥bf{x}) = f(¥bf{w}^T ¥bf{x} + w_0)
    • 決定面は superplane
  • 非線形モデル
    • 難しい

1-of-K 表記法

分類問題において、目的変数

  • K=2 のとき
    • C_1 の場合 t=1
    • C_2 の場合 t=0
  • K>2 のとき
    • C_k の場合 t_k=1, t_j=0 (j ¥neq k)

問題に応じて取り方も工夫 [4.1.5, 4.1.7]


アプローチ [cf. 1.5.4]

  • 識別関数 (discriminant function) [4.1]
    • 入力から直接決定関数を学習する
  • 確率的識別モデル (discriminative model) [4.3]
    • 事後確率 p(C_k|¥bf{x}) を求める推論問題を解く
  • 確率的生成モデル (generative model) [4.2]
    • クラスの条件付き密度 p(¥bf{x}|C_k) を決める推論問題を解き、ベイズの定理により事後確率 p(C_k|¥bf{x}) を求める

4.1 識別関数 (discriminant function)

4.1.1 2クラス

y(¥bf{x}) = ¥bf{w}^T¥bf{x}+w_0

    • ¥bf{w} : weight vector, supersurface y=0 の法線ベクトル
    • w_0 : bias parameter
    •  -w_0 : threshold parameter
  • y(¥bf{x}) ¥geq 0 なら C_1 に、y(¥bf{x}) < 0 なら C_2 に分類
  • decision surfacey(¥bf{x}) = ¥bf{w}^T¥bf{x}+w_0 = 0
w をどうやって決めるかは 4.1.3 以降

decision surface までの距離

原点から

  •  ¥frac{¥bf{w}^T ¥bf{x}}{¥|¥bf{w}¥|} = - ¥frac{w_0}{¥|¥bf{w}¥|}

r :  ¥bf{x} からdecision surface までの距離

  •  r = ¥frac{y(¥bf{x})}{¥|¥bf{w}¥|}
    •  ¥bf{x}_{¥bot} : decision surface への直交射影とすると
    •  ¥bf{x} = ¥bf{x}_{¥bot} + r ¥frac{¥bf{w}}{¥|¥bf{w}¥|} を y に代入

4.1.2 多クラス

K>2 個のクラスへの分類

  • 1対多分類器
  • 1対1分類器
1対多分類器
  • C_k に入る点と入らない点を分類する2クラス分類器を (K-1)個用意
    • k=1,...K-1, C_k に入らない点を C_K に分類

1対1分類器

y_k(¥bf{x}) = {¥bf{w}_k}^T¥bf{x}+w_{k0}, (k=1,...,K)

  • 全ての  j¥neq k について y_k(¥bf{x}) > y_j(¥bf{x}) なら C_j に分類
  • decision surfacey_k(¥bf{x}) - y_j(¥bf{x}) = ({¥bf{w}_k}-{¥bf{w}_j})^T¥bf{x}+(w_{k0}-w_{j0}) = 0 ({}_{K}C_2 = ¥frac{K(K-1)}{2} 個)
  • decision region は凸領域
    • 領域内の任意の2点を結ぶ線分が 領域に含まれる

多クラス分類器の問題点
  • 曖昧な分類領域が存在する
    • 1対多も1対1も「2クラス問題の拡張」方式ゆえ
  • K個の分類器によるKクラス分類によってそれを解決する
    • 入力 ¥bf{x} y_k が最大となる  C_k に割り当てる
    • 4.1.3 ではその考え方で分類する
    • Passive Aggressive Algorism での multiclass classification も同様( y_k(x) の値を confidence として用いることができることを示す)

パラメータの学習方法

【→ 4.1.3 へ続く】

*1:★は独自の注釈や意見や疑問や感想

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証