(cache)ロジスティック回帰とシグモイド関数

さて、今回は分類（Classification）に関して学習したことをまとめてみます。

ロジスティック回帰 (Logistic Regression)

予測値 $y^{'}$ を0.5以上を1とし、0.5未満を0とすることで分類を行います。線形回帰では目的関数の範囲が定まっておらず、分類することが出来ないため、ロジスティック回帰を使います。

シグモイド関数（別名：ロジスティック関数） $g (z)$ は以下の様な関数です。

g (z) = \frac{1}{1 + e^{- z}}

ロジスティック回帰における仮説 $h_{θ} (x)$ はシグモイド関数 $g (z)$ に予測変数 $x$ のパラメーター　 $z = θ^{T} x$ を代入します。

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

$h_{θ} (x) > 0.5$ なら $y = 1$

$h_{θ} (x) \leq 0.5$ なら $y = 0$

この様に分類判定が行えます。

ロジスティック回帰の目的関数を求める時、対数 $l o g$ を利用します。

$y = 1$ なら $J (θ) = - l o g (h_{θ} (x))$

$y = 0$ なら $J (θ) = - l o g (1 - h_{θ} (x))$

これをまとめると目的関数は以下の様になります。

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))]

目的関数を最急降下法に代入すると以下の様になります。

θ_{j} : θ_{j} - α \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}

基本式は単回帰・重回帰の時と同様です。

応用変数 $y$ を複数設定する事で多クラス分類（Multiclass Classification）する事が出来ます。

One-vs-all という手法を使います。図をみるとわかり易いのですが、多クラスを仮の2クラスに分割して分類する手法です。

目的変数はどの様になるのでしょうか？

応用変数 $y_{1}$ , $y_{2}$ , $y_{3}$

に対し、目的変数はカテゴリーと同数のモデルが出来ます。

h_{θ}^{(i)} (x) = P (y = i | x; θ)

それぞれのモデルは以上の様に表す事が出来ます。新たな $x$ が与えられた時、 $h_{θ}^{(i)} (x)$ が最大になるカテゴリーに分類されます。

では。