2013-12-19
因子分析の固有値・固有ベクトルって何?
おかげさまで、「統計データをすぐに分析できる本」が発売されました。
統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!
- 作者: 中西達夫
- 出版社/メーカー: アニモ出版
- 発売日: 2013/12/13
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
こうして形になると、素直に嬉しいです ヾ(´∀`)ノ♪
この本を作るにあたって、幾つかの原稿はページの都合上ボツとなっています。
その中の1つに、「因子分析の固有値・固有ベクトルって何?」というものがあります。
固有値・固有ベクトルというものは統計入門の鬼門で、まともに始めるとドップリ数学に浸らないといけません。
何とか簡単なイメージだけでも伝えられないかと思って用意したのが、以下の説明です。
本に載せられなかったので、おまけとしてここに公開しておきます。
------------------------------------------------------------------------
主成分分析・因子分析をひもとくと、固有ベクトル、固有値という、謎の専門用語が出てきます。そして、辞書の類で固有ベクトル、固有値を調べても、ほとんど意味が分かりません。でも、大丈夫です。目前の分析という目的からすれば、固有ベクトル、固有値の数学的な意味を深く理解する必要はありません。とはいえ、大まかなイメージを掴んでおくことは、全くのブラックボックスより望ましいでしょう。固有ベクトル、固有値のおよその意味は、次の通りです。
・行列による変換で、向きの変わらない軸があったとき、その軸の向きを固有ベクトルと言う。
・軸の上にあるデータを行列によって変換したとき、何倍に拡大(縮小)するか、その比率のことを固有値と言う。
向きの変わらない“軸”が出てきたところから想像が付くのですが、この固有ベクトルの算出こそが、主成分分析・因子分析の中心となる手順なのです。以下、最も単純な変数が2個の場合について、固有ベクトルと固有値の概念を俯瞰しましょう。
まず、上の説明で出てきた「行列」とは何かと言うと、ここでは相関行列を意味します。相関行列とは、複数の変数間の相関係数を、一覧表のように並べたもののことです。(分散・共分散行列を用いる場合もありますが、この説明では相関行列の方を使います。)変数が2個だけの場合、相関行列は以下のような2x2の表になります。
[変数A] 1 (相関係数)
[変数B] (相関係数) 1
表の中に数字は4個出てきますが、変動する数字は以下の理由により、事実上1個だけです。
・自分同士の相関係数は1なので、対角線上の数字は必ず1になる。
・AとBの相関係数と、BとAの相関係数は同じなので、対角線を挟む反対側の数字は同じになる。
この相関行列によって、“データを変換する”とはどういうことか。それは、行列の掛け算の規則に従って、データの点を移動することを意味します。以下の図では、グラフ上の点が変換によって、どのように動くのか、その流れを矢印で示してあります。
この図を見ると、データが斜め45度の線に向けて集まってくる様子がわかります。この、斜め45度の線が即ち固有ベクトルであり、“軸”なのです。この場合、変換によって動かない軸は2本あります。データが集まってくる、右上がりの軸と、データが離れてゆく、右下がりの軸です。(相関係数が正の場合。負の場合には逆になります。)2変数の相関行列の場合、固有ベクトルは必ず斜め45度の線となります。なぜかと言うと、標準化の手続きを経て、縦と横の重みを同じに揃えたからです。相関係数の大きさを変えると、データの集まり方が変わってきます。相関係数が1の場合、データは一気に45度の線上に集まって、一直線に潰れたような様相を呈します。つまり、データはもともと45度の線上にしか存在していないということです。相関係数が小さくなるにつれ、線に集まってくる度合いも小さくなります。そして、相関係数が0になると、全く線には集まってこない、つまり全くバラバラな状態のままとなります。この、データの集まり具合が、「固有値」という数字に反映されています。固有値が大きいほど、データは軸に沿って拡大されるように動き、反対に固有値が小さければ、データは軸に沿って縮小されるように集まってきます。
ところでなぜ、このような行列の計算を行うと、軸が出てくるのでしょうか。直観的に言えば、固有ベクトルの方向に、データが最も大きく伸び縮みするからです。軸というのは、データが最も大きく分散している方向のことでした。軸を探すのは、行列の変換に置き換えると、最も大きくデータが伸びる方向を探すのと同じことです。行列による変換は、データの分散が最大になる方向を、上手く探し当てる手段だったというわけです。
主成分分析・因子分析の計算の中身は、上に示したような行列の変換を行って、不動の軸と、集まり方を集計することだったのです。その軸の呼び名と、集まり方の呼び名が「固有ベクトル」と「固有値」ということです。分析では、固有値の大きさ(と標準化した際の値)から、各変数の成分の大きさを決定しています。
------------------------------------------------------------------------
過去記事:
* 固有ベクトルが直交するのは >> id:rikunora:20090307
* 固有ベクトルが直交するのは(2) >> id:rikunora:20110203
さて、こうして本が仕上がったので、年末年始はヒマになったのかというと・・・
実は、来年に向けてもう1冊、本を作成することになりました。
この事態に、我ながら驚きです。なんというか、ビッグデータ、統計ブームすごいです。
年末年始は本の作成に全力投球します。
- 457 https://www.google.co.jp/
- 375 http://pipes.yahoo.com/pipes/pipe.info?_id=53d0e902b558955c149ef2ab58d43f2a
- 300 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&frm=1&source=web&cd=2&ved=0CDUQFjAB&url=http://d.hatena.ne.jp/rikunora/20100209/p1&ei=ClayUqKhH83RkQWQp4GoDA&usg=AFQjCNE1HjxfOlig0ocHpMKqFKNrBKEbtQ&bvm=bv.58187178,d.dGI
- 148 http://brownian.motion.ne.jp/memo/blog_index.html
- 117 http://matome.naver.jp/odai/2134810109869323601
- 100 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CC0QFjAA&url=http://d.hatena.ne.jp/rikunora/20110813/p1&ei=c1yyUp_lNIfbkQW9ooDYBA&usg=AFQjCNGODkj3ajhKLGlYdNjwjj6Ciz4pQA&sig2=ZPnXy3M0hEY-tv2MbDok2w&bvm=bv.58187178,d.dGI
- 48 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0CDYQFjAB&url=http://d.hatena.ne.jp/rikunora/20080628/p1&ei=kmCyUsi7G4LilAXom4HQBA&usg=AFQjCNGhQzSaOb2q9M8DKJmTRCDllnhrZg&sig2=xGIa-tLUfbNniqy76fQNIw
- 38 https://www.google.com/
- 29 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=5&ved=0CEYQFjAE&url=http://d.hatena.ne.jp/rikunora/20101201&ei=OGeyUsK4HMXxlAXS_4CgBw&usg=AFQjCNHdYsdKOft480n9_wy0uqKchxKdow&sig2=ocoJBDW1MnvWIczmU_IuRg
- 24 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=0CEMQFjAD&url=http://d.hatena.ne.jp/rikunora/20100209/p1&ei=I4CyUqvaJsTQkwXE_IHADg&usg=AFQjCNE1HjxfOlig0ocHpMKqFKNrBKEbtQ&bvm=bv.58187178,d.dGI