共分散と相関係数の定義について過去に書いていた。
そもそも共分散が発生するのは、2つの確率変数が連動して動くから。
2つの確率変数が独立している場合は、共分散、相関係数共にゼロ。
共分散の定義
まず、共分散、相関係数の定義はこの通り。
2次元のデータ(x1,y1),(x2,y2),⋯,(xn,yn)が与えられた場合、
変数xとyの相関係数rxyは、それぞれの標準偏差Sx,Syと、共分散Cxyを使って以下となる。
rxy===CxySxSy∑ni=1(xi−x¯)(yi−y¯)/n∑ni=1(xi−x¯)2/n−−−−−−−−−−−−−−√∑ni=1(yi−y¯)2/n−−−−−−−−−−−−−−√∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−−√
ちょっと良くわかってなかったので改めて読み直してみた。
ものすごく分かりやすかったのでまとめてみる。
共分散Cxy,標準偏差Sx,Syと相関係数rxyの関係
2次元のデータ\((x_1,y_1),(x_2,y_2),\cdots,(x_
そもそもの共分散
確率変数X,Yがあったとする。それぞれの期待値はE(X),E(Y)、分散はV(X),V(Y)。
定義通りにV(X+Y)を式展開していくと以下の通りになる。
V(X+Y)======E(((X+Y)−μX+Y)2)E((X+Y−μx−μy)2)E(((X−μx)+(Y−μy))2)E((X−μx)2)+E((Y−μy)2)+2E((X−μx)(Y−μy))V(X)+V(Y)+2E((X−μx)(Y−μy))V(X)+V(Y)+2Cxy
ここで、
Cxy=2E((X−μx)(Y−μy))を共分散としている。
V(X+Y)は、
V(X)と
V(Y)の和に
Cxyで補正をかけた値になっている。
では、XとYが独立であるとなぜCxy=0になるのか。
Cxyを式変形していくと以下のようになるが、
12Cxy===E((X−μx)(Y−μy))E(XY)−μyE(X)−μxE(Y)+μxμyE(XY)−μxμy–μxμy+μxμy
Xと
Yが独立であると
E(XY)=E(X)E(Y)=μxμuとなるから、
12Cxy===E(XY)−μxμy–μxμy+μxμyμxμy−μxμy–μxμy+μxμy0
こうやって、独立であるなら共分散がゼロといえる。