データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

重回帰分析とは

重回帰分析とは

単回帰分析が、1つの目的変数を1つの説明変数で予測したのに対し、重回帰分析は1つの目的変数を複数の説明変数で予測しようというものです。多変量解析の目的のところで述べた、身長から体重を予測するのが単回帰分析で、身長と腹囲と胸囲から体重を予測するのが重回帰分析です。式で表すと以下のようになります。

重回帰分析とは

ここで、Xの前についている定数b1,b2・・・を「偏回帰係数」といいますが、偏回帰係数は、どの説明変数がどの程度目的変数に影響を与えているかを直接的には表していません。身長を(cm)で計算した場合と(m)で計算した場合とでは全く影響度の値が異なってしまうことからも明らかです。各変数を平均 0,分散 1 に標準化して求めた「標準偏回帰係数」を用いれば、各説明変数のばらつきの違いによる影響を除去されるので、影響度が算出されます。また偏回帰係数に効用値のレンジ(最大値−最小値)を乗じて影響度とする簡易的方法もありますが、一般に影響度は「t値」を用います。

では実際のデータで見てみましょう。身長と腹囲と胸囲から体重を予測する式を求め、それぞれの説明変数がどの程度影響しているかを考えます。回帰式は以下のようなイメージとなります。

体重予測の回帰式イメージ
図31.体重予測の回帰式イメージ

データは、「※AIST人体寸法データベース」から20代男性47名を抽出し用いました。

人体寸法データ
図32.人体寸法データ

エクセルの「分析ツール」から「回帰分析」を用いると表9のような結果が簡単に出力されます。

表9.重回帰分析の結果
重回帰分析の結果

体重を予測する回帰式は、表9の係数の数値を当てはめ、図33のようになります。

体重予測の回帰式
図33.体重予測の回帰式

体重に与える身長、腹囲、胸囲の影響度は以下の通りとなり、腹囲が最も体重への影響が大きいことがわかります。

各変数の影響度
図34.各変数の影響度

多重共線性(マルチコ)

重回帰分析で最も悩ましいのが、多重共線性といわれるものです。マルチコともいわれますが、これはマルチコリニアリティ(multicollinearity)の略です。 多重共線性とは、説明変数(ここでは身長と体重と胸囲)の中に、相関係数が高い組み合わせがあることをいい、もし腹囲と胸囲の相関係数が極めて高かったら、説明変数として両方を使う必要がなく、連立方程式を解くのに式が足りないというような事態になってしまうのです。連立方程式は変数と同じ数だけ独立した式がないと解けないということを中学生の時に習ったと思いますが、同じような現象です。

マルチコを回避するには変数の2変量解析を行ない相関係数を確認したり、偏回帰係数の符号を見たりすることで発見し、相関係数の高いどちらかの変数を除外して分析するなどの対策を打ちます。

数量化Ⅰ類

今まで説明した重回帰分析は複数の量的変数から1つの量的目的変数を予測しましたが、複数の質的変数から1つの量的目的変数を予測する手法を数量化Ⅰ類といいます。ALBERTでは広告クリエイティブの最適化ソリューションを提供していますが、まさにこれは重回帰分析の考え方を応用しており、目的変数である「クリック率Y」をいくつかの「質的説明変数X」で予測しようとするものです。

クリック率予測の回帰式
図35.クリック率予測の回帰式
このページをシェアする
ALBERTは、日本屈指のデータサイエンスカンパニーとして、データサイエンティストの積極的な採用を行っています。
また、データサイエンスやAIにまつわる講座の開催、AI、データ分析、研究開発の支援を実施しています。

・データサイエンティストの採用はこちら
・データサイエンスやAIにまつわる講座の開催情報はこちら
・AI、データ分析、研究開発支援のご相談はこちら