自社サイトや広告効果測定の分析をする時に、データ量が多すぎてどこから始めれば良いか分からず、中途半端な分析に終わってしまうことはありませんか?
もしかしたら、「標準偏差」と「変動係数」を使いこなせば、分析の質を高められるかもしれません。この2つの指標を使えば、バラつきのあるデータもそれぞれ比較できるようになって、今まで分析対象ではなかったデータからも問題点を浮き彫りにすることができるからです。
データのバラつきを表現する標準偏差
標準偏差とは何か?
標準偏差とは、簡単に言うと「データが平均値周辺にどのくらい散らばっているか」ということを表します。「標準(=平均値)」、「偏差(=ばらつきのある差)」と理解すると腹落ちするでしょう。
簡単な例をあげます。15人の生徒の国語のテスト(200点満点)の平均点が150点でした。平均点だけだと、成績が良かったと判断してしまいがちですが、実際の点数の内訳は下記「図1」の通りでした。
図1
実は平均点を取っている生徒が一番多いのではなく「平均点を大きく下回っている者」と「平均点を大きく上回っている者」が多数を占めていました。
このように平均値だけで判断すると、実際の状況を正しくとらえられないことがあります。そこで用いるのが「標準偏差」です。
標準偏差自体はExcelで簡単に算出できます。STDEV.P(スタンダード・ディビエーション・ピー)関数を使います。
図2
STDEV.P関数を入力して、参照したい範囲を選択します。この場合は生徒の点数です。
図3
これで「標準偏差」が算出できました。
ばらつきの範囲は「平均値±標準偏差」の範囲におさまります。そのため先ほどの例を取り上げると、92点から208点の範囲に殆どの生徒が収まると考えて下さい。(200点満点のテストですから実際のところ208点というのはありませんが)
また、標準偏差の範囲外、すなわち92点以下は全体の2割程度と記憶しておいてください。
このようにして「平均点は比較的高いが、極端に点数が低い人、高い人が混在していた」という実態が見えてくるのです。
ちなみに、今回取り上げた程度のデータ量であれば標準偏差を使わなくてもある程度わかると思います。
しかし、500あるいは1000を超えるような大量のデータについては、とても目視では判断ができません。そんな大量データの分析で、標準偏差は真価を発揮するのです。
全てのバラつきを相対的に評価する変動係数
ケタの異なる集団のデータ分析には向かない標準偏差
標準偏差は、複数の集団を同時に比較・分析をする時には使うことができません。なぜなら複数の集団を分析する場合、参照している平均値(データ)が異なってしまうからです。
図4
このような場合には「変動係数」を使いましょう。
図5
変動係数は「偏差/平均値」で算出することができます。これによって、ケタの異なる集団を比較することができるようになります。
変動係数で「季節性のある記事」「安定的に流入数のある記事」を区分する
この変動係数を用いれば「季節性のある記事」「安定的に流入数のある記事」を区分することもできます。
たとえば下記「図6」の例だと、変動係数の大きな赤枠の「ページ5」、「ページ8」、「ぺージ20」が、時期によって流入数にバラツキのある記事であることがわかります。
一方でそれ以外の記事については、それ以外の記事については、変動係数が小さいため安定的に流入数を確保できている記事であると言えます。
図6
今回のまとめ
標準偏差と変動係数を理解すれば、さらに幅の広い分析を行えるようになります。
平均値だけでは実態を見誤る可能性も大いに考えられるため、「標準偏差」と「変動係数」も活用して、実態をよく反映した「集約」を行えるようにしましょう!