『数学ガールの秘密ノート やさしい統計』を読んだので、そのメモ。

概要
著:結城浩(結城先生)

数学ガールの秘密ノートシリーズの8冊目。
この本では『統計学』を取り扱う。

第1章
 ・グラフの読み方
 
第2章
 ・代表値
 ・最大値
 ・最小値
 ・平均値
 ・最頻値
 ・中央値
 ・偏差
 ・分散 
 
第3章
 ・偏差
 ・分散
 ・標準偏差
 ・偏差値 

第4章
 ・期待値
 
第5章
 ・二項分布
 ・一様分布
 ・仮説検定
 ・チェビシェフの不等式 

読書メモ

第1章ではグラフの読み方を学ぶ。
テレビやネットなどでよく見るであろう折れ線グラフや円グラフの見方について、44ページもかけて説明してくれる。ものすごく親切である。

グラフを見るときは以下のポイントに注意して見る事が大事である。
 ・軸とメモリをチェックする
     →そのグラフで表示している期間や値の範囲がわかるため
 ・単位に注意する
     →同上。単位があれば何のグラフかわかるため
 ・グラフの見かけ上の大きさに惑わされない
     →誤解を招くようなグラフが出てくる時があるため

以下は実際にテレビで放映された円グラフである。
注意してみるとツッコミどころが満載である。
※何がどう突っ込みどころなのか考えてみよう!
fujitv-1

トンデモグラフ
 
何かを買う際にグラフを参考にするようなことがある場合、解釈を誤ると損をすることになる。
だからそういう痛い目に会わないようにもこの第1章だけは立ち読みでもいいから数学や統計に興味がない人でも読んだほうがいいと思っている。それくらいの価値がこの章にはあると思っている。


第2章では代表値について学ぶ。
代表値とは、以下のようなものを言う。
・最大値:データの中で一番大きな値
・最小値:データの中で一番小さな値
・平均値:すべてのデータの値を合計して、全てのデータ数で割った値
・最頻値:全てのデータの中で一番よく出現する値
・中央値:すべてのデータを昇順に並べて、真ん中に位置する値

この本では生徒10人のテストの点数を例に上記の代表値について学んでいく。
ユーリは、上記5つの代表値では区別できないようなデータの集まりを見つける。
そのデータの集まりを区別するため、偏差と分散について触れる。
・偏差
  あるデータの値から平均値を引いた値。
  平均値からどれだけ離れているかを表す。
  偏差値とは違う!
・分散
  各データの偏差の2乗の平均値を取った値。
  データのばらつき具合を表す。


第3章では偏差と分散のおさらいと、標準偏差、偏差値について学ぶ。
偏差と、標準偏差、偏差値は全部意味が違う。

 偏差    :(データ値 - μ)^2
 標準偏差σ:√V
 偏差値   :50 + 10 * (データ値 - μ) / σ
※μは平均値、Vは分散とする

偏差値は標準偏差を基準として、平均値からどれくらい離れているかを表す。
たとえばテストの点数について、平均値と標準偏差がわかったうえで偏差値もわかると、どれくらい平均値から離れてるかわかる。
言い替えればその点数がどれくらい凄いかがわかる。

また、データの分布について、正規分布というものがある。
正規分布はよく使われる分布で、グラフを描くと釣り鐘型になる。
正規分布をσ毎に分割すると、{2, 14, 34, 34, 14, 2}の割合になる。
この「34, 14, 2」というのを覚えておくとよい。

先程のテストの点数の場合、偏差値70の場合は全体の2%の中に位置することがいえる。
凄いッ!


第4章では期待値について学ぶ。
村木先生の「10回コインを投げたとき、表は何回出るだろう」という問題を解くために、期待値を学ぶことになる。
期待値は例えば「コインを10回投げたら、平均でX回表になる」のXのことである。
期待値を求めるには「〜回表が出る」という値(確率変数)に確率を掛けて、全てのパターン分の合計を出せば求められる。

パスカルの三角形三度(みたび)。
期待値を求めるにあたり、テトラちゃんは表が0回出る確率、1回出る確率、2回出る確率を計算で求めていく。そしてこの0回、1回、2回のときの確率がパスカルの三角形の値になっていることに気づき、その値を使っていく。最終的に、期待値は5と求めることができた。

パスカルの三角形が万能過ぎると思うのは自分だけだろうか。
名探偵コナンのハワイ万能説とまでは行かなくとも、かなり使えると思う。


第5章では仮説検定とチェビシェフの不等式ついて学ぶ。
チェビシェフの不等式は今の自分には少し難しかったので、ここでは述べない。
是非この本を買ってどんなものか確かめていただきたい(もしくはググること)。

仮説検定とは、例えば
「コインを10回投げたら表が1回も出なかったんだが、このコインは本当にイカサマじゃねーだろうな?」
ということを検証するための方法である。

仮説検定の手順は以下の通り(p205参照)
仮説検定の手順
  1. 帰無仮説と対立仮説を立てる
  2. 検定統計量を定める
  3. 危険率(有意水準)と棄却域を定める。
  4. 検定統計量は棄却域に入ったか?
  ・入ったなら、帰無仮説は棄却される
  ・入らなかったなら、帰無仮説は棄却されない

帰無仮説は「このコインはフェアだぜ」という主張である。
対立仮説は「いいや、イカサマだッ」という主張である。
検定統計量は「10回のコイン投げで表が出た回数」である
危険率は「ここに入ったらヤベーぜ!」と言える確率。だいたいは1%とか出たらスゲーという値である。
棄却域は、危険率の中に入る検定統計量。つまりイカサマとなる値。危険率1%だと、表が0回か10回のときとなる。

最初に書いた「コインを10回投げて表が0回出た」という場合、帰無仮説は棄却されるため、
「イカサマじゃねーかッ!!」
ということになる。

また、「コインを10回投げて表が1回出た」という場合、危険率1%の中に入らないため、
「フェアだぜ。やれやれだぜ」
ということになる。

ちなみに、帰無仮説が棄却されなかったとしても、
「うるせぇッ!このコインはイカサマだッ!!!」
とゴリ押しされる場合、「帰無仮説が採択されない」ということになる。
結局のところ帰無仮説が棄却されるかどうかは、その人が信じるかどうかによるということである。


 
おわりに
この本では統計学を扱っている。
自分は統計学の関連書籍を読んだことが殆どなかったので、恐らくこの本が初めての統計学の本となる。
読んでみて、(特に後半は)知らない単語のオンパレードだったため、理解しようと2〜3回位読み直した(それでも完全に理解はできなかった)。

難易度的にはかなりやさしかったと思う。
第1章のところでも書いたように、40ページ以上も使って、グラフの読み方について説明しているため、統計学という「なんか難しそう」な感じを取り除いてくれている。
その為、割りと容易に読むことができた。1冊目でカッコつけて硬派な学術書に手を出さなくてよかったと思う。

もし統計学を学ぼうと思ったなら、最初にこの本を読まれることをおすすめする。
基礎以前のところから学ぶので、きっとすんなり入っていけると思う。
EOF