統計解析の基礎
この単元では、各自が専攻する学問や、将来つくかもしれない職業を想定し、表計算ソフトMS Excelを用いて、実験データや調査データを統計的に正しく扱うための基礎知識、つまり統計解析の基礎を学ぶ。
いままでに学習した表計算ソフトの単元は、主としてビジネスデータの処理を、利用シーンとして想定していた。
一方、大学での勉強や研究では、それとは少し異なる利用シーンが想定できる。たとえば農学部、理工学部といった学問分野では、実験によって科学的な事実を確かめるが、その実験データは統計的に正しく扱わなければ、正しい結論に結びつかない。
また社会学部、政治経済学部などの学問分野では、アンケートによる世論調査といった手法が使われ、その調査データが結果として残る。
これらのデータはいずれも、統計的な手法を駆使して処理され、研究対象に関する妥当な記述・推定・仮説へと結びつけなくてはならない。それは統計的な考え方が身についてなければできないことである。実際、学生のレポートや、ここだけの話、テレビのニュース番組においてさえ、統計的に無理な結論が導かれていることがある。
統計的な考え方が必須なのは、大学での研究や、世論調査だけではない。製造業においては、統計的品質管理手法(QC)が常識となっているし、ネット上のビッグデータを駆使して消費行動を予測したり、経営戦略を立案するにも、統計学の裏付けが必要である。
だが、この単元で統計学の理論を詳しく扱う余裕はない。そうではなく、学生生活や社会人生活で扱う可能性の高い実験・調査データを、表計算ソフト(MS Excel)を駆使して処理できるようになることだけを目指す。大学の理論統計学の講義には難しい数式も登場するが、表計算ソフトを使えば、最小限の数学だけでデータを処理できる。理論と実践をきっぱり分けることが、アプリのおかげで可能になったのである。皆さんも、統計学の理論はともかく、スキルだけでも身につけておこう。それに、統計的な物の見方を知っていると、世の中のいい加減な言論を見抜く感性も身につくだろう。
統計解析の構成
初歩的な統計学(統計解析)の構成を図1に示す。
記述統計
全体の基礎となるのが記述統計である。
具体的なある集団について、その性質を数値やグラフなどで把握することをいう。把握結果を表す数量が基本統計量であり、以下のような手法が用いられる。この単元で扱うのは一部だけである。
- データの種類
- 数量データ(量的データ)とカテゴリデータ(質的データ)
- 基本統計量
-
- 代表値
- 平均値(算術平均、幾何平均、調和平均)、最頻値(モード)、中央値(メディアン) など
- 散布度
- 偏差平方和→分散→標準偏差→変動係数 など
- 分布の特徴を見る統計量
- レンジ、パーセンタイル、四分位偏差、歪度、尖度 など
- 分布を直接把握する手法
- 度数分布表、ヒストグラム など
- 2変量解析
- 1変量解析は、身長など、単一の変量について分析する
- 2変量解析は、身長と体重の関係など、2つ以上の変量の関係を分析
- 相関係数、回帰直線(2変量の相関の強さ、相関の傾向を示す)、決定係数
- 集団中のデータの位置(偏り)をあらわす統計量
- 順位、基準値→偏差値
確率分布
ところで、統計学と言えば確率がつきものだと思っている人もいるだろうが、記述統計の段階では、今ここにいる集団が対象だから、まだ確率の出番はない。たとえば、この教室にいる皆さんの身長を1人ずつ計り、平均身長を出すというのが記述統計の作業なのである。
だが、単元の後半で学ぶ推測統計は、記述統計の結果を元にして、今ここにいない集団、たとえば、この大学の学生全員の平均身長を推定するという手続であるから、要するにあてずっぽであり、はじめて確率の役目ができてくる。
ここでは、推測統計に進む前に、そこで使われる確率分布(または確率密度分布)について学ぶ。
- 2項分布
- 一定の確率で起きる現象の回数の分布
- ポアソン分布
- まれに起こる現象の頻度の分布
- 正規分布
- 身長・体重・テストの得点・寸法や重さのバラツキなど、多くの現象にあてはまる分布。標準正規分布はそれを使いやすく正規化した分布
- T分布
- 母平均の検定や推定に使われる分布
- χ2分布
- 母分散の検定や推定に使われる分布
- F分布
- 母分散の差の検定や推定に使われる分布
推測統計
標本(集団)についての記述統計の結果から、母集団の性質を推測しようとするのが推測統計である。ここで初めて、集団が標本集団(今ここにいる集団)と母集団(ここにはいないけど、その性質を知りたい集団)とに別れる。
たとえば選挙の時などに行われる、政党支持率などのアンケートをイメージすると分かりやすい。たとえば500人を対象にアンケートしたとすると、標本数n=500の標本集団について、記述統計の手法で調べることになる。しかし実際に知りたいのは、その500人についてではなく、数千万人の有権者全体(母集団)の性質である。全員について調べられないので、そこから無作為に抽出した標本集団について調べ、その結果を母集団に当てはめるのである。これが推測統計であり、推測に過ぎないからこそ確率の出番があり、前述の各種確率分布が使われることになるのだ。
そもそも、そんな推測をしてもいいのかという疑問が湧くが、そのために中心極限定理という理論的根拠が存在する。
さて、推測統計には、つぎの2つの手続が存在する。
- (仮説)検定
- 母集団についての仮説を検証
- 対立仮説(いいたいこと)
- 帰無仮説(それはたまたまかも知れない)
- 統計的に有意とはどういう意味か
- 推定
- 標本の統計量から母集団の統計量を推測
- 母平均の推定
- 母分散の推定
- 母比率の推定
- 2つの母集団について、それぞれの差の推定
使用する教科書
この単元では、以下の教科書を用いる。
統計解析のさまざまなツール
この単元で学んだ、表計算ソフトExcelによる統計解析手法を含めて、いくつもの手法があり、それぞれ一長一短がある。目的に応じて、必要なツールを習得するとよい。
- Excelを使う
-
- データをリスト形式のワークシートで用意できる
- 基本的な統計関数が用意されている
- SPSS(IBM)
- 高度な統計解析手法まですべて使えるパッケージ環境。高価なソフトなので、個人では利用しにくい
- R
- オープンソース/フリーソフトの統計解析言語と環境。個人でも利用しやすい。汎用言語ではない。
- python
- pythonは汎用言語であるから多目的に利用できるが、数理統計ライブラリnumpyとpandasを利用することで、RやSPSSに匹敵する統計解析環境になる。現在最も習っている人数の多いスクリプト言語で、統計解析以外にも学習、スクレイピングなど多種の応用に使える。なお、numpyは行列の演算ライブラリ、pandasはSPSS風の統計ライブラリである。