山之口洋の
はじめての統計解析
【基礎編】

統計解析の基礎

この単元では、各自が専攻する学問や、将来つくかもしれない職業を想定し、表計算ソフトMS Excelを用いて、実験データや調査データを統計的に正しく扱うための基礎知識、つまり統計解析の基礎を学ぶ。
いままでに学習した表計算ソフトの単元は、主としてビジネスデータの処理を、利用シーンとして想定していた。
一方、大学での勉強や研究では、それとは少し異なる利用シーンが想定できる。たとえば農学部、理工学部といった学問分野では、実験によって科学的な事実を確かめるが、その実験データは統計的に正しく扱わなければ、正しい結論に結びつかない。
また社会学部、政治経済学部などの学問分野では、アンケートによる世論調査といった手法が使われ、その調査データが結果として残る。
これらのデータはいずれも、統計的な手法を駆使して処理され、研究対象に関する妥当な記述・推定・仮説へと結びつけなくてはならない。それは統計的な考え方が身についてなければできないことである。実際、学生のレポートや、ここだけの話、テレビのニュース番組においてさえ、統計的に無理な結論が導かれていることがある。
統計的な考え方が必須なのは、大学での研究や、世論調査だけではない。製造業においては、統計的品質管理手法(QC)が常識となっているし、ネット上のビッグデータを駆使して消費行動を予測したり、経営戦略を立案するにも、統計学の裏付けが必要である。
だが、この単元で統計学の理論を詳しく扱う余裕はない。そうではなく、学生生活や社会人生活で扱う可能性の高い実験・調査データを、表計算ソフト(MS Excel)を駆使して処理できるようになることだけを目指す。大学の理論統計学の講義には難しい数式も登場するが、表計算ソフトを使えば、最小限の数学だけでデータを処理できる。理論と実践をきっぱり分けることが、アプリのおかげで可能になったのである。皆さんも、統計学の理論はともかく、スキルだけでも身につけておこう。それに、統計的な物の見方を知っていると、世の中のいい加減な言論を見抜く感性も身につくだろう。

統計解析の構成

初歩的な統計学(統計解析)の構成を図1に示す。

図1: 統計学の構成

記述統計

全体の基礎となるのが記述統計である。
具体的なある集団について、その性質を数値やグラフなどで把握することをいう。把握結果を表す数量が基本統計量であり、以下のような手法が用いられる。この単元で扱うのは一部だけである。

データの種類
数量データ(量的データ)カテゴリデータ(質的データ)
基本統計量
代表値
  平均値(算術平均、幾何平均、調和平均)、最頻値(モード)、中央値(メディアン) など
散布度
  偏差平方和→分散→標準偏差→変動係数 など
分布の特徴を見る統計量
  レンジ、パーセンタイル、四分位偏差、歪度、尖度 など
分布を直接把握する手法
  度数分布表、ヒストグラム など
2変量解析
  • 1変量解析は、身長など、単一の変量について分析する
  • 2変量解析は、身長と体重の関係など、2つ以上の変量の関係を分析
  • 相関係数、回帰直線(2変量の相関の強さ、相関の傾向を示す)、決定係数
集団中のデータの位置(偏り)をあらわす統計量
順位、基準値→偏差値

確率分布

ところで、統計学と言えば確率がつきものだと思っている人もいるだろうが、記述統計の段階では、今ここにいる集団が対象だから、まだ確率の出番はない。たとえば、この教室にいる皆さんの身長を1人ずつ計り、平均身長を出すというのが記述統計の作業なのである。
だが、単元の後半で学ぶ推測統計は、記述統計の結果を元にして、今ここにいない集団、たとえば、この大学の学生全員の平均身長を推定するという手続であるから、要するにあてずっぽであり、はじめて確率の役目ができてくる。
ここでは、推測統計に進む前に、そこで使われる確率分布(または確率密度分布)について学ぶ。

2項分布
一定の確率で起きる現象の回数の分布
ポアソン分布
まれに起こる現象の頻度の分布
正規分布
身長・体重・テストの得点・寸法や重さのバラツキなど、多くの現象にあてはまる分布。標準正規分布はそれを使いやすく正規化した分布
T分布
母平均検定推定に使われる分布
χ2分布
母分散の検定や推定に使われる分布
F分布
母分散の差の検定や推定に使われる分布
くり返しになるが、これらの確率分布が必要なのは、推測統計への橋渡しのためである。それぞれの確率分布は、統計的な性質が分かっているので、推測統計のための便利なツールとなる。分布毎にそれに当てはまる統計量が決められているが、なぜその分布があてはまるかの説明は、一般にかなり難しい。

推測統計

標本(集団)についての記述統計の結果から、母集団の性質を推測しようとするのが推測統計である。ここで初めて、集団が標本集団(今ここにいる集団)母集団(ここにはいないけど、その性質を知りたい集団)とに別れる。
たとえば選挙の時などに行われる、政党支持率などのアンケートをイメージすると分かりやすい。たとえば500人を対象にアンケートしたとすると、標本数n=500の標本集団について、記述統計の手法で調べることになる。しかし実際に知りたいのは、その500人についてではなく、数千万人の有権者全体(母集団)の性質である。全員について調べられないので、そこから無作為に抽出した標本集団について調べ、その結果を母集団に当てはめるのである。これが推測統計であり、推測に過ぎないからこそ確率の出番があり、前述の各種確率分布が使われることになるのだ。
そもそも、そんな推測をしてもいいのかという疑問が湧くが、そのために中心極限定理という理論的根拠が存在する。
さて、推測統計には、つぎの2つの手続が存在する。

(仮説)検定
母集団についての仮説を検証
  • 対立仮説(いいたいこと)
  • 帰無仮説(それはたまたまかも知れない)
  • 統計的に有意とはどういう意味か
推定
標本の統計量から母集団の統計量を推測
  • 母平均の推定
  • 母分散の推定
  • 母比率の推定
  • 2つの母集団について、それぞれのの推定
この単元では、検定と推定という推測統計の2つの手続を表計算ソフトで行えることを目標とする。 以上、統計解析全体を簡単にまとめてみた。

使用する教科書

この単元では、以下の教科書を用いる。

図2: 藤本壱『Excelでできるらくらく統計解析 Excel2019/2016/2013/2010 & Office 365対応版』(自由国民社)
コースの長さ(コマ数)に応じて、内容は取捨選択する。 また授業用のワークシート(授業用ws.xlsx)はお道具箱に入っている。

統計解析のさまざまなツール

この単元で学んだ、表計算ソフトExcelによる統計解析手法を含めて、いくつもの手法があり、それぞれ一長一短がある。目的に応じて、必要なツールを習得するとよい。

Excelを使う
  • データをリスト形式のワークシートで用意できる
  • 基本的な統計関数が用意されている
SPSS(IBM)
高度な統計解析手法まですべて使えるパッケージ環境。高価なソフトなので、個人では利用しにくい
R
オープンソース/フリーソフトの統計解析言語と環境。個人でも利用しやすい。汎用言語ではない。
python
pythonは汎用言語であるから多目的に利用できるが、数理統計ライブラリnumpypandasを利用することで、RやSPSSに匹敵する統計解析環境になる。現在最も習っている人数の多いスクリプト言語で、統計解析以外にも学習、スクレイピングなど多種の応用に使える。なお、numpyは行列の演算ライブラリ、pandasはSPSS風の統計ライブラリである。