2009年02月28日
卒論修論のために、これから統計学を学ぶつもりの人に知って欲しい5箇条
大学1年から生物学部とか経済学部に在籍している人なんかは、「統計学」の体系的なトレーニング受けざるを得ないと思うので問題はないのですが、問題はそういうトレーニングをすっ飛ばしたまま、統計解析が必要になる人の場合。
例えば、学部時代は英米文学専攻で統計に無縁だったけれど、大学院で英語教育系に転向した人。あるいは、教育方法論系の研究室にいてフィールドワークばっかりやっていたけれど、統計系の分析も必要になった場合。
1. 先輩から教えてもらわない
まず、一番やってはいけないのが、先輩の院生に教えてもらうということ。「あの先輩に、色々教えてもらいたい(ハート)」など下心がある場合はまた別ですが、純粋に統計学“だけ”を学びたいなら先輩に教えてもらうのは危険です。
あなたは統計学初心者ならば、その先輩が「きちんと統計解析を理解している」かどうかを知る術はありません。周囲の評判というのもありますが、そもそもその「周囲」自体が「統計学をきちんと理解している」保証はありません。
その先輩が統計を使って研究をしているとしましょう。でも、「統計を使って研究している」人が、「統計学を理解している」とは言えません。昔はそう言えたようですが、後述する統計ソフトの進歩により、統計学を理解していなくても「統計を使った研究」はできるようになりました(これがクリック統計学派です)
2. 「論文」で学ばない
統計を使った論文で学ぶのも危険です。その問題点は大きく3つあって、
- 統計分析に「間違いがない」という保証はない
- 紙幅の関係で、「使い方」に関する記述は少ないかほとんどない
- 都合が悪いことは書かれない、あるいは曖昧にぼかしてある
1点目。さすがに国際学会の研究論文ではそういうことはないでしょうが、大学紀要レベルだと普通に間違っている統計論文が載っています。私が知る限りでは、英語教育研究・社会学・社会心理学に、酷い統計論文が載っていることが多いです。ご注意を。
2点目、3点目は、論文の性格を考えれば理解しやすいでしょう。研究論文は(「統計学」の論文でない限り)そもそも統計はツールに過ぎないので、細かい議論をする余裕はないのです。そして、分析課題の解明が主要な目標にあるので、統計解析のやり方がちょっとまずい場合(でも間違っているというほどでもない)、曖昧にぼかしたり、弁解になってないような弁解をして煙に巻いていることがあります。
3. 「統計ができる」という保証がある人・本から学ぶ
じゃあどうするかですが、「教科書」で学ぶのが一番よい方法です。あるいは、統計(解析)の専門家が授業を開いているならそれをとるのもありでしょう。
まあ、統計学の教科書に書いてあることは間違いはさすがにないでしょうから。しかし実際は、多くの教科書が、要所や急所(統計手法の大前提となる「仮定」)を曖昧にぼかしてあったり、そもそも書いていないものがあります。まあ、最初はこの点はあまり神経質になる必要はないとは思いますが。
4. (最低限の)数式の暗記・理解は、覚悟する
たまに、「数式を一切使わない統計学」みたいな本がありますが、はっきり言ってオススメしません。それは、クリック統計学の第一歩です。
統計を「使う」だけの人には細かい証明に関する知識はとりあえず不要でしょう。ただし、その統計解析が「数学的に何をやっているか」は理解しなければいけません。
というのも、統計の「ことば」と「ふつうの日本語」は、全然意味が違うからです。統計学の専門用語の多くは、「日常語」を借用してはいますが、それを混同してはいけません。統計というツールは、数学によって開発された「ツール」です。だから、そのツールは、数学の言葉で組み立てられています。だから数式を理解しないまま、日常語だけで理解していると、思わぬ勘違いをします。数式・定理の理解から入るのは回り道のようにも見えますが、マスターするまでの時間を考えたら、それほど変わらない気がします。
ちなみに誤解がもっとも多い統計用語のひとつが「有意差」でしょう。統計学的に「有意な差がある」と言った場合、これは、日常的な意味での「差がある」とは違います(「母集団において、集団間の差がゼロではない」という意味です)。ついでに言うと、たまに勘違いしている人がいるんですが、統計学的に「有意な差がない」というのは、日常語の「差がない/同じだ」とは全く違います。「母集団において集団間の差がゼロでないとは言えない」という意味です。
5. 最初は統計ソフトは使わない
「統計はツールなんだから、結果がわかればいいじゃん。最近じゃソフトが全部やってくれるでしょ。あんまり目くじら立てるなよ」というクリック統計学派の人がいますが信じてはいけません。それは「あんまり目くじら立てるなよ」なんて呑気なことを言っていられるレベルではありません。とんでもないことをしているという自覚を持った方がいいでしょう。まあ、「とんでもない」と実感できている時点で、すでに「初心者」ではないので、これは難しいでしょうが。
統計ソフトがやってくれるのは、「計算」だけです。確かに計算は(ほぼ)全部やってくれますが、「命令」は人間が出さなければいけないし、計算結果を解釈するのも人間じゃなければできません。
特に最近の統計ソフトが恐ろしいのは、融通が利き過ぎる点です(便利な部分でもあるんですが)。めちゃくちゃにデータを入れても、とりあえず結果ははき出します。データに入力ミスがあっても、辻褄を合わせて(=ミスを「なかったこと」にして)計算を続行したりします。
一番身に付くのは、紙とペンと電卓だけで計算する方法でしょうが、算数が苦手な人は計算ミスで発狂しそうになると思うので、表計算ソフト(MSエクセルとか)だといいでしょう。ただし、最初はプリセットの関数を使うのはやめましょう。多変量解析だったらさすがにエクセルだけだときついでしょうが、基本の段階(平均・分散・標準偏差・相関係数・信頼区間・カイ2乗検定・T検定・分散分析など)は算数(和差積商)+α(累乗)なので表計算ソフトでだらだら足し算引き算を繰り返せば、結果は出ます。そう、論文に使われている統計解析の多くは、エクセルでも十分できるんです。
追記
- ご意見大歓迎!
- なにかいろいろ忘れていそうな感じなので「つづく」
- 322 http://b.hatena.ne.jp/
- 170 http://www.hatena.ne.jp/
- 152 http://b.hatena.ne.jp/hotentry
- 95 http://reader.livedoor.com/reader/
- 88 http://b.hatena.ne.jp/entrylist
- 84 http://b.hatena.ne.jp/hotentry?mode=general
- 59 http://d.hatena.ne.jp/
- 42 http://www.google.com/reader/view/
- 38 http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/terracao/20090228/1235765661
- 28 http://b.hatena.ne.jp/entrylist?sort=hot