↓これが必読論文である。
Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing(統計的有意性の無意味さ). Journal of Wildlife Management 63(3):763-772. http://www.stats.org.uk/statistical-inference/Johnson1999.pdf

はてなブックマークのコメントで、これの日本語抄録の存在を教えてくれた方がいらっしゃいました(感謝です)。これです。
TKENAKA's WebPage 統計学的な有意性検定の意味のなさ(竹中明夫氏のページ)http://takenaka-akio.cool.ne.jp/etc/stat_test/


読んでびっくりした人が、じゃあどうすればいいかを書いてあるのが次の本である。
Kline, R. B.(2004). "Beyond significance testing: reforming data analysis methods in behavioral research". (American Psychological Association) ISBN: 978-1-59147-118-9

 統計ができないと、少なくとも生き物相手の研究(生物学、医学、心理学あたりまで、やや怪しいが社会学なども入る場合もある)は「科学的」とは認められない。 ここでいう「統計」とは、統計学的検定を下限とする。つまり、すくなくとも検定をやってないと、科学的研究とは認められない、ということである。

 統計学的検定とは、おおざっぱにいえば、次のようなものである。
0.主張したいことがある。たとえば「この薬は効果がある」といったような。
1.主張したいことを、実験で甲乙つけられるような形で表す。「薬を飲んだグループと飲んでないグループを比較すると(他の条件は同じ)症状の改善に差がある」
2.1とは反対の仮説を作る。「薬を飲んだグループと飲んでないグループとでは、症状の改善に差がない」
3.実験データから、2.の仮説が成り立つ確率を計算する。
4.3.の確率がかなり小さければ(たとえば5%より小さいとか、1%とより小さい)、2.の仮説を捨てる。だから1.の主張が言える(そう主張しても、間違う可能性はかなり小さい)


 しかし、1%はともかく5%がなぜ「小さい確率」といえるのか?

 これには、統計的検定が農学の分野で発展したことに関係があるというフォークロア(民間伝承)がある。
 つまり研究者が現役の期間はだいたい20年間くらいである。農学はその対象の性質上、1年間に1回しか実験ができない(笑、すでにかなりあやしいぞ)。
 つまり20年間で20回しか実験できないので、間違える確率を1/20にできるのなら、彼は間違えることなく研究者生活を全うできる、という訳である。

 しかし本当は、5%水準の検定を20回やったとすると、これらがそれぞれを独立しているとすれば、20回(20年間)で「少なくとも1回以上の間違った主張をしてしまう確率」は,65%近くにもなる。
 つまり1度も間違えない確率は95%(=0.95)の20乗(= 0.358485922)なので、それを1から引けば、少なくとも1度は「実際は全く差がないのに、差があると」間違えて判断する確率は、65%近くにもなるのである。


 統計学的仮説検定の使用は広く広がっている。
 しかし一方では、1960年代あたりから、その使用に注意と反省が繰り返し行われている。

 統計学的仮説検定を使わない方向に、おそらく最も進んでいる分野のひとつは心理学だろう。

 たとえばアメリカ心理学会はタクスフォースTask Force on Statistical Inference (TFSI) をつくって、仮説検定の問題点の指摘と代替手段(検定力分析Power analysisと効果量effect sizeの信頼区間の報告)の普及とに力を注いで来た。
 学会誌に仮説検定の結果を載せることを禁止しよう、というところまで話は進んだ。
 しかし「これは検閲にあたるのでは」と、いろいろ抵抗(勢力)もあって、実現には至らなかったらしい。
 おかげで、注がれた力に見合うほどには、検定を用いた研究はあまり減っておらず、「検定力分析と効果量の信頼区間」を使用した研究は増えていない。

 しかし、少なくとも、《2値的な判断しかできない (有意か否か) 検定よりも、効果量 + 区間推定を利用する方が望ましい》という考え方は、American Psychological Association (APA) の投稿要綱(Publication Manual of the American Psychological Association) には無論のこと、他にも多くの心理学系学会誌のEditorial Policyに採用されている。
 Bruce Thompson(http://www.coe.tamu.edu/%7Ebthompson/)のサイト の24 Journals now requiring effect size reporting:というところに採用している学会誌のリストが、Various Editorial Policies Regarding
Statistical Significance Tests and Effect Sizes
というページには、それぞれの学会誌のEditorial Policyの抜き書きがある。

 (結論)統計学的仮説検定ではなく、検定力分析(パワー・アナリシス)と効果量effect sizeの信頼区間の報告を使うようになっておこう。


 
Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral ResearchBeyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research
(2004/04)
Rex B. Kline

商品詳細を見る


生物学を学ぶ人のための統計のはなし―きみにも出せる有意差生物学を学ぶ人のための統計のはなし―きみにも出せる有意差
(1998/03)
粕谷 英一

商品詳細を見る

……統計に持ち込む以前にずっこけてるすべての人に役立つ。

Q&Aで知る統計データ解析―DOs and DON’Ts (心理学セミナーテキストライブラリ)Q&Aで知る統計データ解析―DOs and DON’Ts (心理学セミナーテキストライブラリ)
(2008/02)
繁桝 算男森 敏昭

商品詳細を見る

……統計ユーザーの必携書。困ったとき,かなりの確率で役立つ。
(追記)
日本語のも見つけました。下の翻訳のようですが。
むむ……"important information about effect size" を「重要な定量的情報」と訳している? "effect size" は普通に「効果量」では?


医学雑誌編集者国際委員会『生物医学雑誌への統一投稿規程』(1) (2001年10月改訂版)(医学のあゆみ Vol. 201No. 10 2002.6.8|793 )
www.ishiyaku.co.jp/magazines/urm.pdf

8.方法(Methods)
(2)統計(Statistics)
統計的手法については,元のデータにアクセスできる見識ある読者による報告結果の検証が可能となるような詳細の説明が施されていなければならない.可能であれば,測定結果を定量化し,測定誤差や不確実性(信頼区間等)を表す適切な指標とともに提示する.重要な定量的情報を提供せずにP値の使用のような統計的仮説検定のみに依拠することは避ける.



Uniform Requirements for Manuscripts Submitted to Biomedical Journals: Writing and Editing for Biomedical Publication
(Updated October 2008) Publication Ethics: Sponsorship, Authorship, and Accountability International Committee of Medical Journal Editors
http://www.icmje.org/urm_full.pdf

IV. A. 6. c. ... When possible, quantify findings and present them with appro- priate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as P values, which fail to convey important information about effect size. ...



「効果量effect sizeの信頼区間の報告」の方を、結論で飛ばしたんでわかりにくくなりましたが(決定力分析:パワーアナリシスは確かに、第一種の誤りαと第2種の誤りβに対して(1 - β)(こいつを決定力といったりする)との関係を考慮して適切なサンプルサイズを決める手法だし)、(多重比較における)有意水準の決め方、たとえばFamily-wise error rate(FWER)とかFalse discovery rate (FDR)とかとは、また別の話なんです。
Secret

TrackBackURL
→http://readingmonkey.blog45.fc2.com/tb.php/241-5162850b