工学系研究者のための
心理統計と実験計画法の基礎

1,007 views
828 views

Published on

研究室内部の勉強会用に作った資料です.心理統計を習ったことのない工学系の学部生・院生用に作成しました.

Published in: Data & Analytics
0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,007
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

工学系研究者のための
心理統計と実験計画法の基礎

  1. 1. ⼯学系研究者のための
 ⼼理統計と実験計画法の基礎 ⼩川奈美(Nami Ogawa) 2016/01/18
  2. 2. なぜ(⼼理)統計が必要か データから妥当な主張を導き出すため ‣曖昧で抽象的な概念を、科学の⼟俵に乗せて論じるための⼿法 ‣過信も不信もよくない ‣有意差の有無に⼀喜⼀憂するのではなく、データから最⼤限の
 情報を引き出し、限界を明らかにした上で、分野の発展に
 何かしらの貢献をすることが⼤事(だと私は考えています) ‣統計と同じくらい、実験計画も⼤事 - garbage in, garbage out - ゴミデータをいくら頑張って統計処理でこねくりまわしたところでゴミ 2
  3. 3. ⼯学系あるあるの残念な⼼理実験 とりあえずデータを取ったけどどうしよう・・ ‣実装段階では早く⼿を動かすことは⼤事だが,実験をする前には⼀歩⽴ち⽌まって誰かに 相談&予備実験した⽅がいいです! とりあえず適当にググって解析してみたけど,これでいいのか不安だし, 結果の⾒⽅が分からない・・ ‣「何を主張したいのか?」によっても,適切な検定法や解釈の仕⽅が変わってきます. ‣また,基本的な統計知識がないと考察がお粗末になります. ⼼理学やりにきたわけじゃないんだけど・・ ‣⼼理学者ではないので,あまり実験や解析に時間をかけすぎるのも本末転倒です.また, そもそも統計で⾔えること⾃体には限界があります.しかし,無知のまま誤魔化しつづけ ようとすると限界がきます.基礎的な知識を⾝につけた上で,現実的な制約と照らしあわ せながら,どの部分を妥協するかを⾃分で判断できるようになっているとgoodです. 3
  4. 4. ⼼理学研究の基本的流れ(調査研究の具体例) ‣リサーチ・クエスチョンを持つ - 「反社会的⾏動はその年齢の頃に増加するのか?もし増加するとしたら、その原因は何か?」 ‣仮説を⽴てる - 「男⼥とも、⼩学校⾼学年から中学校にかけて平均的に反社会的⾏動が増加するだろう。その増加は、思春 期の⽣理的変化によって⽣じる⼼理的葛藤が主な原因のひとつであろう 。」 ‣具体的な予測に落としこむ - 思春期の⽣理的変化は、11歳〜13歳にかけては⼥⼦の⽅がより顕著であることが知られている - →「11歳から13歳にかけての反社会的⾏動の増加は、⼥⼦のほうにより顕箸にみられるだろう。」 ‣調査・実験・実践などを実施 - 「⼩学校⾼学年から中学校にかけての男⼥」 という⺟集団の⼀部である男⼥20⼈ずつの被験者に対し、
 ⼩学校6年と中学校2年の学年初めに調査を実施 - 「逸脱⾏動得点」により反社会的⾏動の程度を測定 ‣統計的データ解析 - 回帰分析により男⼥ごとの逸脱⾏動得点の変化度の違いを⽰し、仮説を検証 ‣リサーチ・クエスチョンに対し⼀定の回答を⽰す - 仮説が⽀持されても、「この時期には受験プレッシャーの⾼まりから⼼理的不安が増⼤し、それが反社会的 ⾏動を引き起こす原因となる。こうした不安は⼥⼦において特に顕著である」などの解釈も否定できない。 4
  5. 5. ⼼理学研究の基本的流れ ‣リサーチ・クエスチョンを持つ - ⼤事of⼤事 - 「何を明らかに/解決するのか?」 ‣仮説を⽴てる - この段階で、統計的データ解析により探索的に仮説を⽣成することもある ‣具体的な予測に落としこむ - データによってその正否が直接的に評価できるような具体的な予測を、仮説から論理的に導出する ‣調査・実験・実践などを実施 - 仮説が検証できるようなデータを収集 ‣統計的データ解析 - ランダムサンプリングを仮定することで、サンプルのデータの性質から、⺟集団の特性を推測 ‣リサーチ・クエスチョンに対し⼀定の回答を⽰す - 予測通りの結果が得られたとしても、仮説を証明したことにはならない。即ち、逆の命題は必ずし も真ではない。かといって、実際の研究では対偶も完全には⽰せない。
  6. 6. 実験計画法⽬次 • 被験者内計画と被験者間計画(7-8) • 独⽴変数・従属変数の⼿続き化(9-12) • 剰余変数の統制⽅法(13-18) • 質問紙の作成で注意すべき点(19-20) • 「相関すなわち因果」ではない(21-29)
  7. 7. 実験計画 考慮する3つの要素→要因数・⽔準数・被験者内/間/混合 ‣要因:独⽴変数の数 ‣⽔準:要因内の条件の数 - 被験者内/間/混合:同じ被験者がすべての条件に参加→被験者内
          異なる   それぞれの    →被験者間 考慮する3つの変数→独⽴・従属・剰余 ‣独⽴変数:仮説の中で原因であると予想している、実験で操作する変数 ‣従属変数:仮説の中で結果と予想している、実験で測定する変数 ‣剰余変数:独⽴変数以外で、従属変数に影響を与えそうな変数。統制する。 - 「統制」…取り除くか、値が変わらないかにして、独⽴変数と⼀緒に変化しないようにする - 相関を調べる場合は、剰余変数ではなく共変量と呼ぶ 1)独⽴変数は何か/操作する⼿続きは何か 2)従属変数は何か/測定する⼿続きは何か 3)統制されている剰余変数は何か/統制するための⼿続きは何か 4)統制されていない剰余変数は何か/統制するためにはどのような⼿続きをとればよいか。 7
  8. 8. 被験者内計画と被験者間計画 被験者内計画 ‣条件を同じ被験者に割り当てる。 ‣個⼈の各条件下での変化を⽐較するときなどに⽤いる。 ‣メリット - 被験者(回答者、対象者)の⼈数が少なくてすむ。 - 各条件下において被験者が等質である。 ‣デメリット - 順序効果、疲労効果、練習効果などが⽣じやすい。 被験者間計画 ‣条件を異なる被験者に割り当てる。 ‣グループ間のデータを⽐較するときなどに⽤いる。 ‣メリット - 順序効果や練習効果を⽣じない。 - 同時並⾏して異なるグループに実験を⾏うことができる。 ‣デメリット - 多くの被験者を必要とする - グループの等質化が必要になる。 混合計画 ‣同じ被験者に割り当てる条件と、被験者間に割り当てる条件とが混在する。 8
  9. 9. 独⽴変数の種類 直接的独⽴変数 ‣特定の物理的刺激そのもの - 明るさ,重さ,アイコンタクトなど 概念的独⽴変数 ‣あるカテゴリーに属する物理的刺激 - きちんとした⾝なり,集団圧⼒など ‣物理的刺激によって引き起こされた⼼理状態(⼼理変数) - ⾃尊⼼,怒り,不安など ※⾼次の概念になるほど補助仮説が重要 ‣概念を⼿続き化する際に、何らかの仮定をおいているはず。それを明記する。 ‣妥当性を担保するため、多重操作を⾏うとよい ‣多重操作:1つの概念的独⽴変数を複数の具体的⼿続きに翻訳して、 違う⼿続きで実 験を⾏うこと。 9
  10. 10. 独⽴変数の⼿続き化 1.⽔準間の差が⼼理状態に与える影響を最⼤にする - e.g., 独⽴変数:⾃尊⼼、⽔準:⾼/低、⼿法:試験成績の虚偽フィードバック ‣90点と10点の⽅が、51点と49点より差は出やすいだろう - ※実験の意図に気づかれてしまってはいけないので、適度なバランスが必要 2.⽔準内では、⼼理状態を同質化されるようにする ‣点数が与える影響は個⼈にとってさまざま。→点数でなく偏差値を使う ⼼理的等価性 ‣⼿続きの⼀定化が、必ずしも同⼀の独⽴変数を同じ程度に操作できるとは限らない ‣具体的⼿続きは異なっていても、同じ概念を操作できていると推測できるときには, それらの⼿続きは⼼理的に等価であると⾔われる。 - e.g., ⾃尊⼼ - 理系の学⽣には数学の成績、⽂系の学⽣には語学の成績 10
  11. 11. 独⽴変数の⼿続き化2 パイロット・テスト(事前) ‣本実験を開始する前に、本実験と同じ属性の被験者に本実験と同じ⼿続きを 実施し、その⼿続きの効果や問題点を検討すること ‣パイロットテストのデータは実際の解析には⽤いない ‣前スライドの2点を満たすため、パイロットテストを念⼊りに⾏い、参加者 と密にコミュニケーションを取って⼿続きを洗練させる ‣焦って実験をして、何の⽰唆も導けないような粗悪なデータを⽣成すると、 結局実験をやり直すはめになる 質問紙調査(事後) ‣独⽴変数が意図どおりに操作できていたかどうか、従属変数の測定後(実験 後)に質問紙などで聞くとよい ‣実験がうまくいかなかった場合、何が原因だったのか?が分かることがある 11
  12. 12. 12 直接的従属変数 ‣特定の反応や⾏動そのもの - 明るさの判断,選択,採否など 概念的従属変数 ‣あるカテゴリーに属する反応や⾏動 - 模倣,攻撃,同調など ‣直接には観察できない⼼理状態 (⼼理変数) - 対⼈態度,愛情,⾃尊⼼,不安など 従属変数の種類
  13. 13. 剰余変数の統制 取り除くか、値が変わらないようにして、独⽴変数と⼀緒に変化しないようにする  e.g.,単語を覚える際に、AとBの⼿法でどちらが記憶しやすいかを実験 ‣個体差変数 - ⼈間や、実験に使う各単語・においなどがそれぞれ個性をもつこと
   e.g.,被験者の記憶⼒、単語の記憶しやすさ - 被験者内計画にすることで統制できる→が、その場合残留効果が出る ‣個体内変動 - 残留効果…前の試⾏の結果があとの試⾏に影響する - 同じ被験者でも、その⽇のコンディションによってパフォーマンスが異なる - 時間変数…練習効果・天井効果(サチること)・慣れなど→カウンターバランス ‣課題特有の変数 - 記憶にかかる時間→直接的統制 13
  14. 14. 剰余変数の統制⽅法 e.g.,やる気が剰余変数 独⽴変数化 (表にない) ‣やる気ありなし条件を作って従属変数への効果を検討する 統計的統制 ‣やる気も測定しておく→多変量解析でやる気の影響を取り除く カウンターバランス ‣e.g.,被験者内計画で、あとの条件ほどやる気がなくなると予想される→
 A条件の次にB条件をやるパターンとその逆のパターンを⽤意して時間効果を相殺する 無作為化: ‣条件ごとに被験者をランダムに割り振る 直接的統制 ‣恒常化(⼀定化) : - やる気ゼロの学⽣だけを集める ‣除去化 : - 全員やる気をなくさせる 14
  15. 15. 15 組織的配分 ‣あらかじめ,個体差変数を測定しておき、平均値等価法か対等化法で割り振る
    e.g., 実験前に別の記憶テストを⾏って,各被験者の記憶⼒を調べておく - 「平均値等化法」…記憶⼒の測定値を平均したとき, その平均値が暗記条件とイメージ条件で 同じになるように被験者を 配分する。 - 「対等化法」…記憶⼒の測定値が同じ被験者を2⼈選 んで対をつくる。その対をたくさんつ くって,対の⽚⽅を暗記条件 に,もう⽚⽅をイメージ条件に配分するのである。この対等化法で は,記憶⼒の平均値も⾃動的に等しくなる。 - 対等化法の⽅が統制の精度は⾼い ‣剰余変数の数が増えていくとすぐに実現が不可能になる 無作為配分 ‣すべての個体差変数を⼀網打尽に統制することができる ‣統計的検定の威⼒を最⼤限に利⽤することができる ‣よって、無作為配分を⾏うことが多い 組織的配分vs無作為配分
  16. 16. 無作為配分の⽋点と対策 ⽋点 ‣Nが少ない場合 - 偶然誤差が⼤きくなりすぎると、独⽴変数の必然的な効果が⾒分けられなくなってしまう ‣無作為配分したのち、外れ値や⽋損値が出てきてNが変化した場合 - 残ったデータは無作為抽出とは⾔いがたくなる。なぜならば、実験条件の違いがその選抜に影響し た可能性があるから。 - e.g.,空腹条件のラットが沢⼭死んで、残ったもので解析をする→そのデータは”タフなラット”だ けの特性を⽰す可能性が⾼い。つまり、何か有意差が出ても空腹条件と満腹条件の差ではなく、タ フか普通かの違いを⽰すことになってしまう。 組織的配分との組み合わせ ‣剰余変数となる個体差変数のうち、正確に測定でき、かつ、被験者対を簡単につくる ことができる変数があれば、対等化法を⾏う。 - →その個体差変数に由来する誤差は減らすことができる。 ‣さらに、対のどちらの被験者をどちらの条件に割り当てるかを無作為に決めれば、無 作為配分の利点も享受することができる 16
  17. 17. 剰余変数の統制 あらゆる可能性を事前に考慮する必要がある ‣⼼理学的専⾨知識が必要になる場合も少なくない - e.g., 暗いところでは,視野の周辺の⽅が中⼼よりも感度が⾼くなる。 視野の周辺では⾊を ⾒分けられない。 - →暗室実験では網膜に対しての刺激提⽰箇所が極めて重要 ‣何を統制すべきか?どのように統制すべきか?を決定するのは難しい - 初⼼者は、⾃分で⼀から新しい実験をデザインしようとすると、重要な剰余変数を⾒逃し てしまったり、うまく統制できなかったりする可能性が⾼い。 - 先⾏研究に倣うことは有効 ‣とはいえ、完全に統制することは難しいですし、する必要もないので、「今 回はこの変数は統制できなかった(or測定できなかった)が、そのため〜の可 能性も排除しきれない。今後、〜を⾏うことでその可能性についても検討す る。」などと記述すればよいと思います。 ‣剰余変数を測定しておけば、統計的にその変数の影響を消去できます(p.24) 17
  18. 18. 18 実験者効果 ‣無意識のうちに、実験者の意図や期待などが態度などにあらわれた結果、被験者になんらかの影響を与えてしまう こと - ピグマリオン効果、クレバーハンスの例が有名 ‣防ぐには:ブラインドテスト・ダブルブラインドテスト - ブラインドテスト:被験者が独⽴変数の内容を知らないこと。プラシーボ効果の影響を考慮するため、偽薬群に偽の情報(効く薬 だ)と伝える、など - ダブルブラインドテスト:実験者も独⽴変数の内容を知らないこと。実験計画者と実験者が別の⼈である、など 順序効果 ‣実験の順序によって、練習や順応、疲労の影響が出ること。特に被験者内計画では注意。 ‣対策:計画の段階ではカウンターバランス化などする。解析の段階では、平均を取る前に時系列データをプロット して、順序効果が出ていないかを確かめる。 ‣質問紙の質問の順序によっても答え⽅に影響が出ることが知られている。これも順序効果の⼀つ。 観察反応 ‣被験者が⾃分の⾏動や⼼が観察され研究されていることを⾃覚していると,⾃然な⽇常⽣活のなかにいるときに⽰ す反応とは異なる反応を⽰す ‣仮説に答えようとする「要求特性」や、 ⾃分をよく⾒せようとするバイアスなど ‣実験終了後、仮説に気づいていたかどうかを質問紙で問うとよい。 ⼈を対象とする実験で考慮すべき剰余変数
  19. 19. 質問紙の作り⽅ ‣できれば既にある尺度を使う - 「⼼理測定尺度集」(堀洋道監修,2001,サイエンス社) - The twelfth mental measurements yearbook(O.K.buros, 1995) - Directories of unpublished experimental mental measures(B.A.Goldmanetal,1995) ‣⾃分で作成する場合、「妥当性」と「信頼性」を⾼める - 妥当性…構成概念を正しく測定できるか - 信頼性…⼀貫した測定になるか - 相互に相関が⾼い項⽬を選び、 項⽬数を増やすことによって 尺度の信頼性を⾼める ‣定量的調査と定性的調査の基礎(第3回)定量的調査(質問紙)および実験による評価 - ↑具体的な注意点について⾮常によくまとまっています http://healthpolicyhealthecon.com/2014/12/15/validity-and-reliability/
  20. 20. 調査例 調査対象の選択 ‣⺟集団:「⼩学校⾼学年から中学校にかけての男⼥」 ‣サンプル:⺟集団の⼀部である、ある地域の男⼥20名 項⽬の作成 ‣反社会⾏動という抽象概念を明確に定義:「学校・家庭・および社会 における⽐較的軽微な秩序逸脱⾏動 」 ‣定義にあてはまると思われる具体的な⾏動を20個⽤意して項⽬とする ‣それぞれの⾏動を「最近1か⽉の間にした ことがあるかどうか」を
 尋ね、「したことがある」なら1点,「したことがない」なら0点を与 えて、その合計点を「逸脱⾏動得点」とした
  21. 21. 相関係数 あくまで線形関係しか分からない。 ‣曲線の相関は分からない ‣⼀つ「はずれ値」が存在する事で、相関係数が急激 に⼩さくなってしまう事もある。 ‣散布図を書くのが⼤事 相関の強さの⽬安 ‣絶対値が0.7以上で「強い相関」、0.3以上0.7未満 で「弱い相関」、0.3以下で「無相関」と三段階くら いに分けて解釈したりする ベクトルで理解する相関係数 21 http://www.slideshare.net/matuura/ss-16623000
  22. 22. 外れ値の取り扱い はじめに散布図を書いておおまかな傾向を⾒る ‣2SD以上離れているものは外れ値として除外することが多い - なぜ外れ値が⽣じたか?の理由をきちんと考察する ‣何度も検定を繰り返しながら、⾃分の都合のいい形で外れ値を
 除外する態度は厳禁です ‣外れ値が多い場合、そのままノンパラメトリック検定をするとい う⽅法もある 22
  23. 23. 相関があるのに因果がない4パターン AとZに相関があるからといって、A→Zの因果関係があるわけではない ※A→Zの因果関係:要因Aを変化させた(介⼊した)とき、要因Zも変化する 1. 偶然相関が出ただけ 2. Z→Aの逆の因果だった 3. 要因Bが交絡(剰余)変数となって、
 AとZに影響しているだけ(上流側に共通の要因がある) 4. 因果の合流点で選抜/層別/調整されてしまっている 23http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
  24. 24. 相関があるのに因果がない例1.偶然 AとZに相関があるからといって、A→Zの因果関係があるわけではない ※A→Zの因果関係:要因Aを変化させた(介⼊した)とき、要因Zも変化する 1. 偶然相関が出ただけ ‣e.g.,「サイコロAとサイコロBを投げたら同じ⽬が出た(相関)」からといっ て、「サイコロAの⽬を変化させると、サイコロBが同じ⽬に変化する(因 果)」と推論するのはおかしい。 - 検定の考え⽅では、100回に5回は偶然で有意差が出る - 防ぐには:再度の調査を⾏ったり、あるいは独⽴に⾏われた類似の研究間で⼀貫 した結果が得られるかを検討(メタ分析) 2. Z→Aの逆の因果だった 3. 要因Bが交絡(剰余)変数となって、
 AとZに影響しているだけ(上流側に共通の要因がある) 4. 因果の合流点で選抜/層別/調整されてしまっている 24http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
  25. 25. 相関があるのに因果がない例2.因果の向きが逆 AとZに相関があるからといって、A→Zの因果関係があるわけではない ※A→Zの因果関係:要因Aを変化させた(介⼊した)とき、要因Zも変化する 1. 偶然相関が出ただけ 2. Z→Aの逆の因果だった ‣e.g., A:「事故多発注意の看板の数」と、Z:「事故の発⽣率」 - 確かめるには:Aを減らすとZが減るか?(介⼊操作) - 「因果の向き」を正しく認識し、適切な統計的因果推論を⾏うためには、
 対象とする現象についての適切な背景知識を持っていることが本質的に重要 - 油断して⾃分の思い込みで進みすぎないように、注意しましょう。 - 他の要因が複数交絡するときなどは、特に⾒分けづらいので注意 3. 要因Bが交絡(剰余)変数となって、
 AとZに影響しているだけ(上流側に共通の要因がある) 4. 因果の合流点で選抜/層別/調整されてしまっている 25http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
  26. 26. 相関があるのに因果がない例3.擬似相関 AとZに相関があるからといって、A→Zの因果関係があるわけではない ※A→Zの因果関係:要因Aを変化させた(介⼊した)とき、要因Zも変化する 1. 偶然相関が出ただけ 2. Z→Aの逆の因果だった 3. 要因Bが交絡(剰余)変数となって、
 AとZに影響しているだけ(上流側に共通の要因がある) ‣擬似相関と呼ぶ。⾒かけ上はAとZに相関関係があることに注意。 - e.g., 灯油の販売量が増えると脳卒中の発⽣が増加する。(冬が共通要因) - e.g.,「朝⾷をきちんと⾷べている⽣徒は成績がよい(相関)」→「しっか り朝⾷を摂ることで成績がアップする(因果)」は⾶躍。家庭環境が交絡 変数の可能性。 ‣交絡変数の影響を除くには:実験で統制する、統計的消去をする - 統計的消去の⽅法 http://d.hatena.ne.jp/hoxo_m/20130711/p1 ‣シンプソンのパラドックス http://d.hatena.ne.jp/jtsutsui/ 20100125/1264353773 4. 因果の合流点で選抜/層別/調整されてしまっている 26http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
  27. 27. 相関があるのに因果がない例4.選択バイアス AとZに相関があるからといって、A→Zの因果関係があるわけではない ※A→Zの因果関係:要因Aを変化させた(介⼊した)とき、要因Zも変化する 1. 偶然相関が出ただけ 2. Z→Aの逆の因果だった 3. 要因Bが交絡(剰余)変数となって、AとZに影響
 しているだけ(上流側に共通の要因がある) 4. 因果の合流点で選抜/層別/調整されてしまっている ‣選択バイアスと呼ばれる ‣図でいう要因Bが合流点 - e.g.,全く無相関な2つの試験の点数について、総得 点が700点以上のデータだけ選抜すると相関が出て くる。※合格者のデータだけ調べた場合に相当 ‣※AかZで選抜を⾏うと、本来あった相関が消えることが ある。これも選抜バイアス。
 27
  28. 28. その他の気をつけるべきバイアス 回帰の誤謬 ‣ある試験の成績を測定する→成績が悪い⽣徒を叱る→再び⽣徒の成績を測定する →成績があがっていた ‣このことから「叱ることが教育に効果的だ」と結論づけてよいか??だめ。 - 回帰効果とは、⼆変数間において、⼀⽅の変数が⼤きく平均から隔たっていると、もう⼀⽅の 変数は平均からそれほど⼤きくは隔たらない現象である。例えば、⽗親と息⼦の⾝⻑の関係性 をみると、仮に⽗親の⾝⻑が⾮常に⾼くても、息⼦の⾝⻑は平均に近い⾝⻑になるということ が⾒られる。回帰効果は⼆変数間の相関関係が1でない程度に応じて強まる。つまり、相関係 数が1の時、平均への回帰は⽣じない。 ‣対策:成績の悪い⽣徒を叱る条件と統制条件の2群にわけ、回帰効果と叱る効果を 切り分ける 出版バイアス ‣否定的な結果が出た研究は、肯定的な結果が出た研究に⽐べて公表されにくいと いうバイアス 28
  29. 29. 29 理想的で絶対的な研究⽅法はない ‣それぞれの実験には現実的な制約や⽋点があり、相補的であるこ とを理解する ‣それぞれの実験の特徴をよく理解し、研究の⽬的に合った実験を 選択することが⼤事 ‣現実の制約の中で、いかにして理想的なものを実現できるかが研 究者に問われる 実験?or 観察?
  30. 30. 推測統計の基礎⽬次 • そもそも検定とは何なのか(31-35) • エラーバー(SD,SE,CI)の使い分け(36-38) • 測定値をいじくりまわすな(39-44) • サンプルサイズの決め⽅(45) • 効果量(46-47)
  31. 31. 統計的検定では何をしているのか 知りたいのはデータ⾃体の特性ではなく、⺟集団の性質 ‣だが⺟集団すべてを調べることはできない ‣⺟集団からランダムにサンプリングされたデータであると仮定することで、限 られたデータのみから⺟集団の性質をある確率の範囲内で推定・検定できる - Excelでは、不偏標準偏差(⺟集団の分散の推定値)はstdevであり、標本標準偏差(標本⾃ 体の標準偏差)はstdevp - われわれが知りたいのは⺟集団について→stdevを使う 31https://katosei.jsbba.or.jp/download_pdf.php?aid=68
  32. 32. 32 e.g.,ある実験データにおいて,第⼀⼦が第⼆⼦よりも知能指数の平 均値が3.0⼤きかった.このことから⼀般的に第⼀⼦が第⼆⼦よりも 知能が⾼いと⾔えるか? ‣⺟集団 - ある研究で検討したい対象全体。ここでは⼈類。⺟集団から得られるデータ=“⺟数” ‣標本 - 実験や調査の対象。ここではデータをとった対象。 ‣記述統計 - 平均値,標準偏差,相関係数→標本の特徴を客観的・効率的に記述する⽅法。 ‣推測統計(統計的推定,統計的検定) - 標本から⺟数を確率的に推定すること。 →2つ以上の条件間の差の有無が⺟集団全体の傾向と⾔えるかどうか を確率論的に判断 統計的検定では何をしているのか
  33. 33. 仮説検定の考え⽅ 主張したい仮説(差がある)の逆の仮説を否定する、⼆重否定の考え が基本 ‣帰無仮説(無に帰す仮説、つまり棄却したい仮説) - 「変数の⺟数に関してある2つ以上の条件/⽔準間に差がない(データの異なりは偶然⽣じた)」 ‣対⽴仮説(実際に主張したいもの) - 「変数の⺟数に関してある2つ以上の条件/⽔準間に差がある」 ‣α:有意⽔準(危険率とも呼ぶ)。通常5%に設定。 ‣帰無仮説が正しいとすると、⼿元のデータが得られる確率はαよりも低い→滅多に 起こらない(違いは偶然)→帰無仮説を棄却→対⽴仮説が⽀持されるという流れ ‣検定統計量: - 統計的検定を⾏う際にデータから計算するなんらかの数値 ‣臨界値: - データから計算された検定統計量の値が幾つ以上であれば“差がない”という帰無仮説を棄却でき るかという境⽬になる値 33
  34. 34. 第⼀種の過誤と第⼆種の過誤 仮説検定では常に2種類の誤りを犯す可能性 がある ‣第1種の誤り(type1error) - 帰無仮説が正しいときに,それを棄却してしまう誤り。起こ る確率α ‣第2種の誤り(type2error) - 帰無仮説が正しくないときに,それを採択してしまう誤り。 起こる確率β ‣検出⼒1-β - 誤った帰無仮説を正しく棄却する確率 ‣αとβはトレードオフだが、αを5%に固定し、
 できるだけβを下げようとする
 (検出⼒を⾼める)⼿法をとる。 34
  35. 35. 記述統計と推測統計 ‣統計学は、記述的な⾯(descriptive:経験をまとめ要約する部分)と推測的 な⾯(inferential:たった1回の経験からそれが⼀般化できるかを推定する 部分)からなる。 - 仮説検定は推測統計。被験者の平均年齢は記述統計。 ‣「統計学は不確実性を扱う」(http://syodokukai.exblog.jp/20678618) の記事が分かりやすいです ‣標準偏差(SD)は記述統計で⽤いるものと推測統計で⽤いるもの(不偏標準 偏差)があるので注意 35
  36. 36. 36 ⽬的に応じて使い分ける http://www.cv.jinkan.kyoto-u.ac.jp/site/uploads/seminar_handout_121026.pdf 標準偏差(SD)と標準誤差(SE) http://ultrabem.jimdo.com/statistics/statistics-basic/error-bar/
  37. 37. エラーバーには何を使えば? ⽬的に応じて使い分けるが、何を使ったかを必ず記載 ‣標準偏差(SD) - SDよりはSEや信頼区間を使うことが多い - ⽐率のデータにSDのエラーバーはつけません(http:// pooneil.sakura.ne.jp/archives/permalink/001224.php) ‣標準誤差(SE) ‣信頼区間 - 95% 信頼区間のエラーバーは,95%の確率で⺟集団の平均値 µ を含む - 注意:「 M – w ≦ μ ≦ M + w である確率は 95%」は正しい⾔明だが、こ れは標本毎に変動する下限と上限についての確率的⾔明である。「求めた信 頼区間(51.85, 72.15)が 95%の確率でμを含んでいる」は正しくない。 変動するのは信頼区間であって、μは未知だが固定した値である。 37http://ofmind.net/doc/summary/BBS20050622_Cumming-Finch-2005.pdf http://pedsurgery.wp.xdomain.jp/?p=308
  38. 38. エラーバー・推測統計あたりで参考になるページ http://syodokukai.exblog.jp/20678618 ‣以下のnature methodsの総説の和訳 - Points of significance :Importance of being uncertain.(統計学は不確実性を扱う) - Points of significance :Error bars.(エラーバーと有意差の解釈) http://ultrabem.jimdo.com/statistics/statistics- basic/error-bar/ ‣↑とても分かりやすい http://d.hatena.ne.jp/ kamedo2/20110224/1298536747 ‣研究者の多くはエラーバーを理解していないことを⽰した論⽂を解説した 記事の和訳記事 38
  39. 39. 割り算はやめましょう 39 http://hosho.ees.hokudai.ac.jp/~kubo/ce/2013/kubo2013esj.pdf データ解析で出会う統計的問題
  40. 40. 観測値を弄り回すのはやめましょう 40 http://hosho.ees.hokudai.ac.jp/~kubo/ce/2013/kubo2013esj.pdf データ解析で出会う統計的問題
  41. 41. 避けられる割り算は避けましょう 41 http://hosho.ees.hokudai.ac.jp/~kubo/ce/2013/kubo2013esj.pdf データ解析で出会う統計的問題
  42. 42. 測定値を⾃分で変換していいのか? 尺度によって異なります ‣ ↓読みにくいと思うので南⾵原先⽣の⼼理統計の本を参照してください 42
  43. 43. 対数変換と逆正弦変換法(⾓変換) 反応時間や正答率など、上限下限のある値を取り扱う場合は注意 ‣当分散性が崩れるので、当分散性を仮定する分散分析では⾓変換や対数変換を⾏うこと がある - 分散分析の前提:1)標 本が正規分布にしたがう⺟集団から抽出されたものであること(正規性 )、 - 2)各⽔準にはいる標本が独⽴であること (独⽴性) - 3)各⽔準にはいる標本の分散が等しいこと(等分散性 ) - 正規性と等分散性については 、完全に満⾜されなくても分析結果にたいして影響しない(頑健性が ある)ことが知られているが 、あまりにはずれる場合には分散分析は⾏うべきでない 。 - 測定の性質上の理由で、正規性や等分散性が崩れる場合には、測定値を適当に変換することにより、 条件を満たすことができる場合がある。 - テストなど⼀定数 の項⽬中の正答率を⾓変換したり、 反応時間を対数変換することはよく⾏なわれ る。また 、標本数があまりに少ない場合や順序尺度である場合は分散分析を⽤いずに、より制約の 緩いノンパラメトリック検定を⽤いる⽅がよい。 - http://oshiete.goo.ne.jp/qa/1664514.html - http://www.design.kyushu-u.ac.jp/lib/doctor/1999/k030/k030-03.pdf - http://www2.rikkyo.ac.jp/web/murase/07bunsan.pdf 43
  44. 44. 両側検定と⽚側検定 最新研究の原著論⽂において,両側検定か⽚側検定かの記述はしないが,常 識的には両側検定を⾏っているはずである. ‣対⽴仮説として、μ1≠μ2の代わりに、μ1 >μ2 あるいは μ1 <μ2 を⽴てることをを⽚側 検定と呼ぶ ‣⽚側検定では両側検定よりも有意差がでやすくなる ‣⽚側検定を使えるのは⼗分な証明のある場合であるが,⼀般的研究では⼗分な⽴証がない から研究 を⾏っている場合が多いので最新の
 研究において⽚側検定を⽤いることはほとん
 どない. ‣ある試験物質で1, 2回実験を⾏ってみて両側
 検定で有意な影響が得られたからといって,
 それ以降の少し条件を変えた実験において,
 ⽚側検定を⽤いて有意差を得やすくすると
 いった勝⼿な判断は許されることではない. 44統計検定を理解せずに使っている人のために II 池田 郁男 化学と生物 Vol. 51, No. 6, 2013
  45. 45. 45 サンプルサイズは実験の段階で明確に決めておくべき ‣出て欲しい違いが有意だとなるまでデータ数を増やして検定を繰り返 し、出てほしくない違いが有意にならなかったらそのままでよしとす る態度は研究の価値を下げます ‣標準誤差 ‣検定⼒分析 - 検定⼒が強すぎると、実質的に有意差がない(効果量が⼩さい)ときにも有意差が出てしまうことがあ る - サンプルサイズが⼩さすぎた場合、検定⼒が下がってしまう場合があり、逆にサンプルサイズが⼤き すぎる場合には第 1 種の過誤が発⽣する可能性が⾼くなる。 - β=.2が望ましいとされている(Cohen,1988) ‣信頼区間 サンプルサイズによらない効果を確かめようという流れから、効果量を 報告するという流れができてきている サンプルサイズの決め⽅
  46. 46. 効果量 サンプルサイズを増やすと有意差が出やすくなる ‣e.g., α=.05の検定の例でNを20から200へと⼤きくすると,棄却 域は|rl>.444から|r|>.139へ変化 ‣r=.15程度で有意となるが、実質的に意味のある相関であること を保証しない - そんなのおかしいよ! - サンプルサイズに依存しない値としての効果量 ‣検定統計量ごとに⾊々指標があるので調べてみてください 46
  47. 47. ガイドラインで推奨されている態度 New Statistical Guidelines for Journals of the Psychonomic Society ‣豊富な記述はデータの理解を助ける。多⾯的な指標を⽤いよ。 - 効果量,信頼区間などを併せて報告せよ。 ‣検定⼒を考慮し,どのように標本サイズを決めたか報告せよ。 ‣検定の繰り返しは重⼤な過誤をもたらす。 ‣データを選択して報告するべからず 47http://www.jspp.gr.jp/doc/jspp2013kikaku1.pdf
  48. 48. 具体的な仮説検定の⼿順⽬次 • 尺度とパラメトリック検定・ノンパラメトリック検定(49-53) • この分野でよく使う検定の分類(54) • t検定(55-56) • ⼀元配置分散分析(57-59) • 多重性の問題(60-62) • ⼆元配置分散分析(63-66)
  49. 49. 4つの尺度 測定したデータがどの尺度かによって、解析⼿法が異なる 1. 名義-単純なカテゴリ(=) 2. 順序-順序付き(>,=) 3. 間隔-差を問える(-,+,>,=) 4. ⽐率-ゼロが存在(÷,×,-,+,>,=) ※リッカート尺度やSD尺度は厳密には順序だが、便宜上間隔として扱うことがある 49
  50. 50. 測定した尺度により適⽤できる検定法が異なる 名義尺度(以上) ‣⼈数をカウントした場合・Yes/Noの⼆値を測定する場合など ‣→カイ⼆乗検定を⾏う 順序尺度(以上) ‣U検定・順位和検定など 間隔・⽐率尺度 ‣t検定・分散分析など 50
  51. 51. 検定法⼀覧 51http://www.pu-hiroshima.ac.jp/~n_takayk/statistics.pdf
  52. 52. パラメトリック検定とノンパラメトリック検定 パラメトリック検定 ‣⺟集団の分布を正規分布と仮定した検定 ‣間隔尺度以上でないと使えない ‣パラメトリック検定をする前に、正規性の検定を⾏う。Noならノンパラ。 - n>30程度でないと、正規性が仮定されやすい ノンパラメトリック検定 ‣等分散にならない場合や外れ値がある場合や、名義・順序尺度でも利⽤することができる. 52
  53. 53. ノンパラメトリック検定の基本 ‣ウイルコクソンの順位和検定の例 - 並び替えなので、平均も分散も関係ない 53
  54. 54. よく使う検定法 間隔尺度のことが多いと思うので,以下間隔尺度の平均 値差の検定法について説明します ‣まず,要因と⽔準がいくつあるか考える(※) - 要因…操作した独⽴変数.e.g., ⾹り,お菓⼦の種類 - ⽔準…「条件」と普段呼ぶもの.e.g.,(あり条件・なし条件),(ポテチ・ クッキー・あめ) ‣1要因2⽔準(e.g.,⾹りを要因とし,あり条件・なし条件の2⽔準) - t検定 ‣1要因3⽔準以上(e.g.,お菓⼦の種類が要因,ポテチ・クッキー・あめの3⽔準) - ⼀元配置分散分析(⼀要因分散分析) ‣2要因分散分析(e.g.,⾹り×お菓⼦の種類) - ⼆元配置分散分析(⼆要因分散分析) 54
  55. 55. 1要因2⽔準の検定 パラメトリック ‣t検定 - 対応のある関連 2 群の実験は,同じネズミで⽐較し合 うので,全く異なるネズミで⽐較する独⽴ 2 群の実験よ りも信頼性の ⾼いデータが得られる .したがって,⼀般に pairedのほうがunpaired t testよりも有意差が得られやすい(検定⼒が⾼い) - データ数が少ない場 合は等分散性の検定はあてにできない ノンパラメトリック ‣U検定・順位和検定・カイ⼆乗検定など 55
  56. 56. t検定で気をつけるべき点 「標本の⼤きさはほぼ等しいか」 ‣健常者10名と患者20名の⾎圧の平均値の差を検定する場合,健常者:患者=1:2の⽐率と なる。この⽐率の違いが1:2より⼤きくなると検定結果の誤りが⽣じやすい。 「標本どうしの分散値は等しいか」 ‣1:2程度でも正しい結果が得られないため,そのようなときはWelchの補正を⾏う必要があ る。 標本の⼤きさが⼤きいときには、検定で帰無仮説が採択されやすい ‣n=50の標本どうしの差を検定すると,p<0.0001といった具合にp値が極めて⼩さな値を とることがある。この場合,信頼区間を求めて提⽰し,実質的な差と認めてよいか専⾨的⽴ 場から判断する必要がある 2標本t検定,対応のある検定を⾏って,差がない(=同等である)を積極 的に⽀持したいときはどうすればよいだろうか? ‣差の検定では,「差がない」は積極的に⽀持できず,「差があるとはいえない」と解釈しな ければならない。信頼区間などを活⽤する。 56http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/qa/qadiff.html
  57. 57. 1要因3⽔準以上(⼀元配置分散分析/One-Way ANOVA) 1要因で、条件が3種類以上の場合にはt検定でなく⼀元配置分散分析を⾏う(t検 定は分散分析の⼀部)※パラメトリックの場合 ‣あるデータが全体の平均からどれだけずれているかを、分散を使って表す考え⽅。⼆元配置でも考 え⽅は同じ。 ‣※要因…操作した変数/⽔準…それぞれの要因の条件の種類 ‣⼀般に、⽔準や要因が増えるほど有意差が出にくくなります。むやみに条件を増やすのはよろしく ないです。 57
  58. 58. ⼀元配置分散分析に相当するノンパラ 対応なし…Kruskal-Wallis法 対応あり…Friedman検定 ‣対応のある関連多群の場合,たとえば,ネズミにある物質を投与 する試験で,投与前,投与途中,投与後のパラメータを測定し, ある物質が影響を与えたかどうかを検定する場合,投与前,投与 途中,投与後は同じネズミでのデータが得られるので,「対応が ある」ことになる. 58
  59. 59. ⼀元配置分散分析後の下位検定 ⼀元配置分散分析で分かるのは3つ以上の条件間に「なんらかの違い」があるか どうか ‣有意だった場合には多重⽐較検定を⾏う(※多重性の観点から,多重⽐較の前に分散分析を⾏うことは問題あ りとの指摘がある。次ページ参照) ‣多重⽐較検定により,具体的にどの⽔準とどの⽔準に違いがあるかが分かる. ‣多重⽐較の代わりにt検定を繰り返してはいけない→多重性の問題 59http://www.agri.tohoku.ac.jp/iden/toukei8.html
  60. 60. 分散分析後の多重⽐較法の選定 ‣予備知識のない時はTukeyのHSD法(または Tukey法)を適⽤させる。ここで,健常群と患者 群(脳梗塞群+脳出⾎群)とした平均値どうしも ⽐較したいときは線形対⽐という⼿順が必要なの でScheffe法を適⽤する。Scheffe法は,線形対⽐ を⾏いたいときと分散分析が有意となった場合に 適⽤した⽅がよい。健常群(対照群)と脳梗塞 群,健常群と脳出⾎群の⽐較だけを⾏いたいな ら,Dunnett法が適する。つまり,⼀つの対照群 と他の介在群との⽐較を⾏うときである。また, ⾎圧値が患者群≧脳出⾎群≧脳梗塞群の順序性を持 つと仮定するならばWilliams法が適⽤となる。 60 分散分析の後に多重⽐較法を⾏っているが,これは誤っているといった報告がある。 しかし,統計学の適⽤に関する成書では分散分析の後に多重⽐較法を⾏うというもの が多い。どの⽅法を信⽤したらよいのだろうか?また,多重⽐較法の使い分けは? ‣ 多重⽐較法を適⽤させるときは分散分析を事前に⾏う必要はない。
  61. 61. 多重性の問題は分散分析以外にもある 同じ実験を追試する・測定項⽬が多数ある場合にも検 定を繰り返すことになり、多重性の問題が指摘される ‣ 特に測定項⽬が多い場合の多重性に関しては気づかない場合が多 いので注意 ‣ 条件をむやみに増やすべきでないのと同様、測定項⽬もむやみに 増やすべきではない ‣ 関与する変数が多いときにはパス解析などが有効 61
  62. 62. その他の多重性の問題 分散分析の前に等分散性の検定を⾏っているが, Bartlett検定,Levene検定,Hartley検定のいずれを⽤ いればよいか? ‣A6:検定の後にその結果を⾒て,再度同⼀のデータに検定を⾏うのは 検定の多重性の問題が⽣じる。結論からいえば,分散分析の前に等分 散性の検定を⾏うことは理論的に間違いである。 ‣対策としては,①等分散性の検定はあまり当てにならないので標本分 散の観察と経験的⾒地から判断する,②等分散性の検定の有意⽔準を p=0.1〜0.5の範囲に引き上げる,を考える。これらの⽅法は理論的 に保証されていないが,質問の⽅法に⽐べれば妥当である。 ・・・とする説もあります。 62
  63. 63. 63 2要因の検定(⼆元配置分散分析/Two-Way ANOVA)
  64. 64. 2要因の検定(⼆元配置分散分析/Two-Way ANOVA) 2要因の分散分析では主効果と交互作⽤が分かる ‣主効果:それぞれの要因が独⽴に従属変数に与える影響 - ※単純主効果と主効果は別.単純主効果は,交互作⽤が有意であった場合に単純主効果検定を⾏うこと ではじめてわかる. ‣交互作⽤:それぞれの要因同⼠の関係により影響が変わること 64http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/datakaiseki_folder/05_folder/da05_02.html ‣ 交互作⽤が認められたら,単純主効果の検定を⾏う。 - たとえば要因Aと要因Bの交互作⽤が有意である時,要 因Bのある⽔準での要因Aの効果,要因Aのある⽔準での 要因Bの効果について分析を⾏うこと。 - 単純主効果が有意で,⽔準が3つ以上の場合には多重⽐ 較検定を⾏う。 ‣ 交互作⽤が認められなかったら,主効果について記述 する。 - 主効果が有意で,⽔準が3つ以上の場合には多重⽐較検 定を⾏う。
  65. 65. 2要因のノンパラ 分散分析は等分散性・正規性を仮定しているため,こ れらが満たされない場合にはノンパラ検定をすること になる ‣が,相当する検定はないらしい - http://depts.washington.edu/aimgroup/proj/art/ - ↑でできるらしい ‣分散に関しては頑健であることが知られているため,2要因の場 合はそのまま無理⽮理分散分析をしてしまうことが多い気がする 65
  66. 66. 3要因以上 n元配置分散分析を⾏う ‣交互作⽤が複雑になってくるので注意 - http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/ datakaiseki_folder/05_folder/da05_03.html - http://www.cog.human.nagoya-u.ac.jp/~mits/statistics/ANOVA/ _3factor/_3factor.html ‣要因が増えてくると検出⼒も落ちるので,どうしても必要でない かぎり2要因以内におさえたいところ 66
  67. 67. 参考図書 ‣例などはこれらの本から引いてます ‣時間がない⼈は「⼼理学研究法」の以下のページを読むのがオススメ - p.316(301)〜”⼼理学研究法” 特に323(308)の”有意でない結果” - p.329(314)〜”⼼理統計” - p.349(334)〜”研究報告”-論⽂の書き⽅ 67

×