Your SlideShare is downloading. ×
データ解析のための勉強会第7章
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

データ解析のための勉強会第7章

2,041
views

Published on


0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,041
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
29
Comments
0
Likes
11
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 第7章 一般化線形混合モデル(GLMM) 「データ解析のための統計モデリング入門」読書会
  • 2. 所沢義男 • ところさわよしお • twitter:やってません • Facebook:やってません • Yo:DAISUKEI
  • 3. 今日これだけは覚える •  擬似反復があるならランダム効果を考慮 •  その時、GLMは一般化線形混合モデル (GLMM)になる •  GLMMは計算が面倒
  • 4. これまでとこれから http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html
  • 5. 本題へ
  • 6. 7.1 例題の説明 •  架空植物の各個体から8個の種子をとって くる •  生存種子数は葉数とともにどのように増 大するか •  個体数は100 •  データは本書のサポートサイトから入手 –  以下の条件のもと発生させたデータ(おそらく) •  結実確率→傾き1 切片-4(+ランダム効果)のロジ スティックモデル •  ランダム効果→平均0標準偏差3の正規分布
  • 7. 図にするとこうなる 死 死 架空植物 ×100 関係が 気になる 葉の数 生存種子数
  • 8. 元のデータ及び真の曲線 葉の数 生 存 種 子 数
  • 9. GLMでモデリングしてみる 種子の生存確率 葉の数
  • 10. GLMでモデリングしてみる > d <- read.csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/ fig/glmm/data.csv", as.is=TRUE) > glm(data=d, cbind(y,N-y)~x, family="binomial") Call: glm(formula = cbind(y, N - y) ~ x, family = "binomial", data = d) Coefficients: (Intercept) x -2.1487 0.5104 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 607.4 Residual Deviance: 513.8 AIC: 649.6 切片:-2.1487 傾き:0.5104 ここで 真の切片:-4 真の傾き:1
  • 11. GLMうまくいかず 欲しかったもの 現実 葉の数 生 存 種 子 数
  • 12. 全然二項分布じゃない 葉の数4枚の場合の生存種子数と個体数の関係 生存種子数 個 体 数 GLMの 結果から 求めた 二項分布
  • 13. どうしてこうなった
  • 14. 7.2 過分散と個体差 •  過分散 –  データから得られる分散が平均から推定される分散に比べて大き すぎる •  過分散とは統計モデリングしている人間の錯誤 –  観測されていない諸要因を無視するなど過度に単純化した仮定 •  観測されていない諸要因とは –  生物的な要因(遺伝子、年齢や履歴)→個体差 –  非生物的な局所環境(局所的な栄養塩類量等)→場所差 –  原因不明のまま影響をうまくとりこむ必要がある
  • 15. 図にするとこうなる 自然 個体差を 無視 錯誤 無知 傲�慢 過分散 罠
  • 16. じゃあどうする
  • 17. 7.3 一般化線形混合モデル 個体差として追加 個体間で独立した正規分布 平均は0 標準偏差はsとして任意に設定 切片にランダム効果を追加→ランダム切片モデル 傾きに追加すれば→ランダム傾きモデル
  • 18. 個体差で生存確率は変わる 生 存 確 率 葉の数 個体差がプラスの時 個体差がマイナスの時
  • 19. 線形予測子の構成要素 固定効果 ランダム効果 なにを固定効果として なにをランダム効果と するか?
  • 20. ちなみにGLMMの色々な呼び名 •  分野によって呼び名が異なる – 階層線形モデル(HLM) – マルチレベルモデル – ランダム効果モデル – 成長曲線モデル •  類書や資料を探すときはGLMM以外にも上 記の名前で検索するとよい
  • 21. ランダム効果を入れるのは わかったが どうやって計算する
  • 22. 7.4 一般化線形混合モデルの最尤推定 •  個体差のパラメータを推定するのはナンセンス –  100個体あれば個体差を100個推定することになる •  個体差を積分して各個体の尤度を算出 •  各個体の尤度を個体数分掛け合わせて最尤推定する •  以上の手順は今回のようなシンプルなモデルが限界 –  多くの積分を含む計算は実に面倒 –  本書ではその処方箋としてベイズを用意
  • 23. 図にするとこうなる 二項分布 正規分布 積分して 1個体分の 尤度 100個体分 掛け合わせて 対数化して 最大にする パラメータを求める 怠惰 諦念 計算負荷高い 二項分布 正規分布 積分して 1個体分の 尤度 二項分布 正規分布 積分して 1個体分の 尤度
  • 24. GLMMのパラメータを推定 > library(glmmML) > glmmML(data=d, cbind(y, N-y)~x, family = binomial, cluster = id, method="ghq") Call: glmmML(formula = cbind(y, N - y) ~ x, family = binomial, data = d, cluster = id, method = "ghq") coef se(coef) z Pr(>|z|) (Intercept) -4.1296 0.9055 -4.561 5.10e-06 x 0.9903 0.2141 4.625 3.75e-06 Scale parameter in mixing distribution: 2.494 gaussian Std. Error: 0.3093 LR p-value for H_0: sigma = 0: 1.792e-56 Residual deviance: 264.5 on 97 degrees of freedom AIC: 270.5
  • 25. うまくいっている 真のモデル GLM(青) 葉の数 生 存 種 子 数 GLMM(赤)
  • 26. GLMMはどんなときに 必要なのか
  • 27. 7.5 現実のデータ解析にはGLMMが必要 •  今回は過分散でチェックした •  現実には厳密な実験計画を実施した場合 を除いて、擬似反復という状況になり GLMMが必要になることが多い
  • 28. 反復と擬似反復 •  個体差等が見えてしまうかどうか – みえない:反復 – みえる:擬似反復 •  言い換えればそのデータはネストされてい る(入れ子)か – ネストあり:擬似反復 •  実験計画とは反復にして個体差、場所差を 考えないで良いようにすること – 実験計画法の三原則(局所管理化・反復・無作為化)
  • 29. 図にするとこうなる 個体に種子がネスト→個体差がみえる 壱 弐
  • 30. じゃあこの場合は 学校に個人がネスト ↓ 学校差がみえるが固定効果でも良いのでは? モテ モテ モテ 非モテ 非モテ 非モテ K大学 D大学
  • 31. 固定効果とランダム効果をどう区別するか •  効果の大きさに興味あるんだろうか? →Yes なら固定効果 •  その要因の水準ってのが「効果のばらつきの確率分布」 に由来するものだと考えるのは妥当だろうか? →Yes ならランダム効果 •  要因の水準数が十分多くて分散を推定したいのか? →No ならその要因は固定効果 •  下記URLに他にも区別する目安が9つ紹介されている •  http://hosho.ees.hokudai.ac.jp/~kubo/ce/ RandomEffectsCrawley.html
  • 32. 7.6 いろいろな分布のGLMM •  過分散で個体差をチェックしたが過分散 が定義できない分布の場合はどうするか – 正規分布やガンマ分布 – 平均と分散が別個に定義される •  過分散はあくまで一例としてとりあげたの みであり、擬似反復が本質的に重要
  • 33. 図にするとこうなる GGLLMMMM GGLLMM 擬似反復の データ YYeess NNoo
  • 34. まとめ •  擬似反復があるなら個体差を考慮 •  個体差を考慮した場合、GLMは一般化線形 混合モデル(GLMM)になる •  GLMMは計算が面倒
  • 35. 最後に
  • 36. 参考にした情報(書籍) •  医学統計のための線型混合モデル G.Verbeke –  事例が多く解説も丁寧だがSAS –  絶版 •  一般化線形モデル 粕谷英一 –  第6章に一般化線形混合モデルの解説あり。Rの関連 パッケージの詳しい説明があるので手を動かす時に 一読をおすすめする。 •  一般化線形モデル入門 Annette J.Dobson –  第11章にクラスターデータおよび経時データへの対 応としてGLMMが紹介されている。数式で簡潔に表現 されておりわかりやすい。
  • 37. 参考にした情報(WEB) •  Wolfeyes Bioinformatics –  秀逸な混合分布のアニメーション –  http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/ –  GLMMとGLMの比較をシミュレーションで –  http://yagays.github.io/blog/2012/11/02/glm-mcmc-chp7/ •  MIZUMOTO LABLOG –  GLMM(ここでは階層線型モデル)についてのわかりやすい資料 あり。また、関連資料がまとまっていてリンク集としても非常 に有用 –  http://mizumot.com/lablog/archives/179