2013-01-09
2013年はやめてほしい、こんな統計相談が嫌だ、実例を添えて
皆さま、あけましておめでとうございます。本年もよろしくお願いします。
なんか書きたい記事はいろいろあるんですけど(シリーズの続きとか、横浜の保育所の話とか)、年始めということで、私のもとに寄せられた統計相談の中から、「こういうのマジ困るんすけど」というネタを個人情報が特定されない範囲でご紹介して、こういうのやめてよね、というお願いとしたいと思います。あ、もちろんリアル世界の私は基本下っ端なので、要求にはできるだけおこたえするように努力はしていますけどもね。レフェリーがわからんちんだったりすることが往々にしてあるので。
有意差が出ないんですけど、どうにかして出せないですか?
これホントに多い。苦情を言い続けた結果、身の回りでは減ってきたけど、始めて修論とか書く学生とかから寄せられるのはだいたいこれ。クリストファー・チャットフィールドという有名な統計学者の論文に出てくる統計関連の人ならよくわかるあるあるとして有名な一節。これ、リアルでもバリバリあります。
Q:何がしたいんです?
A:有意性検定がしたいんです。
Q:そうじゃなくて、全体の目的はなんなんですか?
A:(戸惑いながら)私の結果が有意かどうかが知りたいんです。
というやつ。この人はまだマシで、有意じゃないならしょうがないと思ってる節がある受け答えです。上級者は更に「やってみたら有意差が出ないから、何かいい方法はないか」と聞いてきます。例えば、(実験内容はでたらめです)
Q:薬剤Aの毒性を調べるために濃度を3段階に分けて、10頭ずつのラットに与えて体重の変化を調べて、各群に差があるかを分散分析で検定したら1群と3群ではp=0.05だったんですが、1群と2群、2群と3群では有意差が出なかったんです。何かいい方法はありませんか。例えば2群はなかったことにしてもいいんでしょうかね?*1
私:(クラクラしながら)いやいや、2群はなかったことにってそれあなた、当初の計画ではどういうつもりで3群作ったんです?
Q:マウスでやっていた先行研究がだいたい3群程度を作っていたので、同じような濃度変化でやってみたんですけど。
私:言いたいことはいろいろあるんですけど、そもそも有意差を出したいだけでしたら10頭のマウスを100倍ぐらいにしたらどんな小さな差でも有意になりますよ。どの程度の差があれば問題のある体重変化だと思ってるんですか。
Q:えっ、うーんそうですね・・・。
私:あと検定ですが、1群と2群、2群と3群、1群と3群の差が0という3つの仮説を検定していますけど、多重性の調整をしたら1群と3群の差も有意ではなくなりますよ。
Q:えっと、それは困りますね。
・・・
この人の場合は、先行研究を参考にしてあったので、濃度依存性の効果があるかについての議論はできる、として、最も簡便な方法として回帰分析をかけさせて傾きの大きさを検討する、どうしても検定したいなら傾きが0か否かの検定をする。より実際的にはコクラン・アーミテージの方法かヨンキーの方法で濃度を考慮しながらなお傾向性があるかを検定する、という手順を教えて、検定がしたいのならサンプル数を決めるときにまず、「意味のある差」についてちゃんと考えること、自分が何をしたいのかよくわからないうちから実験を始めてしまわないこと、実験を始める前に相談に来ることなどを伝えて帰っていただきました。
自分野の流儀に妙にこだわる
これねー。生物系の人に多いんですわ。「自分は現象をわかってる」っていう思い込み(言い過ぎ?)。私、始めて生物屋さんの調査に付き合ったとき「えっ?そんな方法でやっていいいの?」と思いましたけど。実際のとこどのくらい乖離してるのかよくわかんないんすけどね。なんか1つのフィールドで3点とか最初からコドラート数が決まってて、コドラートの設置にしても、「代表性が高い場所を選んで設置する」とか言ってて「えー、うそん」と内心ではいっぱい苦情をいいたいんだけども、思ってもなかなか言えない純情を抱えて悶々としてたもんですわ。いつか思い切って「そのサンプリング法で何がわかるかっていうと、”あなたが思うこの地点の代表的なコドラートにいる生物種が何か”に過ぎないんじゃないですか?」と言いたいんですけどね。それなら完全にランダムにフィールド内にコドラートを設置したほうが長期的にはまだマシなのではないかと。
一応生態学の教科書的には種数面積曲線を書いてサチるまで種が出現していることを確認して、フィールドの範囲が定義されて、その中の種の出現頻度とかが知りたいならばそれらに応じたコドラートを設置する、っていうふうにあるべきなんじゃないかと思うんですけどね。実際にリソース的に難しいとしてもまだランダムサンプリングのほうがまだましではないかと。
他には例えば(例によって調査内容はデタラメです)
Q:地域によってある果物の花の数に差があるかどうかを調べたんですが、どういうふうに解析していくのがいいのかご相談したいと思いまして。
私:一つの畑でどのぐらいの株を調べたんですか?
Q:えーとですね、わたしたち専門家の目から見て、「これがいいな」と思う株を5本ずつ選びまして・・・
私:ちょっと待ってください、それってどういう基準で選んでるんです?
Q:ええ。私たちの分野では、統計の先生がたにはご不審なんでしょうが、ランダムサンプリングということはやりませんで、その畑の中で専門家の目で見て最も評価に相応しいと思う株を選ぶのが普通なんです。
私:いや私は全然詳しくないのでちょっと困ってるんですが、どうしてそういうことになってるんです?
Q:いえ果物の株というものはですね、病気であったり、ちょっとした日当たりなんかでですね生育が結構変わってしまうんです。ですから健康な株を5本ほど選ぶんです。
私:それではその病気の出方とかちょっとした日あたりの違いとかが地域間差を生んでいた場合にその効果が除外されちゃうじゃないですか。
Q:いやもちろんそうなんですけれども、我々の分野では・・・
以下エンドレスで自分たちの流儀ではどうだということをおっしゃるかたがたの多いこと多いこと。この方とはどうしても分かり合えなかったのですが、ランダムサンプリングの功徳よりも、自分たちの経験や分野の流儀に従われると私としてはご協力できません、と言いたいのですが、大体が目上の人なのでそう強くも言えず、質問された解析方法についてはお教えしたりするのですが、個人的にはそうやって出てきた結果って、ほんとのとこの実態とどのぐらい乖離してるんだろうっていうのが気になって気になって仕方がないのですよ。ぶっちゃけどの分野でもサンプリングに問題があるデータはどうやってもゴミになると私なんかは思うんですけどね。
SDとSEってどっちがいいんですかーって聞かれたからグラフを見てみると・・・
このSD、SEがらみの質問も多いんです。大体の場合は「それなら信頼区間書くほうがいいよ」と答えることが多いんですが、そういうと書き方がわからないとおっしゃる。一体学部の統計授業はどうなっておるのかと小一時間問いただしたいわけです。そんでもってよくあるのが、「SDとSEってどっちがいいんですか?」っていうやつ。皆さまご存知のとおり、教科書的には標準偏差(SD)は標本の散らばりを示しており、標準誤差(SE)は母集団の推定精度を表しているので、どちらがふさわしいかはあなたがやりたいこと次第ですよ、っていってたんですが、どうも皆さんそういうことをおっしゃってるんじゃなさそう。例えば
Q:いつもSDを使ってるんですが、今やってる解析のこの棒グラフにSDつけたら棒グラフに比べて長すぎてカッコ悪いんでSE使いたいんですけど構わないですか?
私:(やれやれまたいつものか)いやいや、そういうもんじゃなくってですね(と出されたグラフを見ると・・)
私:えーと長すぎるとか以前に、これカウントデータですよね?正規分布してないデータですからSDのエラーバーをつけて0を突き破ってる奴があるじゃないですか。
Q:えっ、それってダメなんですか?
私:いやダメとは言わないですけど、SD使うっていうのは分布が正規分布しているっていう仮定をおいているので、そこはまぁ仕方ないにしても、SDのエラーバーが意味するのは標本の約68%がその範囲内に収まりますよっていうことなので、0を突き破るってのはやっぱりおかしいとは思いませんか?
Q:うーん、難しくてよくわからないんですが、SEなら0以下にまでは伸びませんでしたよ。
私:うん、そういうことじゃなくってですね。とりあえず、このグラフは観測したデータで、記述統計的に使いたいわけですよね?でしたらやっぱり箱ヒゲで書いたり、信頼区間を書いたほうがいいと思いますよ。
Q:でも信頼区間なんて書いてある論文は見たことがないんですが。
私:(嘘つけと思いながら)例えばこの論文とか・・・
みたいなねー。そんで簡単のために変数変換によるポワソンとか二項分布とかの区間推定*2の計算方法を教えて帰すと「できました」とかいって持ってきたやつの上下区間が二項分布なのに(0,1)超えてきたりするところまで含めて様式美。’を変換後変数として(X'±1.96SD')を計算してから逆変換するんだぜ。SD’を求めて1.96倍してから逆変換して±したりするからのミスであることが多いです。
クラスター分析の結果をやたら強調してくる
これは相談されるわけではないので、ちょっと違うんですが。クラスター分析ほど罪作りなものはそうはないと私は思っておるのですが、生物屋さんと暮らしておると、どうも彼らは遺伝子調べて系統樹を書いたらそのツリーは絶対正しいと思ってる節があるんですな。いやそういうもんじゃないですよ、と。自慢じゃないですが、私に任せてもらえれば結構枝の別れ方をいじれますぜ。距離の定義を変えたりアルゴリズムを変えると別れ方が結構変わるってことをご存知ない人が多いんですねー。あと遺伝子を使った系統樹じゃないクラスター分析の場合データの量によってもかなり変えられるので割と自由自在な部分があります。公共の利益のために言いませんけれどもアルゴリズムに関しては伝家の宝刀とも言える必殺技があって、割と自分の気に入るツリーをかけたりするもんです。研究会なんかで「こういうの調べてツリー書いたら、今までこれとあれは全然違うと思われてたけど実は近い」みたいなのをすごい成果のように言われることが多々あって、そういうのって割と自由自在だよねーといつも思っているのであります。クラスター分析っていうのは、なんかの予測とか探索的なことを効率的にやるための道具だと思っといたほうがいいと思ってるんすよ。特に出現傾向とかに関してのときは頼むからブートストラップクラスタリングとか使って枝の信頼度出してくださいね。おじさんからのお願いだよ☆彡
まぁ他にもいろいろあるんですが、定番なのは上の3つあたりすかね。今年もまぁちゃんと相談されたら応えますし、統計学者は私の知る限り親切な人で9割ぐらいできているので、積極的に相談するようにしてくださいね。まぁそんなこんなですが、本年もよろしくお願いします。