どうもさぼ(@ce_sabo)です。
昨日は県の技士会で、研究発表をしてきました。
学生時代の同期が僕を含めて4人も発表するという奇跡がありましたw
さて、気を取り直して記事を更新していきます。
研究において、正しいデータの取り扱いや、グラフの表し方、統計学的検定を適切に選択する必要があります。
これができないと、どんなに素晴らしいデザインの研究でも、研究の価値を損なう恐れがあります。
最悪の場合、結果が逆転したりするので、考察や結語すべてが変わってしまい、研究そのものが嘘の報告になってしまう場合があります。
今回は学会への参加や研究論文を読んできたなかで、データの表し方や統計学的検定の選択の明
らかな間違いを指摘していきたいと思います。
残念ながら、臨床工学技士関連の学会等でも、
このような間違いを平気でして研究発表する方、研究論文を書く方が多いです。
今回は項目のみを挙げてみました。
時間があるときに一つずつブログかnoteで説明したいです。
<スポンサーリンク>
正規分布ではないのに平均値±SDでデータを表す
※ここでいう平均とは算術平均のことです。
かなり多いです。
「とりあえず平均値±SD使っておけばいいや。」
「これが基本じゃないの?みんな使っているし。」
という方も多いはず。
しかし、平均値±SDには思いがけない落とし穴があります。
平均値はデータが極端に大きかったり、小さかったりする外れ値が多い場合、
かなり、その値に影響されます。
例えば、
あるデータの群を平均値±SDで表して、
5.5±8.2とかなったとします。
↑の数値で、
平均値+SDはまだ分かりますが、
平均値ーSDをやってみてください。
現実ではありえないマイナスのデータを表してしまうことがあります。
あり得ない話ですけど、体重がマイナスだったら、身長がマイナスだったら、、、
考えるだけで恐ろしいですよね。
正規分布ではないのにパラメトリック検定を使う
パラメトリック検定の代表格といえるt検定ですよね。
みんな大好きt検定。
「とりあえずt検定やっておけばいい。」
という方も多いのではないでしょうか。
学会で研究発表を聞いていたり、論文を読んでいると、t検定が圧倒的に多いです。
僕が個人的な感想として、t検定多いのが不思議で仕方ありません。
生体からとりうるデータは「正規分布に従うものは少ない」というのが一般的だからです。
t検定は正規分布に従わなくとも、ある条件を満たせば頑健性(robustness)を保てる場合もありますが。
詳しくはデータが正規分布するか確認する必要があります。
相関をみたいのに回帰分析を行う
これも意外と多いです。
相関と回帰分析は似ているようで、かなり、というかぜんぜん違うものです。
相関・回帰分析には
相関係数、回帰係数、決定係数
などの係数がありますが、それぞれ違います。
よくある間違いは、
相関をみたい研究なのに、回帰分析(っぽいこと)をして、グラフに回帰式と決定係数を載せたりする場合などです。
発表の時に、「グラフに示す通り、AとBは正の相関がありました。」
と平気で発表したりするのも見受けられます。
さいごに
今回は統計学を勉強してきた中で、実際に学会や論文に散見している3つの間違いを挙げました。
間違いかどうかの判断は元データをみて、どんな方法でデータを解析したかを確認してみないとなんともいえないので、断定できないのが悔しいところですが...。
統計学は研究を支えてくれる土台や基礎となるものです。
統計学的検定はどんな仕組みで、どんな計算をしているかまでは分からなくてもいいと思っています。
ただ、統計学的解析を用いた研究をする場合には、
最低限、結果をねじまげるような間違ったデータの表し方や、間違った統計学的検定の選択は行って欲しくはないです。
研究は本来、科学的な根拠を用いた医療(EBM)を提供するために行われる、
素晴らしいことです。
この記事をみて、少しでも統計学手法の選択やデータの取り扱い方法を気をつけて欲しいと思います。
<スポンサーリンク>