見出し画像

統計学メモ

これ is 何

phykm

を(7章くらいまで)読んで統計学を学んだ要約というかかなり強めの私見で捻じ曲げた感想です。統計学が何をしようとしているのかの部分だけをオハナシとして把握するために、意図的に具体例と計算技術的な部分をすべて省略しています。具体計算書くのめんどくさくて…

数理統計の本としてはあと竹村氏の本が定評があるようですが、個別のトピックを除けばある程度内容は重複しているように思います。👆の本は演習問題が大量についているので練習に使えて良かったです。

もともと「あー統計学の素養身につけんとナー」と思っていたところに統計検定の存在を知り、それならばと範囲対応してそうな👆の本を真面目に読み始めたのでした。ちなみに検定の方は応用落としそうです(死) せっかく勉強して感銘を受けたトピックが全く出題されなかった(血涙) 

あとnoteがTeX対応したということでnote自体を試したかったのもあります。この記事はオハナシ重点なので本格的に数式書いてないですが、今の所はてなブログに比べると多重エスケープで死んだりしないので書きやすいです。(はてなのTeXエスケープはほんとうにつらい)(個人的にはesaのTeX対応がnewcommandもできて非wysiwygで好きです。

統計学がやろうとすること

まず、データのとり得る値の集合があります。これは、例えば有限集合だったり、実数だったり、整数だったり、正実数や正整数だったり、それらの直積だったりします。ひとまずこのデータがとり得る値の集合を X とします。

Xの要素が、沢山手に入るとします。i 番目の要素をx_i \in Xとしましょう。これを標本といいます。手に入りうる標本の数が非常に大きい場合を考えます。実際には、どんなデータも有限個しか得られませんが、そこを抽象化して無限にデータが手に入るとします。この標本がXのうちどの値を取るかは、ランダムで予測ができないとします。データを見ると、Xのうちどの値を取る傾向があるかについては、なにかしらの性質が読み取れる気がします。

この状況を表現するために、標本の発生源を、(X上の)確率測度によって表現します。標本、つまりデータを一つ手に入れる作業は、この確率測度についての確率試行だとみなします。そういうわけで、統計学の文脈では、

「母集団という全体集合から標本を抽出する」

という言い方をしますが、これの数学的表現が

「確率測度から確率試行を何度か行う」

ということになります。この確率試行は独立同分布(i.i.d)であるとします。当然ながら、関心のある状況によっては、独立同分布と仮定することが相応しくないことがあります(確率過程など)。この記事ではひとまず独立同分布と考えることが妥当と言えそうな状況で、実際にそれを独立同分布として扱う統計学を考えることにします。

さて、統計学で関心があることは、もちろん母集団の性質です。母集団を確率測度として表現することにしたので、ここで知りたいことは、母集団を統べている「真の確率測度」の性質です。

一方、我々ができることは、あくまで(任意有限回の)母集団の標本抽出です。つまり、この確率測度の試行結果を得ること、そしてそこからなんらかの量を計算することだけです。

ここで重要なことは、母集団を統べている「真の確率測度」は、絶対に知ることができないということです。もし「真の確率測度」が既に分かっているなら、定義上そこから全ての性質を知ることができるので、統計学をやる意味がありません。なんらかの背景理論や、あるいは先験的な考察によって、「真の確率測度」のあり得る可能性が、X上の確率測度全体よりは小さくとることはありえます。しかし統計学をやる以上、「真の確率測度」は一つには同定できていない、というのが大前提になります。

我々にできることは、標本抽出、つまりサンプリングして得られた標本
x_1 x_2 x_3 \dots から何かを計算することだけです。

そこで、標本から計算される量のことを統計量と呼びます。サンプル数(標本数)はいくつになるか前もって決めてしまうことは不自然なので、次のような量のことを統計量と定義して良いでしょう。

T:\sum_{n=0}^\infty X^n \rightarrow \mathbb{R}

ここでX^nn乗直積集合、その和\Sigmaは集合の直和とします。つまり、実質的には標本数nごとに

T_n : X^n \rightarrow \mathbb{R}

という、標本数nのときの計算規則が独立に与えられえていると考えてよいでしょう。しかしこの添字は煩雑になるので、曖昧さがない場合は省略することとします。

この統計量を使って、「真の確率分布」のなんらかの情報を引き出そうというのが統計学の試みだと言えると思います。従ってこれは開かれた問題であり、全ての手法を包括的に述べることは不可能です。

最も原始的な統計の方法として、経験分布を作ってしまうというのがあります。経験分布とは、標本についてのディラック測度の平均であり、これでも真の分布に比較的弱い位相で収束します。つまり、十〜〜〜分に沢山サンプリングできれば、ちゃんと「真の確率分布」を(粗い近似で)言い当てられます。また、Xが有限集合な場合などで、以下できちんと考えられるような手法が実質的に経験分布上の確率計算に帰着しているということもあります。

以下では数理統計の教科書でよく取り上げられる、推定と検定について述べます。

ところで「何らかの情報」とはなんでしょうか。これには2種類の捉え方があると思います。X上の確率測度全体を\mathcal{P}(X)としましょう。\mathcal{P}(X)上の任意の(部分:定義されないことがある)関数

\eta : \mathcal{P}(X) \rightarrow S?

は「真の確率測度」についての「なんらかの情報」のもっとも緩い捉え方だと言えそうです。例えば、実数値上の確率測度なら、期待値、モーメント、特定の事象の確率、特性関数などなど、何でも良いわけです。しかし、あまりに複雑な量を考えると収集がつかないので、ひとまずSは実数値だとしましょう。つまり、「真の確率測度」が\muであるなら、\eta(\mu)を言い当てることに関心があることになります。

もうひとつは、確率測度の背後にモデルを考えている場合です(教科書はほぼこちらが前提だった)。\theta\mathbb{R}^kの適当な部分集合に値をとる変数とし、これに依存するX上確率測度、あるいは条件付き確率測度としてもよいですが、

P(- | \theta) \in \mathcal{P}(X)

を考えます。\thetaの取りうる範囲を\Theta \subset \mathbb{R}^kとします。P(-|\theta)\thetaに対しては単射であるとしましょう(単射であるような局所的なパラメータ領域を考えます)。 なんらかの事情で、このモデルが真の分布をカバーしていると考えることができるなら、真の確率測度を言い当てるには、モデルP(-|\theta)が真の確率測度に一致するような\thetaがわかればよいです。したがって、そのような\theta, P(-|\theta) = \muを言い当てることに関心があります。

もう一方の検定ですが、これは真の分布\muについての「性質」を考えます。これを仮説といいます。ここでも、非常に広い意味では、仮説とは

H:\mathcal{P}(X)\rightarrow \{0,1\}?

という関数ということにできそうです。つまり、確率測度に対して、成否がわかるような言明ということです。しかしこれはこれはあまりに扱いづらいため、ここでも先と同様にモデルP(-|\theta)を導入します。ここで再び、なんらかの事情で、このモデルが真の分布をカバーしていると考えることができるなら、仮説、とは\Theta上の適当な部分集合の定義関数、あるいは部分集合そのもののこととなります。

検定では、得られたサンプルから、この仮説を維持することが妥当かどうかを検証します。

以下では検定でも推定でもモデルを想定したものを考えますが、細かいことを言えば、モデルP(-|\theta)及び仮説集合\Thetaが真の分布をカバーできているかについてもまた、確証をもつことはできません。なのでここは背景理論ないし先験的な仮定として受け入れることになりますが、この点は現実にはどのように対処しているのかは筆者はまだ不勉強なのでわかりません。

統計量の用い方

推定にせよ、検定にせよ、我々が可能なことは統計量を計算することだけです。しかし、推定と検定で、統計量をどのように設計すべきかという方針は微妙に変わります。

まず推定では、値を得ることが目的であるので、ほしい値がそのまま得られるような統計量を設計できれば望ましいはずです。推定で用いられる統計量を推定量と言います。もちろん統計量の一種なので、標本から計算されます。

推定量については、まず、実際に真の分布がP(-|\theta)であったときに、ちゃんと\thetaのまわりに収束していくものが良い推定量です。この意味での良い推定量を作れるかどうか、というのが問題になります。

一方で、仮説検定では、値を得ることが目的ではありません。仮説検定の基本的な戦略とは、

「仮説が正しいとすると、現に得られた標本が得られる確率は非常に稀だ」

という論法でその仮説を棄却することです。この論法で棄却、つまり、否定される側の仮説を帰無仮説と言います。「現に得られた標本が得られる確率」というのは曖昧ですが、これは次のような手続きになっています。

ある種の統計量を計算しておき、仮説の元での統計量の確率分布を求めておきます。その値域の部分集合(事象)として、棄却域を、その仮説の元での確率が小さくなるように取っておきます。実際のサンプルから計算した統計量の値が、棄却域に入ったとき、今起きた事象を稀なものだとみなすこの仮定を棄却します。

つまり、仮説検定においては、帰無仮説を仮定した場合にその確率分布の概形が計算できるように統計量を設計できることが必要です。もし仮説を仮定しても、統計量の分布が絞れないと、棄却域を設定できなくなるからです。仮説検定で用いる統計量を、検定量と呼びます。

もし帰無仮説が、例えば\theta = \theta_0のような、特定の確率分布を指定するようなものであれば、仮説のもとでの検定量の分布は、どのように検定量を作ったとしても確定するので、検定量を作りやすくなるでしょう。しかし、帰無仮説は否定されるように設定されることを考えると、一点決め打ちの仮説というのは、否定されてもほんの一点の可能性を潰せるのみです。

従って、帰無仮説の間での確率測度の不定性をうまくキャンセルしつつ、棄却域が設計しやすいような検定量を作れるか、そして作ったとして、棄却域をどのように定めるのがよいか、というのが問題になります。

検定では仮説の妥当性を評価することに関心があるため、検定で計算される検定量は、必ずしも解釈性のある量とは限りません。推定量がとる値には、パラメータなり分布の特徴量なりの推定値という具体的な意味がありますが、検定量については仮説からある程度挙動が絞れるような統計量であればどんなものであっても論法としては成立します。

漸近論の重要性

統計量とは、n個の標本から計算されるような量でした。標本が未知の確率測度によって確率的に揺らいでいるということは、当然ながら、統計量も確率的に揺らぐ可能性があるということです。

検定でも推定でも、それぞれ統計量(推定量or検定量)の確率分布が問題になります。しかしモデルや仮説で比較的手に負える確率測度を考えたとしても、一般の統計量の確率分布を計算することは大変です。

ある種の統計量を設計した時に、その漸近挙動がわかれば、推定や検定の、大きなnでの振る舞いから、近似的に検定を実行したり、推定の評価が可能になります。

この意味で、確率変数列としての統計量T_nがどのような振る舞いをするか(漸近挙動)を捉えることが重要になってきます。

推定

推定量Tについて、その確率平均を行うため、いくつか記法を設定します。確率測度\nuについての平均を

\mathbb{E}_\nu\left[ - \right]

で書きますが、今は独立同分布の状況を考えているため、例えばn標本の統計量T_n : X^n\rightarrow \mathbb{R}についての平均を取る場合

\mathbb{E}_\nu\left[ T_n \right] = \int\dots \int T_n(x_1,x_2\dots x_n) \Pi_{i=1}^nd\nu(x_i)

を意味することとします。つまり、添字は\nuとしか書きませんが、実際には引数が依存している数だけのx_iについて、\nu^nの測度で積分します。

モデルを仮定することなく設計可能な推定量の例として、経験平均と不偏分散があります。

推定量としての経験平均は、(分散が存在すれば)確率分布の真の平均周りの正規分布に収束していきます。これを中心極限定理と呼びます。

経験分散の\frac{n}{n-1}倍は不偏分散と呼ばれ、(4次モーメントが存在すれば)これも真の分散周りの正規分布に漸近していきます。

さらに、実数値確率変数について、順序統計量を考えることができます。順序統計量は、真の確率分布の分位数の推定量として用いることができ、これについても中心極限定理と同様の定理が成り立ちます。すなわち、ルベーグ絶対連続な分布については、順序統計量は対応する分位数まわりの正規分布に漸近することが知られています。

推定量としてどのようなものがありえるか、というのも開かれた問題なので、状況に応じて多様な推定量が考えられ、一概に述べることはできません。

モデルを考える場合、推定量の中で、より「良い」推定量の評価指標を考えることができます。バイアスとバリアンスです。

\mathrm{Bias}_\theta(T) =  \mathbb{E}_{P(-|\theta)}\left[ T \right]  - \theta

つまり、モデルが与える確率測度でのパラメータとの差であり、バリアンスは

\mathrm{Var}_\theta(T) =  \mathbb{E}_{P(-|\theta)}\left[ \left(T-\mathbb{E}_{P(-|\theta)}\left[ T \right] \right)^2 \right]

つまり各モデルパラメータ\thetaごとの、モデルが与える確率測度での分散のことです。バイアスがないことを不偏といいます。先に上げたモデルを考えない推定での「不偏」という修辞もこの意味です。

このうちバリアンスについての基本的な定理がクラメル・ラオ不等式です。

\mathrm{Var}_\theta(T) \ge \frac{1}{n I_{\theta}}

モデルが真の確率分布をカバーできている限り、バリアンスは小さければ小さいほど、実際の標本から計算した推定量が、真の値に近いことを確率的に保障できます。したがって、小さければ小さいほどよいのですが、これはサンプル数に従うn^{-1}オーダーの限界があり、しかもその係数はモデルから計算できるフィッシャー計量I_{\theta}によってバウンドされるということです。

I_\theta =  \mathbb{E}_{P(-|\theta)}\left[ \left(\frac{d}{d\theta} \log p(-|\theta) \right)^2\right]

ここでp(-|\theta)P(-|\theta)の確率密度関数とする。これが存在するために、パラメータ\thetaによってはP(-|\theta)のサポートは変わらないと仮定します。

このフィッシャー計量は、モデル中のある分布まわりでの、KL距離の2次微分であるため、座標、すなわちパラメータ\thetaのとり方には依存しない幾何学的量です。このため、この限界はパラメタの置き換えでは突破できません。

比較的汎用性の高い推定アルゴリズムの一つとして、最尤推定があります。モデルの確率密度関数について、引数をcurry化で入れ替えた

L(\theta|x_1,x_2,\dots) = \Pi_{i} p(x_i|\theta)

を尤度と呼びます。実際に得られた標本についての尤度を\thetaについて最大化するときの\thetaを推定値とするものを最尤推定といいます。

最尤推定は、(モデルが真の分布をカバーしており、その周りでフィッシャー計量が特異でなければ)、真のパラメータの周りの正規分布に漸近し、その分散はクラメル・ラオ不等式のそれに一致します。つまり、最尤推定は、バリアンスの面で最良の推定を、漸近的に達成します。

仮説検定

検定量の構成

既に述べたように、仮説検定の基本的な考えは、

「帰無仮説が正しいとすると、現に得られた標本が得られる確率は稀だ」

というものです。この「稀さ」を有意水準とよび、従って有意水準\alphaの検定とは、次の要素によって特徴づけられます。

  • 検定統計量T

  • (漸近的にでも)検定量の確率分布をある程度制限するような帰無仮説\Theta_0 \subset \Theta

  • 帰無仮説の補集合としての対立仮説\Theta_1 = \Theta_0^c \subset \Theta

  • (漸近的にでも)\theta \in \Theta_0 \Rightarrow P(R|\theta) \le \alphaを満たす棄却域R(RTの値域の部分集合である)。

帰無仮説は、単純な状況であれば、非常に強い、例えば具体的に「真の確率分布はコレコレである」という形に取れるかもしれませんが、一般には、それだけでは真の確率分布が決まらず、依然として複数の可能性が残ります。検定量の確率分布が、仮説から決定できないと、棄却域を適当な有意水準に設定することが困難になります。

したがって、検定統計量はまずもって、帰無仮説のもつ真の分布の不定性を棄却域を設定しやすい程度にうまく「絞る」ことが求められます。

「真の確率分布」に正規性を仮定した場合に、t分布、F分布を用いて、次のような検定を考えることができます。これはよく教科書にも登場する例ですが、初学のうちは、t分布、F分布といった、あまり直感的でない確率分布が登場する理由がわかりません(すくなくとも僕はそうでした)。しかし、それぞれの検定状況で「帰無仮説がもつ不定性を絞る」ことを考えると、これらの分布はある程度自然な発想として出てくるものです。

  • t分布

    • 平均と分散がともに未知であるような正規分布を考えます。

    • したがって、パラメータの空間は二次元です。

    • 帰無仮説を「平均がある値aである」と設定します。

    • このサンプルの経験平均\overline{x} = \sum_i \frac{x_i}{n}を使って、aとの差\overline{x}-aを使いたいところですが、分散が未知のため、この確率分布はまだ不定であり、検定量としてはまだ使えません。

    • そこで、分散の不偏推定量である不偏分散を持ってきます。不偏分散は今の状況では分散がかかったχ2乗分布になっています。これで経験平均を割って適度に規格化すると、未知パラメータだった分散が相殺できます。この結果はt分布に従うため、t分布を用いて棄却域の設計へ進むことができます。

  • F分布

    • 2種類の分布を考えるので、これまでの設定と少し異なりますが、ともに平均は既知で、分散が未知である、2つの正規分布を考えます(これまでの設定にあわせて、独立正規分布2変数の同時分布だと思ってもよいです)。

    • これらの分散はどちらも未知、つまり、パラメータの空間は、それぞれの分散なので、二次元です。

    • ここで、帰無仮説を、「両者の分散が一致する」と設定します。

    • 両者のサンプルの経験分散を考えると、それらはそれぞれの分散がかかったχ2乗分布になりますが、分散は未知パラメータのため、このままではふさわしい検定量ではありません。

    • そこで、この2つの一方で一方を割ると、帰無仮説から、分散は一致するため、未知パラメータが相殺され、帰無仮説がもつ不定性を相殺できます。正規分布の分散を分散で割った量は確定したF分布に従うため、F分布の様子を用いて棄却域の設計へ進むことができます。

これらはあくまで一例です。χ2乗、t、Fなどの名を関した検定は、要するに最終的な検定統計量がそれらの分布に従うような検定の総称です。本質的には、状況と、検定量の設定と、仮説によって、検定量の確率分布が、既知の確率分布\nuになるならば、それは\nu検定だと言えるでしょう。

いずれにせよ、以上の例で本質的なのは、仮説と検定量の構成方法によって、検定統計量の分布が確定しているということです。この教科書的な例は、正規性という強い仮定のもとでの議論であり、一般にはモデルをかなりうまく取らなければ、仮説によって綺麗に不定性を相殺することは難しいはずです。

これらの例では、統計量の分布を厳密に書き切れますが、一般の仮説で一般の統計量の正確な分布を評価するのは難しいでしょう。その場合でも、統計量の漸近分布が、既知の確定した分布であれば、十分大きなnについては統計量がすでに漸近分布にあるものとして近似的に検定を実行することができます。

このような例となる比較的汎用性の高い検定として尤度比検定があります。尤度比を以下で定義します。

\Lambda(x_1,\dots) = \frac{\sup_{\theta \in \Theta_0}L(\theta|x_1,\dots) }{\sup_{\theta \in \Theta}L(\theta|x_1,\dots) }

添字しか違いがないので見にくいですが、帰無仮説での最大尤度を仮説全体での最大尤度で割ったものです。この尤度比は、仮説全体の次元がmで、帰無仮説の次元がkの場合、

-2\log \Lambda \sim \chi^2_{m-k}

とχ2乗分布に漸近することが知られているため、漸近的に帰無仮説の不定性を全て帳消しにできます。したがって、サンプル数が十分多ければ、χ2乗分布を用いた棄却域の設計に進むことができます。

他にも、スコア関数

S(\theta | x_1,x_2\dots) =\sum_{i} \frac{d}{d\theta} \log p(x_i|\theta)

は、中心極限定理によって分散\sqrt{nI_\theta}の正規分布に漸近するため、これも正規分布に基づく検定が可能になります。ただし、尤度比が帰無仮説空間の不定性をきちんと潰せたのに対して、スコア検定の帰無仮説はパラメータ一点なので、棄却できても大して仮説空間を削ってはくれません。

このように様々な統計量とその漸近挙動が分かっていることは、検定量の構成に本質的です。

第二種エラーによる規準

検定量を構成できそうだとして、棄却域をどのように決めるのが望ましいでしょうか? じつのところ、棄却域を決定する議論では、筆者はあまり腑に落ちていません。というのは、「棄却域は必然的にこれがよい」ということを述べることが一般論としては困難だからです。

典型的には、帰無仮説の元での検定統計量の確率分布が単峰型となるようにし、その裾野側の適当な区間を棄却域にとることが多いでしょう。しかし、なぜその形でなくてはならないのでしょうか? 棄却域を、たとえば不連結な区間をとったり、ピークに近い領域の極薄の領域を取ったとしても、単に不自然ないし慣習に則らないだけで、仮説検定としては問題なく動作するように見えます。どのように棄却域を設定するのが良いかについて、何らかの規準が欲しくなってきます。

帰無仮説の棄却に成功した場合、その論理的補集合である対立仮説を受容することになります。一方で、棄却に失敗した場合、帰無仮説を受容することになります。しかし、本当に帰無仮説を受けれいていいのでしょうか?

実際、有意水準しか保証されていない検定で、棄却に失敗したからといって帰無仮説を受容してよいというのはおかしな話です。検定はいわば背理法の試みのようなもので、背理法に失敗したからといって、もとの主張が正しい保障はありません。

有意水準は、帰無仮説が正しいと仮定した場合に帰無仮定を棄却する確率の上界のことです。したがって、有意水準を小さく保つことは、第一種エラーを小さくすることでした。

一方で、対立仮説についてはこのような評価は何もしていません。そこで対立仮説側についても、立場を反転させた評価を行うことにします。

対立仮説が正しい(帰無仮説が誤り)と仮定した場合に、対立仮説を棄却する(帰無仮説を受容する)確率を考えます。これはいわば第二種エラーです。

これももちろん小さければ小さいほどよいでしょう。これが小さいならば、帰無仮説の棄却に失敗しても、帰無仮説を受容することに一定の正当性が得られます。

同一のモデル/帰無仮説/対立仮説/有意水準をもつ2つの検定C_1,C_2について、その棄却域をR_1,R_2とします。ここで、検定C_1C_2より強いとは

\forall \theta \in \Theta_1, P(R_1|\theta)\ge P(R_2|\theta)

のことと定めます。1-P(R|\theta)は対立仮説\theta \in \Theta_1での第二種エラーの確率なので、これは先の直観を反映しています。

検定を強くするには、棄却域を、水準を達成するだけでなく、対立仮説でのその確率P(R|\theta),\theta \in \Theta_1がより大きくなるようにとることが求められます。対立仮説での検定量確率分布のピークが、帰無仮説でのそれよりも離れた位置にあるような(非常に「都合の良い」)状況であれば、棄却域が帰無仮説での分布の裾野に採るべきである理由を説明できます。すなわち、対立仮説での分布ピークは帰無仮説の分布ピークとは別の場所だから、というのがその理由です。

この検定強さ定義は一見自然ですが、曲者です。これはいわば、棄却域の選択の選好順序として、対立仮説空間での「一様順序」を採用したということです。一様順序は、そもそも順序関係を成立させること自体が難しい、非常に粗い順序です。

今の設定では、モデルが真の確率分布をカバーできているという暗黙の仮定を採用しています。Xの大きさ次第ではこれはすでに相当強い仮定です。そこから、検定量を帰無仮説の不定性によらず構成しますが、あまりに帰無仮説が弱い場合、検定の構成は難しくなるため、帰無仮説はある程度強く取る必要があるでしょう。そうすると当然残りの自由度は論理的補集合である対立仮説に押し付けられます。しかし、対立仮説の大きさは、そのまま検定の強さ関係の成立を難しくします。

従って、この検定強さ概念によって、「最強の」棄却域が確定する状況というのは、かなり限られてくるということが予想されます。

直感的には、検定をより強くするには、水準を達成する範囲で、棄却域を

  • 帰無仮説での分布が寄っているところを避け

  • 対立仮説での分布が寄っているところをなるべく採る

という戦略が有効に見えます。実際にこの戦略によって最強検定になることを主張するのが、ネイマン・ピアソンの定理ですが、この定理が前提とする制約は、帰無仮説と対立仮説がともに一点、ゼロ次元の状況です。そこまで単純な状況を考えれば、まぁ容易に最強になるだろうというものです。

仮説検定において「帰無仮説が棄却できなかったからと言って、帰無仮説が正しいわけではない」と強調される背景には、このように強さ(第二種エラーの低さ)を保証することが一般に困難であるという事情があるように思えます。

仮説検定での棄却域の理論的必然性を保証することが難しい場合に、どのようにそれが選ばれているのか、筆者には分かっていません。帰無仮説を「安全に」受容することを諦めるしかないのでしょうか?

P値

仮説検定において、x_1,x_2,\dotsを標本とし、それによる統計量の値がt=T(x_1,x_2,\dots)であるとする。P値を

p(t) = \sup_{\theta \in \Theta_0} P(T \ge t |\theta)

で、定義します。ここでは簡単のために、検定量の棄却域が右(正方向)片側無限区間に取られていると仮定します。このとき、P値は「tを棄却域境界に取った場合の検定の水準」を意味することになります。

もし、tを標本から具体的に計算したとして、そのP値がp(t)だったとしましょう。この時点では、棄却域(の境界)をまだ決めていないとします。この検定の目標とする有意水準が\alphaだとします。このとき、p(t)は減少関数なので、p(t) > \alphaであれば、t < p^{-1}(\alpha)となり、R =p^{-1}([0,\alpha]) とした検定は帰無仮説を受容することになります。逆に、p(t) < \alphaであれば、帰無仮説を棄却できます。

一般的にP値が小さいことは(帰無仮説を棄却したいならば)都合が良いことになります。あるデータからP値を計算したとして、そのP値スレスレの水準の検定までは、そのデータは帰無仮説を棄却できることを意味します。

こう見ると、単に仮説検定の特別な場合において、有意水準との比較で棄却と受容を判断できるようにしただけに見えますが、これを悪用することができます。上記の議論では\alphaは任意だったので、標本抽出を終えて、検定量を計算した後で「どの水準の検定までならこの結果で棄却できるか」をP値は計算できることになります。その設定した水準での棄却域も決定できます。

この結果として可能になるのがP値ハックであり、もしある実験で帰無仮説を棄却したいと考えているならば、様々なセッティングで類似の実験を行い、そのP値を計算し、その業界での一般的な有意水準を下回ったケースだけ報告することで達成できます。つまり、P値は棄却域と有意水準の設定を先送りにすることで「棄却し損ねる」実験をなかったことにできます。

P値の正しい使い方は、おそらく仮説検定を正しく実行したあとで、その標本の「棄却力」を評価するものだと思います。もしP値が有意水準をぐっと下回っていれば、仮説はある意味「堂々と棄却された」、つまり辛うじて棄却されたのではなく、もっと厳しい水準でも棄却できた位に、余裕で棄却されたということです。

しかしP値の算出自体が一つの確率試行であり、試行を繰り返せば稀な値を得ることが出来ることを考えると、かなり罠というか罪作りな量にも思えてしまいます。

P.S. 
数理は無事A評価で通りました。応用は落ちました(´・_・`)
来年よろしくおねがいします。


いいなと思ったら応援しよう!

ピックアップされています

統計・データサイエンス

  • 6本

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
統計学メモ|phykm
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1