統計学メモ
これ is 何
私phykmが
を(7章くらいまで)読んで統計学を学んだ要約というかかなり強めの私見で捻じ曲げた感想です。統計学が何をしようとしているのかの部分だけをオハナシとして把握するために、意図的に具体例と計算技術的な部分をすべて省略しています。具体計算書くのめんどくさくて…
数理統計の本としてはあと竹村氏の本が定評があるようですが、個別のトピックを除けばある程度内容は重複しているように思います。👆の本は演習問題が大量についているので練習に使えて良かったです。
もともと「あー統計学の素養身につけんとナー」と思っていたところに統計検定の存在を知り、それならばと範囲対応してそうな👆の本を真面目に読み始めたのでした。ちなみに検定の方は応用落としそうです(死) せっかく勉強して感銘を受けたトピックが全く出題されなかった(血涙)
あとnoteがTeX対応したということでnote自体を試したかったのもあります。この記事はオハナシ重点なので本格的に数式書いてないですが、今の所はてなブログに比べると多重エスケープで死んだりしないので書きやすいです。(はてなのTeXエスケープはほんとうにつらい)(個人的にはesaのTeX対応がnewcommandもできて非wysiwygで好きです。
統計学がやろうとすること
まず、データのとり得る値の集合があります。これは、例えば有限集合だったり、実数だったり、整数だったり、正実数や正整数だったり、それらの直積だったりします。ひとまずこのデータがとり得る値の集合を
この状況を表現するために、標本の発生源を、(
「母集団という全体集合から標本を抽出する」
という言い方をしますが、これの数学的表現が
「確率測度から確率試行を何度か行う」
ということになります。この確率試行は独立同分布(i.i.d)であるとします。当然ながら、関心のある状況によっては、独立同分布と仮定することが相応しくないことがあります(確率過程など)。この記事ではひとまず独立同分布と考えることが妥当と言えそうな状況で、実際にそれを独立同分布として扱う統計学を考えることにします。
さて、統計学で関心があることは、もちろん母集団の性質です。母集団を確率測度として表現することにしたので、ここで知りたいことは、母集団を統べている「真の確率測度」の性質です。
一方、我々ができることは、あくまで(任意有限回の)母集団の標本抽出です。つまり、この確率測度の試行結果を得ること、そしてそこからなんらかの量を計算することだけです。
ここで重要なことは、母集団を統べている「真の確率測度」は、絶対に知ることができないということです。もし「真の確率測度」が既に分かっているなら、定義上そこから全ての性質を知ることができるので、統計学をやる意味がありません。なんらかの背景理論や、あるいは先験的な考察によって、「真の確率測度」のあり得る可能性が、
我々にできることは、標本抽出、つまりサンプリングして得られた標本
そこで、標本から計算される量のことを統計量と呼びます。サンプル数(標本数)はいくつになるか前もって決めてしまうことは不自然なので、次のような量のことを統計量と定義して良いでしょう。
ここで
という、標本数
この統計量を使って、「真の確率分布」のなんらかの情報を引き出そうというのが統計学の試みだと言えると思います。従ってこれは開かれた問題であり、全ての手法を包括的に述べることは不可能です。
最も原始的な統計の方法として、経験分布を作ってしまうというのがあります。経験分布とは、標本についてのディラック測度の平均であり、これでも真の分布に比較的弱い位相で収束します。つまり、十〜〜〜分に沢山サンプリングできれば、ちゃんと「真の確率分布」を(粗い近似で)言い当てられます。また、
以下では数理統計の教科書でよく取り上げられる、推定と検定について述べます。
ところで「何らかの情報」とはなんでしょうか。これには2種類の捉え方があると思います。
は「真の確率測度」についての「なんらかの情報」のもっとも緩い捉え方だと言えそうです。例えば、実数値上の確率測度なら、期待値、モーメント、特定の事象の確率、特性関数などなど、何でも良いわけです。しかし、あまりに複雑な量を考えると収集がつかないので、ひとまず
もうひとつは、確率測度の背後にモデルを考えている場合です(教科書はほぼこちらが前提だった)。
を考えます。
もう一方の検定ですが、これは真の分布
という関数ということにできそうです。つまり、確率測度に対して、成否がわかるような言明ということです。しかしこれはこれはあまりに扱いづらいため、ここでも先と同様にモデル
検定では、得られたサンプルから、この仮説を維持することが妥当かどうかを検証します。
以下では検定でも推定でもモデルを想定したものを考えますが、細かいことを言えば、モデル
統計量の用い方
推定にせよ、検定にせよ、我々が可能なことは統計量を計算することだけです。しかし、推定と検定で、統計量をどのように設計すべきかという方針は微妙に変わります。
まず推定では、値を得ることが目的であるので、ほしい値がそのまま得られるような統計量を設計できれば望ましいはずです。推定で用いられる統計量を推定量と言います。もちろん統計量の一種なので、標本から計算されます。
推定量については、まず、実際に真の分布が
一方で、仮説検定では、値を得ることが目的ではありません。仮説検定の基本的な戦略とは、
「仮説が正しいとすると、現に得られた標本が得られる確率は非常に稀だ」
という論法でその仮説を棄却することです。この論法で棄却、つまり、否定される側の仮説を帰無仮説と言います。「現に得られた標本が得られる確率」というのは曖昧ですが、これは次のような手続きになっています。
ある種の統計量を計算しておき、仮説の元での統計量の確率分布を求めておきます。その値域の部分集合(事象)として、棄却域を、その仮説の元での確率が小さくなるように取っておきます。実際のサンプルから計算した統計量の値が、棄却域に入ったとき、今起きた事象を稀なものだとみなすこの仮定を棄却します。
つまり、仮説検定においては、帰無仮説を仮定した場合にその確率分布の概形が計算できるように統計量を設計できることが必要です。もし仮説を仮定しても、統計量の分布が絞れないと、棄却域を設定できなくなるからです。仮説検定で用いる統計量を、検定量と呼びます。
もし帰無仮説が、例えば
従って、帰無仮説の間での確率測度の不定性をうまくキャンセルしつつ、棄却域が設計しやすいような検定量を作れるか、そして作ったとして、棄却域をどのように定めるのがよいか、というのが問題になります。
検定では仮説の妥当性を評価することに関心があるため、検定で計算される検定量は、必ずしも解釈性のある量とは限りません。推定量がとる値には、パラメータなり分布の特徴量なりの推定値という具体的な意味がありますが、検定量については仮説からある程度挙動が絞れるような統計量であればどんなものであっても論法としては成立します。
漸近論の重要性
統計量とは、
検定でも推定でも、それぞれ統計量(推定量or検定量)の確率分布が問題になります。しかしモデルや仮説で比較的手に負える確率測度を考えたとしても、一般の統計量の確率分布を計算することは大変です。
ある種の統計量を設計した時に、その漸近挙動がわかれば、推定や検定の、大きな
この意味で、確率変数列としての統計量
推定
推定量
で書きますが、今は独立同分布の状況を考えているため、例えば
を意味することとします。つまり、添字は
モデルを仮定することなく設計可能な推定量の例として、経験平均と不偏分散があります。
推定量としての経験平均は、(分散が存在すれば)確率分布の真の平均周りの正規分布に収束していきます。これを中心極限定理と呼びます。
経験分散の
さらに、実数値確率変数について、順序統計量を考えることができます。順序統計量は、真の確率分布の分位数の推定量として用いることができ、これについても中心極限定理と同様の定理が成り立ちます。すなわち、ルベーグ絶対連続な分布については、順序統計量は対応する分位数まわりの正規分布に漸近することが知られています。
推定量としてどのようなものがありえるか、というのも開かれた問題なので、状況に応じて多様な推定量が考えられ、一概に述べることはできません。
モデルを考える場合、推定量の中で、より「良い」推定量の評価指標を考えることができます。バイアスとバリアンスです。
つまり、モデルが与える確率測度でのパラメータとの差であり、バリアンスは
つまり各モデルパラメータ
このうちバリアンスについての基本的な定理がクラメル・ラオ不等式です。
モデルが真の確率分布をカバーできている限り、バリアンスは小さければ小さいほど、実際の標本から計算した推定量が、真の値に近いことを確率的に保障できます。したがって、小さければ小さいほどよいのですが、これはサンプル数に従う
ここで
このフィッシャー計量は、モデル中のある分布まわりでの、KL距離の2次微分であるため、座標、すなわちパラメータ
比較的汎用性の高い推定アルゴリズムの一つとして、最尤推定があります。モデルの確率密度関数について、引数をcurry化で入れ替えた
を尤度と呼びます。実際に得られた標本についての尤度を
最尤推定は、(モデルが真の分布をカバーしており、その周りでフィッシャー計量が特異でなければ)、真のパラメータの周りの正規分布に漸近し、その分散はクラメル・ラオ不等式のそれに一致します。つまり、最尤推定は、バリアンスの面で最良の推定を、漸近的に達成します。
仮説検定
検定量の構成
既に述べたように、仮説検定の基本的な考えは、
「帰無仮説が正しいとすると、現に得られた標本が得られる確率は稀だ」
というものです。この「稀さ」を有意水準とよび、従って有意水準
検定統計量
T (漸近的にでも)検定量の確率分布をある程度制限するような帰無仮説
\Theta_0 \subset \Theta 帰無仮説の補集合としての対立仮説
\Theta_1 = \Theta_0^c \subset \Theta (漸近的にでも)
\theta \in \Theta_0 \Rightarrow P(R|\theta) \le \alpha を満たす棄却域R (R はT の値域の部分集合である)。
帰無仮説は、単純な状況であれば、非常に強い、例えば具体的に「真の確率分布はコレコレである」という形に取れるかもしれませんが、一般には、それだけでは真の確率分布が決まらず、依然として複数の可能性が残ります。検定量の確率分布が、仮説から決定できないと、棄却域を適当な有意水準に設定することが困難になります。
したがって、検定統計量はまずもって、帰無仮説のもつ真の分布の不定性を棄却域を設定しやすい程度にうまく「絞る」ことが求められます。
「真の確率分布」に正規性を仮定した場合に、t分布、F分布を用いて、次のような検定を考えることができます。これはよく教科書にも登場する例ですが、初学のうちは、t分布、F分布といった、あまり直感的でない確率分布が登場する理由がわかりません(すくなくとも僕はそうでした)。しかし、それぞれの検定状況で「帰無仮説がもつ不定性を絞る」ことを考えると、これらの分布はある程度自然な発想として出てくるものです。
t分布
平均と分散がともに未知であるような正規分布を考えます。
したがって、パラメータの空間は二次元です。
帰無仮説を「平均がある値
a である」と設定します。このサンプルの経験平均
\overline{x} = \sum_i \frac{x_i}{n} を使って、a との差\overline{x}-a を使いたいところですが、分散が未知のため、この確率分布はまだ不定であり、検定量としてはまだ使えません。そこで、分散の不偏推定量である不偏分散を持ってきます。不偏分散は今の状況では分散がかかったχ2乗分布になっています。これで経験平均を割って適度に規格化すると、未知パラメータだった分散が相殺できます。この結果はt分布に従うため、t分布を用いて棄却域の設計へ進むことができます。
F分布
2種類の分布を考えるので、これまでの設定と少し異なりますが、ともに平均は既知で、分散が未知である、2つの正規分布を考えます(これまでの設定にあわせて、独立正規分布2変数の同時分布だと思ってもよいです)。
これらの分散はどちらも未知、つまり、パラメータの空間は、それぞれの分散なので、二次元です。
ここで、帰無仮説を、「両者の分散が一致する」と設定します。
両者のサンプルの経験分散を考えると、それらはそれぞれの分散がかかったχ2乗分布になりますが、分散は未知パラメータのため、このままではふさわしい検定量ではありません。
そこで、この2つの一方で一方を割ると、帰無仮説から、分散は一致するため、未知パラメータが相殺され、帰無仮説がもつ不定性を相殺できます。正規分布の分散を分散で割った量は確定したF分布に従うため、F分布の様子を用いて棄却域の設計へ進むことができます。
これらはあくまで一例です。χ2乗、t、Fなどの名を関した検定は、要するに最終的な検定統計量がそれらの分布に従うような検定の総称です。本質的には、状況と、検定量の設定と、仮説によって、検定量の確率分布が、既知の確率分布
いずれにせよ、以上の例で本質的なのは、仮説と検定量の構成方法によって、検定統計量の分布が確定しているということです。この教科書的な例は、正規性という強い仮定のもとでの議論であり、一般にはモデルをかなりうまく取らなければ、仮説によって綺麗に不定性を相殺することは難しいはずです。
これらの例では、統計量の分布を厳密に書き切れますが、一般の仮説で一般の統計量の正確な分布を評価するのは難しいでしょう。その場合でも、統計量の漸近分布が、既知の確定した分布であれば、十分大きな
このような例となる比較的汎用性の高い検定として尤度比検定があります。尤度比を以下で定義します。
添字しか違いがないので見にくいですが、帰無仮説での最大尤度を仮説全体での最大尤度で割ったものです。この尤度比は、仮説全体の次元が
とχ2乗分布に漸近することが知られているため、漸近的に帰無仮説の不定性を全て帳消しにできます。したがって、サンプル数が十分多ければ、χ2乗分布を用いた棄却域の設計に進むことができます。
他にも、スコア関数
は、中心極限定理によって分散
このように様々な統計量とその漸近挙動が分かっていることは、検定量の構成に本質的です。
第二種エラーによる規準
検定量を構成できそうだとして、棄却域をどのように決めるのが望ましいでしょうか? じつのところ、棄却域を決定する議論では、筆者はあまり腑に落ちていません。というのは、「棄却域は必然的にこれがよい」ということを述べることが一般論としては困難だからです。
典型的には、帰無仮説の元での検定統計量の確率分布が単峰型となるようにし、その裾野側の適当な区間を棄却域にとることが多いでしょう。しかし、なぜその形でなくてはならないのでしょうか? 棄却域を、たとえば不連結な区間をとったり、ピークに近い領域の極薄の領域を取ったとしても、単に不自然ないし慣習に則らないだけで、仮説検定としては問題なく動作するように見えます。どのように棄却域を設定するのが良いかについて、何らかの規準が欲しくなってきます。
帰無仮説の棄却に成功した場合、その論理的補集合である対立仮説を受容することになります。一方で、棄却に失敗した場合、帰無仮説を受容することになります。しかし、本当に帰無仮説を受けれいていいのでしょうか?
実際、有意水準しか保証されていない検定で、棄却に失敗したからといって帰無仮説を受容してよいというのはおかしな話です。検定はいわば背理法の試みのようなもので、背理法に失敗したからといって、もとの主張が正しい保障はありません。
有意水準は、帰無仮説が正しいと仮定した場合に帰無仮定を棄却する確率の上界のことです。したがって、有意水準を小さく保つことは、第一種エラーを小さくすることでした。
一方で、対立仮説についてはこのような評価は何もしていません。そこで対立仮説側についても、立場を反転させた評価を行うことにします。
対立仮説が正しい(帰無仮説が誤り)と仮定した場合に、対立仮説を棄却する(帰無仮説を受容する)確率を考えます。これはいわば第二種エラーです。
これももちろん小さければ小さいほどよいでしょう。これが小さいならば、帰無仮説の棄却に失敗しても、帰無仮説を受容することに一定の正当性が得られます。
同一のモデル/帰無仮説/対立仮説/有意水準をもつ2つの検定
のことと定めます。
検定を強くするには、棄却域を、水準を達成するだけでなく、対立仮説でのその確率
この検定強さ定義は一見自然ですが、曲者です。これはいわば、棄却域の選択の選好順序として、対立仮説空間での「一様順序」を採用したということです。一様順序は、そもそも順序関係を成立させること自体が難しい、非常に粗い順序です。
今の設定では、モデルが真の確率分布をカバーできているという暗黙の仮定を採用しています。
従って、この検定強さ概念によって、「最強の」棄却域が確定する状況というのは、かなり限られてくるということが予想されます。
直感的には、検定をより強くするには、水準を達成する範囲で、棄却域を
帰無仮説での分布が寄っているところを避け
対立仮説での分布が寄っているところをなるべく採る
という戦略が有効に見えます。実際にこの戦略によって最強検定になることを主張するのが、ネイマン・ピアソンの定理ですが、この定理が前提とする制約は、帰無仮説と対立仮説がともに一点、ゼロ次元の状況です。そこまで単純な状況を考えれば、まぁ容易に最強になるだろうというものです。
仮説検定において「帰無仮説が棄却できなかったからと言って、帰無仮説が正しいわけではない」と強調される背景には、このように強さ(第二種エラーの低さ)を保証することが一般に困難であるという事情があるように思えます。
仮説検定での棄却域の理論的必然性を保証することが難しい場合に、どのようにそれが選ばれているのか、筆者には分かっていません。帰無仮説を「安全に」受容することを諦めるしかないのでしょうか?
P値
仮説検定において、
で、定義します。ここでは簡単のために、検定量の棄却域が右(正方向)片側無限区間に取られていると仮定します。このとき、P値は「tを棄却域境界に取った場合の検定の水準」を意味することになります。
もし、
一般的にP値が小さいことは(帰無仮説を棄却したいならば)都合が良いことになります。あるデータからP値を計算したとして、そのP値スレスレの水準の検定までは、そのデータは帰無仮説を棄却できることを意味します。
こう見ると、単に仮説検定の特別な場合において、有意水準との比較で棄却と受容を判断できるようにしただけに見えますが、これを悪用することができます。上記の議論では
この結果として可能になるのがP値ハックであり、もしある実験で帰無仮説を棄却したいと考えているならば、様々なセッティングで類似の実験を行い、そのP値を計算し、その業界での一般的な有意水準を下回ったケースだけ報告することで達成できます。つまり、P値は棄却域と有意水準の設定を先送りにすることで「棄却し損ねる」実験をなかったことにできます。
P値の正しい使い方は、おそらく仮説検定を正しく実行したあとで、その標本の「棄却力」を評価するものだと思います。もしP値が有意水準をぐっと下回っていれば、仮説はある意味「堂々と棄却された」、つまり辛うじて棄却されたのではなく、もっと厳しい水準でも棄却できた位に、余裕で棄却されたということです。
しかしP値の算出自体が一つの確率試行であり、試行を繰り返せば稀な値を得ることが出来ることを考えると、かなり罠というか罪作りな量にも思えてしまいます。
P.S.
数理は無事A評価で通りました。応用は落ちました(´・_・`)
来年よろしくおねがいします。



コメント