見出し画像

リーリエ、博士、ナンジャモどれがいい?~番外編:少ない試行回数で説明する~

目的

前回、コンピュータを用いた確率計算の話をしました。しかし、試行をベースに確率を説明するのにシミュレーションは必ずしも必要ではありません。

今回は「大会に出てめっちゃ事故った人」をテーマに「デッキが悪いのか、その人が不運なのか」を判定するという話をします。

「このデッキの博士つよいわー」とか「ポフィン増やした方が回る気がする」のような主観的な主張を客観的に説明する手掛かりになれば幸いです。

前回の記事

前々回の記事

事案発生

あるプレイヤーAが渾身のデッキを作成して友人Bに渡したところ、「5回戦やって4回事故った。このデッキ回らないよ。」と文句を言われました。
Aは回ると思っています。
Bは回らないと思っています。
「回る」「回らない」と言い合うだけの水掛け論になってしまいました。
このままではけんかになってしまいます。
デッキを客観的に評価して、「回るのか、回らないのか」結論を出しましょう。

双方の主張

A:少なくとも2回に一回、つまり50%以上で回るはずだ
B:どう考えても50%も回らない

信頼区間

「このデッキの回る確率(成功率)はどれぐらいだろうか」というのを見積もるときは信頼区間という考え方を使います。
nを試行回数、pを観測された成功確率とします。zを信頼水準とすると、信頼区間は

下限=\frac{p+\frac{z^2}{2n}-z\sqrt{\frac{p(1-p)}{n}+\frac{z^2}{4n^2}}}{1+\frac{z^2}{n}}

上限=\frac{p+\frac{z^2}{2n}+z\sqrt{\frac{p(1-p)}{n}+\frac{z^2}{4n^2}}}{1+\frac{z^2}{n}}

となります(Wilson信頼区間)
今回は5回中1回成功なのでn=5、p=0.2です。信頼水準というのはその結果を信用できる確率です。よく95%が用いられます。実際に計算に用いるzは正規分布から計算される値で、95%の時はz=1.96です。
これらを代入して計算すると、95%信頼区間は

0.036~0.624

となります。
これの意味としては、5回中1回成功という結果から言えるのは、

「95%の確率で成功率は3.6%と62.4%の間にある」

ということです。

画像
Bの経験から言えること

これは50%を含んでいますね。つまりこれだけではこのデッキが回るか回らないか何とも言えないということです。

5回中4回事故ったというのは残念な結果ですが、1回大会に出た程度ではこのデッキが本当は60%ぐらいでちゃんと回るという可能性を否定できないわけです。

二項検定

違う方法を試してみましょう。先ほどは確率の幅を求めましたが、今度は二人の主張のどちらが正しいかを確かめます。このような操作を検定と呼びます。

検定の基本的な考え方は、「ある仮説(帰無仮説)が正しいと仮定したとき、今得られたデータはどのぐらい起こりやすいか?」という評価を行います。
具体的には、得られた結果以上に極端な結果が出る確率(P値)を求め、それを有意水準と比較することでその仮説を棄却するかを判定します。
とりあえずやってみましょう。まずはAの主張を検定します。

Aの設定

  • 帰無仮説H_0:「成功確率pは50%以下」

  • 対立仮説H_1:「成功確率pは50%より大きい」

  • 有意水準:5%

主張を否定したもの(帰無仮説)を考え、この帰無仮説を棄却できれば本来の主張(対立仮説)を認めるという流れをとります。

計算

成功回数Xは二項分布に従います。

P(X=x)=\binom{n}{x}p^x_0(1-p_0)^{n-x}

右側検定の場合はP値はこのような式で表されます。

P値=\sum_{x=k}^n\binom{n}{x}p^x_0(1-p_0)^{n-x}

ここにn=5、p0=0.5を代入して、

P値=\frac{31}{32}\approx0.969

これは0.05よりも大きいので棄却できません。
よって「50%を超える」とは主張できないことになります。

Bの主張についても同様に計算します。

Bの設定

  • 帰無仮説H_0:「成功確率pは50%以上」

  • 対立仮説H_1:「成功確率pは50%未満」

  • 有意水準:5%

P値は

P値=\frac{6}{32}\approx0.188

よって帰無仮説は棄却できず、「50%未満」と主張できません。

結論

ということで両者の主張を検定した結果、
50%以上とも50%未満とも言えないという結果になりました。

困りましたね。5回中4回事故ったという結果だけでは何も言えません。
そこでBに「もう少しだけ使ってみない?」と提案します。
Bはしぶしぶもう一回このデッキで大会に出ることにしました。
そして帰ってきたBはこう言います。
「おい、またさんざん事故ったぞ。これで10回中8回事故ってることになる。今度こそ回らないと認めろ。」

大会に2回出た後

データが追加されたので、もう一度検定してみます。今度は10回中2回成功です。

信頼区間

計算すると95%信頼区間は
0.057~0.510
まだ0.5は区間内にありますね。

画像
Bの経験から言えること

検定A

P値\approx 0.989
棄却できないので相変わらず「50%以上」と主張はできません。

検定B

P値\approx 0.055
5%の水準に近いですが、棄却できないので相変わらず「50%未満」と主張はできません。有意水準が10%なら「回らない」と言えるのですが惜しいところですね。

まだ何とも言えないねーと話すと、Bは「わかった。ここで一回実演してやる。回らないから。」と宣言して一人回しを始めます。
何もない手札を見せながらあきれた顔で「な?」と言います。

試行回数が増えたことでまた統計結果が変わります。

11回やって9回事故った場合

信頼区間

計算結果:0.051~0.477

ついに50%が95%の信頼区間から外れました。95%の確率で成功率が5.1%~47.7%の間にあるということで回らないデッキと言っていいでしょう。

画像
Bの経験から言えること

検定A

P値\approx 0.994
棄却できないので相変わらず「50%以上」と主張はできません。

検定B

P値\approx 0.032
これは有意水準の0.05を下回っているので帰無仮説である「成功確率pは50%以上」が棄却され、「50%未満」という主張が通ります。
統計的に言うなら

「このデッキが回らないという主張が5%水準で有意」

となります。

これにて「回る回らない」論争に終止符が打たれます。Aは弱いデッキを渡したと認めてBに謝罪します。めでたしめでたし。

注意点

今回は紹介としていろいろやりましたが、信頼区間と検定は大体同じ結果になるのでどちらかやれば十分です。検定についてもA、Bの主張いずれか一方で十分です。詳しくない人に説明するなら信頼区間を算出するのがいいでしょう。
また、今回の話でやったように何度も統計処理を行うというのは本当はよくありません。「欲しい結果が出るまで繰り返す」という操作が出した結果は公平ではなくなってしまいます。実際に統計処理を行う際はなるべくたくさん試行を重ねてから行い、「そんなはずはない」とやり直すようなことはせず、結果を素直に受け入れてください。

終わりに

いかがでしたでしょうか。今回はだいぶ説明を端折ってしまったので理解しにくかったかもしれません。普通にポケカで遊ぶ上で必須の知識というわけでもないので、こういうものがあるんだなあと知っておく程度でもいいと思います。
確率の感覚みたいなところでけんかになりそうになった時に、

「これちゃんと計算したら相手の言ってることが正しいかも」

と落ち着いて考えることができるようになれば十分です。
評価の仕方というのは他にもあるので、興味を持った方はぜひ調べてみてください。

今回は番外編としてタイトルと違う題材を扱いましたが、考え方は全く同じなので

サーナイトデッキを10回一人回しして後1でラルトスが5体出た。期待値0.5って言っていいのかな?

といった設定で信頼区間などを出してみるといい練習になるかもしれません。

①、②、番外編と続けてきた理論的な話はこれにて終了です。
次回はいよいよまとめ編です。

ここから先は

0字

¥ 300

この記事が気に入ったらチップで応援してみませんか?

購入者のコメント

ログイン または 会員登録 するとコメントできます。
リーリエ、博士、ナンジャモどれがいい?~番外編:少ない試行回数で説明する~|なぞなぞ博士
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1