Contents ...
udn網路城邦
看電影學統計: p值的陷阱
2016/12/08 12:23
瀏覽89,732
迴響1
推薦5
引用0

社會科學論叢2016年10月第十卷第二期

社會科學前沿課題論壇
林澤民
看電影學統計: p值的陷阱
The Pitfalls of p-Values

院長、陳老師,各位老師、各位同學,今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。我今年回來,今天是第六個演講,六月中之前還有兩個,一共八個,其中四個是談賽局理論,四個是談p值的問題。賽局理論的部分,題目都不一樣,譬如我在政大公行系講賽局理論在公行方面的應用,而我第一個演講在台大地理系,談賽局理論在電影裏的應用。我在台大總共講了三部電影,一部是「史密斯任務」,講男女關係、夫妻關係;第二部是「少年pi的奇幻漂流」,講少年和老虎對峙的重覆性賽局;第三部電影是最新的電影:「刺客聶隱娘」,講國際關係賽局。今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是「玉蘭花」,另一部則是「班傑明的奇幻旅程」,這兩部電影都有助於我們來瞭解今天要談論的主題:p值的陷阱。

科學的統計學危機

為什麼要談論p值的問題?因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是p值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman寫了篇文章,叫作The Statistical Crisis in Science–「科學的統計學危機」,說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。

投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對p值有各種誤解跟誤用。現在很多人談到「p值的危險」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學術期刊,也開始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學期刊,已經決定以後文章都不能使用p值,大家能夠想像嗎?我們作計量研究,都是用p值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據p值檢定做出來的研究成果都是錯的,有人更宣告p值已經死了。所以這是一個很嚴重的問題。在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於p值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。可是在今年,ASA真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括p值的真正的意義,以及大家如何誤用,換句話說就是:p值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠p值來決定。大家就應該了解這問題影響有多大、多嚴重!

圖一

我舉個例子,最近在台灣,大家都知道我們中研院翁院長涉入了浩鼎案,浩鼎案之所以出問題,就是因為解盲以後,發現實驗的結果不顯著。我今天不想評論浩鼎案,但就我的了解,食藥署、或者美國的FDA,他們在批准一項新藥時,一定要看實驗的結果,而且實驗結果必須在統計上要顯著。可是ASA卻告訴我們說,決策不該只根據統計的顯著性,大家就可想像這影響會有多大。甚至有其他這裡沒有列出來的文章,提到為何我們使用的各種藥物,都是經過這麼嚴格的p值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對p值的質疑,都是從這裡出來的。

有關p值的討論,其實並非由政治學門,而是從生命科學、例如醫學等領域所產生的。ASA聲明的第四點說:正確的統計推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說:不但要報告p值顯著的研究結果,也要報告p值不顯著的研究結果。但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫cherry-picking,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。可是在過程中,研究者因為結果必須顯著,期刊才會刊登、新藥才會被批准,所以盡量想要擠出顯著的結果,這之中會出現一個很重大的問題:如果我們作了20個研究,這20個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了20個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在0.05,可是20個裡面最少有一個顯著的,或然率就不是0.05,大概是0.64。如果就報告這個顯著結果,這就是cherry-pickingASA給的建議是:實驗者必須要full reporting and transparency,就是一個研究假如作了20個模型的檢定,最好20個模型通通報告,不能只報告顯著的模型。ASA這個聲明是今天要討論的主要內容。

p值是什麼?

p值是什麼?我想在座有很多專家比我都懂,但是也有一些同學在場,所以還是稍微解釋一下。p值是由Ronald Fisher1920年代發展出來的,已將近一百年。p值檢定最開始,是檢定在一個model之下,實驗出來的datamodel到底吻合不吻合。這個被檢定的model,我們把它叫做虛無假設(null hypothesis),一般情況下,這個被檢定的model,是假設實驗並無系統性效應的,即效應是零,或是隨機狀態。在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少,這個或機率就是p值。

舉一個例子,比如說研究ESP–超感官知覺–時會用到比例(proportion)這個統計值。我們用大寫的P來代表比例, 不要跟小寫的「p值」的p混淆。在p值的爭論裡,有一篇研究ESP的心理學文章被批評得很厲害。文章中提到了一個實驗,讓各種圖片隨機出現在螢幕的左邊或者右邊,然後讓受測者來猜圖片會出現在哪邊。我們知道如果受測者的猜測也是隨機的,也就是沒有ESP的效應,則猜對的或然率應該是一半一半,算比例應該是差不多 P=0.5,這裡比例P=0.5就是我們的虛無假設。但這個實驗–實驗者是一位知名心理學教授–他讓受測者用各種意志集中、力量集中的辦法,仔細地猜會出現在左邊還是右邊。結果發現,對於某種類型的圖片–不是所有圖片,而是對於某些類型的圖片,特別是色情圖片–受測者猜對的比例,高達53.1%,而且在統計上是顯著的。所以結論就是:有ESP,有超感官知覺。

這裡p值可以這樣算:就是先做一個比例Psampling distribution–抽樣分配。如果虛無假設是對的,平均來講,P=0.50.5就是P的抽樣分配中間這一點,這個比例就是我們的虛無假設。在受測者隨機猜測的情況之下,P應該大約是0.5的。可是假如真正得到的P 0.531,抽樣分配告訴我們:如果虛無假設是對的,亦即如果沒有任何超自然的力量,沒有ESP存在,大家只是這樣隨機猜測的話,則猜對的比例大於或者等於0.531的機率,可以由抽樣分配右尾的這個面積來算。作單尾檢定,這面積就是所謂的p值。如果作雙尾檢定的話,這值還要乘以2。以上就是我們傳統講的p值的概念。

我們得到p值以後,要作統計檢定。我們相約成俗地設定一個顯著水準,叫做αα通常都是 0.05,有時候大家會嚴格一點用0.01,比較不嚴格則用0.10。如果我們的 α=0.05,則若p<0.05,我們就可以拒絕虛無假設,並宣稱這個檢定在統計上是顯著的,否則檢定就不顯著這是傳統的p值檢定方法。如果統計上顯著的話,我們就認為得到實驗結果的機會很小,所以就不接受虛無假設。為什麼說p值很小,就不接受虛無假設?我個人的猜想,這是依據命題邏輯中,以否定後件來否定前件的推論,拉丁文稱作modus tollens,意思是以否定來否定的方法,也就是從「若P則Q」和「非Q」導出「非P」的推論,這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens,是probabilistic modus tollens。「若H0為真,則p值檢定顯著的機率很小,只有0.05」,現在p值檢定顯著了,所以我們否定H0。但是命題邏輯的modus tollens,「若P則Q」是沒有或然性、沒有任何誤差的餘地的。「若H0為真,則p值檢定不可能顯著」,這樣p值檢定顯著時,你可以否定H0,大家對此都不會有爭議。問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有1/13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p值的問題,便是在於我們能不能夠因為p值很小,小到可能性很低,我們就用否定後件的方法來否定前件。我們用命題邏輯來作統計推論,但其實我們的推論方法跟命題邏輯卻不完全一樣,因為我們的α絕對不可能是零,如果α是零的話,就不是統計了。

再來就是看電影時間,電影很有趣,可以幫助我們了解什麼是p值,也可以再接著討論為什麼用p值來作統計推論會有錯。這部電影叫做「玉蘭花」,是1999年的電影,已經很舊了,可能在座年輕的朋友就沒看過。網路上在Youtube有這一段,請大家觀賞。

(電影「玉蘭花」短片連結)

https://www.youtube.com/watch?v=Ec51smvcsDY

相信大家應該都看得懂這短片的用意。玉蘭花這部電影,雖然裡面有講一些髒話,但是其實是一部傳教的影片。它的推論方式,其實就是我剛剛講的p值的推論方式,它有一個虛無假設,就是說事情發生沒有什麼超自然的力量在作用,都是隨機發生的,是by chance,不是by design,可是它發生了,竟然有這麼巧合的事情。大家可以想一下,如果事情的發生都是by chance,都是隨機的,那麼像這種事件發生的機率有多少?很小很小,0.0…01,幾乎不可能發生。所以假如是隨機發生的,就幾乎不可能發生,可是它發生了,我們就以否定後件來否定前件,推論虛無假設–by chance的這個假設–是不對的。既然不是by chance,它是什麼?就是by design,是設計出來的。這是基督教的一種論證上帝創造世界的方法。在美國,有些學區還在爭論,生物是創造的還是進化的?創造論的主張者都會用這樣的論證,說你看我們人體,它是這麼複雜的一個系統,這種系統可能是隨機發生的嗎?若是隨機發生,機率有多少?是0.0…01,所以它不可能是隨機發生,因此是創造的。這個理論叫做intelligent design–智慧的設計–即我們這個世界都是上帝創造、是上帝很有智慧地依照藍圖設計出來的。我今天也不想爭辯這種推論對不對,我只是舉例來說明這種推論的邏輯。

p值不是什麼?

我本來放這部電影都是為了在教學上解釋p值的概念,可是後來當我注意到對於p值的爭議之後,覺得其實這一部電影也可以用來幫我們了解為什麼用p值來做統計推論有可能是錯的。

下面這個表是大家都熟悉的。(圖二) 我們可以用這個表來呈現有關虛無假設是對或者不對,是被拒絕或者被接受的四種可能性,其中兩種是作出錯誤統計推論的情況。第一個情況,虛無假設是對的,但統計檢定是顯著的,因此虛無假設被推翻了。這種情況叫做Type I error,我們保留了α=0.05的機率容許它存在。第二個情況,如果虛無假設是錯誤的,但統計檢定不顯著,所以它沒有被推翻,這個情況叫做Type II errorType II error剛學統計的同學可能不太了解,因為我們通常都不會很清楚地去計算它的機率–所謂β。這個βα不一樣,不是你可以用相約成俗的方法來訂定,而是會受到若干因素的影響。簡單來講,在一定的顯著水準α之下,β跟樣本大小有關係;樣本太小的話,β會比較大。另外它跟實驗效應的大小也有關係,如果效應很小的話,β也會比較大。換句話說,如果虛無假設跟研究假設的距離比較小的話,β會比較大。可是一般人不會去計算β,因為還沒做實驗之前,其實也不知道實驗的效應有多少。儘管如此,β是可以計算的。算出來了,則我們拒絕錯誤虛無假設,而作出正確統計推論的機率是1-β,這1-β我們就把它叫做「檢定的強度」–the power of the test–我待會兒會用到這個名詞。依此定義,β越小的話,power就越大。用醫學的術語來說,αType I error的機率,就是偽陽性的機率,而βType II error的機率,就是偽陰性的機率。

圖二

我們可以開始討論:傳統用p值來作統計檢定方式,為什麼有問題?剛剛ASA的聲明說:p do not measure the probability that the studied hypothesis is truep值告訴你:如果虛無假設是對的,你「觀察到資料」的機率有多少,但它並沒有告訴你「虛無假設是對的」的機率有多少,或「研究假設是對的」的機率有多少。這是很不一樣的:前者是data的機率,後者是model的機率。進一步說明,p值是在虛無假設為真的條件之下,你觀察到和你所觀察到的統計值一般大小(或更大/更小)的機率。但我們作檢定的時候,我們是看p值是不是小於你的統計水準α,如果p<α,我們就說統計是顯著的。換句話說,如果虛無假設為真,那麼你的檢定是顯著的機率是α=0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data會跟它不合,但它沒有告訴我們虛無假設這個model為真的機率有多少,而這才是我們應該問的問題。所以我們應該反過來問,如果你統計檢定是顯著的,在此條件之下,「虛無假設是對的」的機率有多少?如果我們把關於data這個偽陽性的機率記作α=Pr(Test=+|H0),大家可以看出這個關於model的機率其實是它倒反過來的:Pr(H0| Test=+),所以我把它稱作「偽陽性的反機率」。這兩個機率原則上不會相等;只有在 α=0的時候,兩者才都是零而相等。                                                                                                        

譬如今天你去健康檢查,醫生給你做很多篩檢,如果篩檢結果是陽性,其實先不要怕,因為你應該要問,如果篩檢出來是陽性,那麼你真正並沒有病的機率是多少?也就是偽陽性的反機率有多少?大家可能會很驚訝,偽陽性的反機率通常都很高,但是這個機率,p值並沒有告訴你。所以必須要去算在檢定是陽性的條件下,結果是一種偽陽性的反機率;這就必須要用「貝式定理」來算。

雖然在座有很多可能比我更高明的貝氏統計學家,但我還是要說明一下貝式定理。先舉一個我終身難忘的例子,剛剛陳老師說我是台大電機系畢業的,我在電機系的時候修過機率這一門課。我記得當時的期中考,老師出了一個題目,說我口袋裡面有三個銅板,其中有一個銅板是有偏差的銅板,偏差的銅板它得到正面的機率是1/3–不是1/2–而得到反面的機率是2/3。考題問:現在我隨機從口袋裡面掏出一個銅板,這個銅板是那個偏差銅板的機率是多少?很簡單大家不要想太多,1/3嘛。可是我現在拿銅板丟了一下,出現的是正面,我再問你這個銅板是那個偏差銅板的機率是多少?我不期望大家立刻回答,因為要用貝式定理來算,當你獲得新的資訊的時候,新的資訊會更新原來的機率。這裡我也沒有時間詳細告訴大家怎麼算,但是可以告訴大家,結果是1/4。如果我丟擲銅板,它得到了正面,它是偏差銅板的機率變成只有1/4。這是因為偏差銅板出現正面的機率,比正常銅板要小,所以出現正面的話,它相對來講就比較不太可能是偏差的銅板,所以機率會比原來的1/3小些,只有1/4。(大家可以想像如果偏差銅板出現正面的機率是0,而丟擲得到正面,則此銅板是偏差銅板的機率當然是0)原來所知的「1/3的機率是偏差銅板、2/3的機率是正常銅板」這個機率分配在貝氏定理中叫做先驗機率(prior probability)。大家要建立這個概念,即是還沒觀察到數據之前,對於模型的機率有一些估計,這些估計就叫做先驗機率。至於觀察到數據之後所更新的模型機率,1/43/4,這個機率分配叫做後驗機率(posterior probability),也就是前面所說的反機率(inverse probability)

我們再來看另外一個跟統計檢定問題非常接近的例子。可以用剛剛身體檢查的例子,但我這裡用美國職棒大聯盟對球員的藥物檢查為例,也許比較有趣。這裡假設大約有6%的美國MLB的球員使用PEDperformance enhancing drugs),這是一種可以增強體能表現的藥物,是類固醇之類的藥物。這個估計數字可能是真的,是我從網頁上抓下來的。這邊的6%即為我前面說的先驗機率:隨機選出一個球員,則他有使用PED的機率是0.06,沒有使用PED的機率是0.94。現在大聯盟的球員都要經過藥檢;舉大家熟知的火箭Roger Clemens為例。他也是我心目中的棒球英雄,他被檢定有陽性的反應。為了方便起見,假設藥檢的準確度是95%。所謂準確度95%的定義是:如果一個球員有使用藥物,他被檢定出來呈陽性反應的機率是0.95;如果一個球員沒有使用藥物,他被檢定出來呈陰性反應的機率也是0.95。也就是我假設兩種誤差類型的機率αβ都是 0.05。在這假設之下,使用貝式定理來計算,當球員被篩檢得到的結果是陽性,但他並不是PED使用者的後驗機率或反機率,其實高達0.45。大家可以從圖三看到貝氏定理如何可以算出這個機率。(圖三)

圖三

 

使用貝式定理 算出來的結果大家應該會覺得很詫異,因為我們藥物篩檢的工具應該是很準確的,0.95在我們想像中應該是很準確的,我們認為說我們錯誤的可能性只有5%,其實不然。檢定是陽性,但其實偽陽性的反機率可以高達45%!所以雖然我不是醫學專家,不過大家健康檢查,如果醫生說,你的檢查結果呈現陽性反應,大家先不要慌張,你要先問一下醫生檢驗的準確度大概有多少,如果一個真正有這種病的人來檢定,呈現偽陽性的機率有多少?如果一個沒有病的人來檢定,呈現偽陰性的機率有多少,然後再問他先驗機率大概有多少?然後自己用貝氏定理去算一下偽陽性的反機率。醫學上很多疾病,在所有人口裡面,得病的比例通常很小的。也就是說,得病的先驗機率通常都很小,所以偽陽性的反機率會很大。 

現在換成了統計檢定,看下圖的表格。(圖四) 這表格跟圖三的表格很像,只是把內容改成了圖二的內容:虛無假設是真的、或是假的,然後統計檢定是顯著、或是不顯著的。然後再加上一行先驗機率,就是「虛無假設是對的」的先驗機率有多少、「虛無假設是錯的」的先驗機率有多少,都用符號來代替數目。我們可以用貝式理得到一個公式,顯示偽陽性的反機率是統計水準α、檢定強度(power=1-β)、和研究假設之先驗機率(P(HA))的函數。α跟檢定強度都沒問題,但公式裡頭用到先驗機率。你會問:在統計檢定裡面,先驗機率是什麼?

圖四

在此我必須要稍微說明一下,先驗機率,以淺白的話來講,跟你的理論有關係,怎麼說呢?如同剛剛提到ESP的實驗,好像只要就這樣用力去猜,你猜對的可能性就會比較高。發表這樣子的實驗報告,我們有沒有辦法告訴讀者,當受測者這樣皺著眉頭去想的時候,到底是什麼樣的一個因果機制,能夠去猜到圖片是出現在左邊還是右邊。

一般來說這種ESP的實驗,是沒有這種理論的,是在完全沒有理論的條件之下來做實驗。在此情況之下,我們可以說,此研究假設的先驗機率很小很小。當然我們作政治學的研究就不一樣,我們可能引用很多前人的著作,都有一個文獻回顧,我們也引用很多理論,然後我們說:我們的研究假設是很有可能展的。假如你有很好的理論,你的研究假設的先驗機率就會比較高,在這種情況之下,問題會比較小。但是還有一個問題,就是如果從文獻裡面來建立理論,來判定你的研究假設的先驗機率有多少,問題出在於:通常文獻回顧是從學術期刊裡面得來,而現在所有的學術期刊,發表的都是顯著的結果,不顯著的結果通通都沒有發表,從學術期刊上來判斷研究假設的先驗機率有多少,這樣的判斷是有偏差的。這是我今天要講的第二個問題,現在先繼續討論偽陽性反機率的問題。 

現在要詳細討論影響偽陽性反機率的因素,就是影響到「統計檢定是顯著的條件之下,虛無假設為真」這一個機率的因素。這裡再重覆一下,我們一般了解的統計推論,奠基於虛無假設為真時,p值顯著的機率,也就是偽陽性的機率被控制在α之內:Pr(Test=+|H0)=Pr(p<α|H0) =α但我們現在要反過來問的是:統計檢定是顯著的情況下,H0為真的機率,也就是偽陽性的反機率:Pr(H0| Test=+)=Pr(H0| p<α),這好比篩檢結果為陽性、但其實球員並未使用PED、患者其實無病的機率。如果α等於零,可以很清楚的發現,這兩個機率是一樣的,都是零;但α不等於零的時候,它們就不一樣。由下圖來看,偽陽性的反機率跟先驗機率–研究假設的先驗機率–以及檢驗的強度有關。(圖五、六)看圖可以得知,power越大,還有先驗機率越大的話,偽陽性的反機率就越小。可是當power越小的時候,還有先驗機率越小的時候,偽陽性的反機率就越大。

圖五

圖六

我做了一個表,列出研究假設的先驗機率,從最小排列到最大,可以看到在不同檢定強度之下,偽陽性的反機率是多少。(圖七)它可以高到近乎1.00。換句話說,研究假設的先驗機率如果很小很小,則即使p值檢定顯著,但虛無假設仍然為真的機率其實還是很大很大的。如果研究假設的先驗機率是0.5–你事先也許不知道哪一個是對的,你假設是0.5,就像丟銅板一樣,此時,偽陽性的反機率才是 0.05,才跟α一樣。也就是說,研究假設的先驗機率必須要高於0.5,偽陽性的反機率才會小於0.05。可是假如你的研究假設,譬如剛剛提到的ESP研究,這種實驗沒有什麼理論、沒有什麼因果關係,然後你就去做了一個統計分析。換句話說這個研究假設的先驗機率可能很低,此時偽陽性的反機率其實是很高的。圖七第一欄是假設power 0.95,如果power低一點到0.75呢?如果是0.50呢?我們可以看到其實結果差不多。當然power越低,問題會越嚴重,但其實差不多,當你的先驗機率是0.5的時候,原來是 0.05,現在是 0.09,所以差別不是特別大。原則上,power對於偽陽性反機率的作用不是那麼強,作用強的是prior,即是研究假設的先驗機率。

圖七

小結:當檢定強度或研究假設的先驗機率甚低的時候,α=0.05可能嚴重低估了偽陽性之反機率,也就是在p值檢定顯著的情況下,虛無假設H0仍然極有可能為真,而其為真的條件機率可能甚大於α。此時如果我們拒絕虛無假設,便作出了錯誤的統計推論。

「摘櫻桃」問題

再來我們講到「摘櫻桃」問題,如同剛剛所提到,研究假設的先驗機率是如此重要,我們要如何去判定?要怎麼知道它是多少?我們必須要做文獻的分析、要建構我們的理論,在這種情況之下,會出現摘櫻桃的問題。這裡就是要呈現給大家看,譬如我們作20個統計檢定,從作第一個開始,本來有一個model,但是p值不顯著,我們就改一下model,加一個變數、減一個變數,或是把一個變數平方,或是把一個變數取log,或者把樣本除去一些,增加一些,這樣慢慢去試驗,最後終於得到一個顯著的結果了!但這裡告訴你,做了20個這樣的檢定,我們以為每一個檢定的Type I error 控制在0.05,可是20個裡面最少有一個顯著的或然率是多少?是 0.64。(圖八)

圖八

為了讓大家能夠進一步了解這個問題,再給大家看一部電影,這部電影是「班傑明的奇幻旅程」。

(電影「班傑明的奇幻旅程」短片連結)

https://www.youtube.com/watch?v=mTDs0lvFuMc

讓大家看這部電影,我們可以注意到,這部電影所講的,跟上一部「玉蘭花」很類似,也在討論是這樣發生車禍到底是by accident還是by design。它的議論應該是:這種車禍的發生,其實有一連串的因果鏈,只要這因果鏈其中有一個環節稍微不一樣、或是沒有發生的話,可能車禍就不會發生。因此它的敘述者暗示說其實是by design,而不是by accident。然而現在要跟大家說明,這個結論是錯的。電影要說明這是by design而不是by accident的話,是完全錯誤的。為什麼?大家只要想想看,我們政大門前有條交通繁忙的馬路,你一邊跳舞一邊過街,看會不會被車撞上,不是極有可能會嗎?為什麼?因為說車禍是by accident,它是說被某一輛特定車子撞到的機率很低,譬如是0.05,可是如果有20輛車子經過的話,被其中最少一輛撞到的機率就會很大,剛才已經算給各位看,所以電影是錯誤的。

類似這種問題,其實我們日常生活中所在多有。再以大樂透為例:你買了一注大樂透,你中頭獎的機率是1/13,980,000。如果你自己中獎,你也許會說這是命運,不是機率,因為中獎的機率近乎0。但全台灣賣了5,000,000注的大樂透,最少有一注中頭獎的機率其實是0.30。你不能舉出有人中獎的事實就否定大樂透開獎的隨機機制。 

這就是cherry-picking,只抓住發生的事件,就來說因為有這麼多因果鏈,如果稍微有一點不一樣,這種事情就不會發生,這是錯誤的,因為它有很多其他的可能性同時存在。現在在統計學裡面,很多人很不在意這個問題,甚至主張這種問題不存在,而其實它可能比p值的誤用還要嚴重。這種問題叫做叫多重假說檢定(multiple hypothesis test)、多重比較(multiple comparison),我有同事對這種問題的反應十分強烈,主張所有的研究都必須要事先登記,什麼叫做事先登記?並非申請研究經費、寫一個研究計畫這麼簡單,所謂事先登記(pre-registration)的觀念,就是在做任何研究之前,研究者必須要把研究計畫post在網站上,而且post上之後就不能改,現在其實已經有很多這種網站存在,將來研究者發表文章,如果跟預先登記的研究設計不一樣,其他人就可以對你發表的結果提出質疑。

小結:在多重假說檢定的情況下,即使H0為真,「至少有一p值檢定顯著」的機率常會甚大於單一p值檢定的顯著水平α。以「摘櫻桃」的方式只報告顯著的檢定結果常會導致錯誤的統計推論。

結語

圖九是ASA建議取代p值的其它途徑,在此沒有時間細講,大致上是要用其它方法,比如貝式統計學。(圖九)這邊提到的很多方法都跟貝式統計學有關係。我們現場有貝式統計學的專家,他們懂得怎麼用貝式統計學來分析資料。但對於還沒有學到貝式統計學的朋友,這邊ASA特別提到的confidence intervals–信心區間–是傳統統計學的方法。ASA似乎認為使用信心區間比使用p值檢定要來得好。但是信心區間其實是連續性的p值檢定,如果只是看看虛無假設的理論值有沒有在信心區間之內,則檢定的結果跟p值檢定是一樣的。但如果把信心區間畫出來,至少有一個好處,它會清楚呈現出效應的大小,讓你不但能看出檢定結果的統計顯著性(statistical significance),也能看出估計值的實質顯著性或重要性(substantive significance)。我們使用信心區間,總比只用一顆星兩顆星來標明統計顯著性要好。

圖九

如果一定要用幾顆星的話,大家就不要再用α=0.10了;p<0.10 就不要再加星星了。我知道AJPSAmerican Journal of Political Science–已經不接受α=0.10這個顯著水準的統計檢定了;不管是單尾檢定或是雙尾檢定,用 α=0.10已經不被接受了。0.05還可以,最好能用0.01,審稿人對你較難有所批評。

但是最重要的,如果我們不得不用傳統的統計方法,我們必須要增強我們的理論論述和脈絡描述,因為增強理論論述和脈絡描述,即會增強研究假設的先驗機率。當研究假設的先驗機率比較高時,其後驗機率–偽陽性的反機率–就會比較低。這好比你健康檢查某種疾病的篩檢出現陽性時,好的醫生會從你的性別、年齡、生活習慣、飲食作息、家庭病史、乃至於居住環境等脈絡來判斷你是否有充分的病因,以之來詮釋篩檢的陽性結果。這其實就是貝氏更新的道理。

我讀這些文獻後的想法是:統計學很快就會有很重大的改變,傳統的作法、用p值來作統計檢定的作法,大概再過幾年,就不容易再存在。所以大家必須要應變,這也是我在回國來,希望能夠提醒大家注意的一個問題。 

Q&A時間

發問:林老師您好,謝謝您今天很精彩的演講,也很謝謝上禮拜六參加計劃時,您給我們的文章有很大的啟發與提升。今天聽了這個演講以後,我覺得我們對於p-value的使用可能要有心理準備,未來就算不是被全部淘汰,大部分也要被丟到另外一邊去。我在想的一個問題是,因為老師提到使用confidence intervals,我們在寫作時,有一個習慣是會比較傾向去解釋那些在p-value上顯著的變數,如果說未來使用confidence intervals的話,我們是不是應該在文章裡面,每一個變數都要去解釋它對dependent variable的重要性?或是說應該怎樣去作結果的討論以及處理?謝謝! 

林澤民:我想你的自變數應該也有所謂的解釋變項與控制變項吧。我覺得如果控制變項不是麼重要的話,也許就不用太費勁去討論,就著重在解釋變項。解釋變項就是不管作傳統的統計顯著或不顯著,都要加以討論。不只是討論統計的顯著性,更要討論實質的顯著性,而實質的顯著性或重要性是比較能從confidence intervals看出來的。其實p值的問題是兩面刃,說不定對我們也有好處,就是將來得到不顯著的結果,說不定都可以publish,都可以呈現在你的論文裡面,而不用怕被人家說:明明就不顯著為什麼還要報告。 

發問:林老師您好,我是經濟系的學生,謝謝林老師今天很精彩的說明,但這邊至少有兩個點想跟林老師請教,以及跟大家分享。第一個就是如您剛才所說,我們在作實證研究的時候,不管是我們自己或是長期的訓練,或是目前的期刊的要求,關切的都比較是顯著的結果。所以過去在經濟學界也有對這方面的討論,談到為什麼要去關切那些不顯著的結果。同樣的道理,那些不顯著的結果要被期刊接受的機會也是非常非常低。你唯一可以被接受的理由大概就是,我們看到這個人所作的東西,以後就不要再作了,大概就是樣子。我第一點要說的是,我們目前有這樣的困境。您剛提到一個很好的論點,未來也許大家會有一個共識,就是不顯著的結果反而是更重要的。我的第二點是一個問題:您剛剛提到,確實在醫學或自然科學部分,要去找到一些理論上的基礎,可能相對來講比較容易。在社會科學裡面,如果要去找到一些所謂的因果關係,或是比較扎實的理論,可能比較困難,因為人的行為無法像自然科學的實驗室般重複去作,且控制到所有條件都一樣。針對此部分,您剛認為要加強理論的論述,好讓prior來的比較solid一點,就社會科學部分不知道有沒有更好的一些方法,或至少不會差自然科學太多?這部分確實對我們社會科學的人來講比較困擾一點。 

林澤民:我先從第二個問題來回答。我不敢說整個社會科學啦,但在政治學界大概很多人會跟你說:你可能要用賽局理論。美國政治學在過去十幾年來有一個概念叫作EITMEmpirical Implications for Theoretical Models。名稱有點奇怪,但它的用意是把統計分析跟理論結合,講EITM的人特別強調的就是形式理論,特別是賽局理論。就是作一些對人性的基本假設,然後用賽局理論的數學分法去deduce,用邏輯去導出一些結果出來,然後再把這些結果用統計方法加以檢定。這在政治學過去十幾年來,已經變成一個很普及的概念。這有它的好處,就是在形式理論部分,只要基本假設大家能接受,它的邏輯都是沒有爭議的。嚴格來講,形式理論只要大家接受你的假設和邏輯推演,就要接受你的結果,用統計來檢定結果是多餘的。但是我們知道,比如假設行為者是理性的,然而真實的人不一定理性,所以經驗檢定還是重要的。EITM用形式理論來增強理論的先驗機率,我想這是很不錯的。

你前面第一點提到關於不顯著的結果,當然我也不是說將來學術期刊會大量接受不顯著的檢定結果,我想也不至於,可能只是要求你把這些不顯著的結果都post在網頁上。然而對於教授升等,這些作品算不算也不一定。但是我想某種程度上這是合理的預期,一旦不需要使用幾顆星的話,不顯著的結果也可以放進文章裡去。期刊會衡量從整篇文章的研究設計、立論、方法、和結果,來決定到底能不能發表,而不會斤斤計較是一顆星、兩顆星,還是沒星星。所以我對這點倒是有點樂觀。其實,現在已經有很多期刊採取「預約接受刊登」(pre-acceptance)的編輯政策,也就是審查你的研究計劃就可以決定要刊登你計劃執行後的完稿,條件是不論經驗資料支持不支持你的研究假設,完稿都不得改變當初的研究設計,包括model specification。這就是說不顯著的結果也要刊登了。

其實可以跟大家預告一下,八月四日在中央研究院政治學研究所,為了慶祝所慶,有一個學術討論會。討論會的主題是「甚麼是研究發現」?引言人有朱雲漢、吳玉山兩位院士跟我三個人。我的任務就是報告p-value的問題。傳統來講,統計上顯著的結果才叫做findings,不顯著的結果是non-findings,但是這觀念可能要有所改變了。這等到八月四日再專門來講。

發問:謝謝林老師很深入淺出的演講,之前在上統計課的時候,雖然有講到p-value的問題,但每次在上大學部課程時,我常常都沒辦法把這一塊講得這麼清楚。在我還是研究生的時候,我們就有很多這方面的討論,而這幾年這問題特別地被突顯,我認為很大的原因,大概是電腦技術越來越好、作testing的困擾已經越來越少;另一方面,如果你相信Bayesian的話,你應該相信所有的parameters都該是probability term,而不是deterministic term,說它是顯著還是不顯著。我也有一個問題想請教林老師,您如今在基礎統計的教學裡面,對p-value是用傳統frequentist的講法,還是像現在等於把它推翻?因為我常有這樣的困擾,就是在初級的課用frequentist的方式講,然後到了進階的課,再拿Bayesianapproach去推翻自己原本以前講的。我不知道林老師您目前在授課時,是用什麼樣的方式?特別是針對frequentist的邏輯。

林澤民:我想你對p值問題的了解應該比我更早。我是這幾年來才慢慢地逐步了解這個問題。在教學上要採取立即的改變,其實很不容易,我完全了解。我們有一個同事後來就在抱怨,ASA為什麼要發表這個東西?他說現在所有的journal articles,還有教材、教科書,全部–至少百分之九十幾–都是傳統的統計學,你怎麼來教大學生新的東西?所以這是很困難的。今天我在這裡演講,如果有一點點是我自己觀察來的結果,而不是完全從文獻上得到的,我想是關於priorHAprior–怎樣去影響到偽陽性的反機率,這我覺得很重要。我目前教學仍是會用傳統方法,畢竟要把一本教科書重新編輯、作講義,是很大的工程。此外,我自己跟你不一樣,我是frequentist,你來教Bayesian比我容易多了。我以前會放電影,跟學生講p值是什麼。我現在也放電影,跟學生講p值有什麼問題,讓他們了解。然後我會對他們說,在還沒學習貝式統計學之前,要比較強調prior。也就是你用傳統的統計方法作研究,如果研究假設沒有很高的prior的話,也許你就不要作了。

發問(接續):我只是有時候會有點精神錯亂,之前跟學生講過的東西,在比較進階的課程時就要把它推翻掉。 

林澤民:在座如果有老師教統計學,請你不要說:林老師今天講的就代表我上課講的都錯了。學生也不要說我上課學的都錯了。不是這麼一回事,這不是我的用意。因為p值本身它並沒有錯,錯的是大家對它的誤解誤用。至於傳統的教學方法要怎麼改,我們要慢慢試,但是我們要了解這個問題的存在。我自己到最近教學還是用傳統方法,如果今天請我的學生來聽我演講,他們會說:老師你以前教的都錯了。但事實上,不只是我們教書的,有多少科學、商業或政策上的決定,都是奠基於p值檢定的結果之上,我們能說他們都錯了嗎?我想不能說他們都是錯的,可是我們要改變。

發問:林老師好,我是理學院資科系的老師。非常謝謝林老師,很高興今天上老師的課。關於剛剛幾位老師的討論,我覺得在我們資科系,很多人的直覺,一個方法要嘛是對、要嘛是錯。你們搞機率的卻是:它可能百分之八十對、百分之二十錯。我覺得應該講清楚的是,就prior來講,只要prior夠強,過去p-value的方法大概是對的。這應該有range,大部分問題,只要priorrange裡面,或許p-value的方法是相當可靠的。我不會推翻過去的教學方法,說一切都是錯的,其實沒有麼嚴重。在大部分的問題裡面,過去的方法也許是可用的,只是今天我們面對一些方法,單獨的p-value並不是麼可靠。也就是一個漸進式的改變,這樣我們不會打自己嘴巴。

林澤民:對,我完全同意。這就是為什麼我做了這三個圖表,可以看到雖然影響偽陽性反機率的因素包括priorpower,但其實主要是prior。即使power低到0.50,只要prior也有0.50,偽陽性的反機率也不過是0.09。如果你願意用0.10的顯著水準,0.09還是顯著的!要給一個可接受的range,我覺得prior大於0.50的話,其實都還好。最怕的就是prior很低很低,像ESP這種研究假設。這也是為什麼在p-value問題的討論上,那一篇知名心理學家對ESP作的研究會被拿出來討論,因為它的prior幾乎是零。但是這只能夠很粗略的估計。

發問:老師,這邊有一個小問題是:假設現在有十篇從舊到新的文章,它們的先驗機率都不太一樣,我如果要寫一篇文章,我要用最新一篇的先驗嗎?還是由自己發展出來、自己認定?

林澤民:當然你說先驗機率不太一樣,它為什麼會不一樣?是因為理論根本不一樣嗎?還是說因為時間的關係,大家有越來越多的研究發表,先驗機率就會逐步改變?如果已經有一個文獻,通常是建議你要作後設研究,叫meta-analysis,就是把過去發表的文章統一起來作一個研究。但坦白說我個人也沒有作過這種meta-analysis,可能可以在這方面的文獻去看一下。Eric,你可以就meta-analysis這點再作補充?

俞振華:嘗試把各種不同的model的係數,最後統整,變成有點類似老師您剛提的,試很多的modelspecification,然後組成一個結果。

林澤民:對,我讀的這些p-value的文獻裡面,其實有些文章就是作meta-analysis

發問:我有兩個關於寫作的問題。因為從老師的演講得到非常多心得,其中有個問題是,如果能強調理論先驗機率的強度,老師剛有提到用EITM看能不能夠結合形式理論的一些邏輯去增強強度,此外,我在思考是否有可能,至少就我自己在寫作時,會提出一些案例,然後再稍微說明,我有些案例,當然這些案例可證的是少數,因為全世界有一百多個國家,我們只有一兩個案例而已,說服力有限,但多多少少還是有些用處。我在想這樣作是否Okay?這是為了提升理論先驗機率的說服力,而提出一些案例來作討論。第二,剛剛老師提到有關non-findings,這些發現,相信以後應該越來越多人至少在文中會提到,可能一段、或幾句話。就老師的想法來說,要提是要怎麼提?是跟目前為止像跟大家講的一樣,要提的話就只能說,結果顯示並不是statistically significant,就這樣子很平鋪直敘的描述?還是要稍微把重點放在跟理論的連結,即便結果沒有很顯著,但也不代表我的理論是錯的。我不曉得能不能這樣講,也許不行,因為太武斷。只是不曉得未來大家在強調沒有統計顯著水準的結果時,是要怎麼表達?是要平鋪直敘地講,還是要有些焦點?有些要強調、有些不一樣?

林澤民:我想先講第二個問題,而其實這在Bayesian根本就不是問題,Bayesian就把posterior distributions畫出來就好,你根本也不需要去提是否顯著,因為「顯著」的概念本來就是frequentist的概念,它不是Bayesian的概念。所以要是你看過一些Bayesian的文章,你會看到它畫很多圖,每個圖都很小,一小格就一個圖,然後圖就畫上posterior distributions,甚至連credible intervals也不一定要畫出。

俞振華:但是為了要跟frequentist對話,現在還是會有95%credible intervals 

林澤民:對,不過需要95%的嗎?因為我最近寫一篇文章,合作者說68%就可以。所以我想可能就不需要去談什麼顯著不顯著,你就把圖畫出來就好。你若不是Bayesian,就用confidence intervals,然後你去畫圖,每一個變數的係數你就把confidence intervals畫出來。至於0有沒有在confidence intervals裡面,我想不必然是唯一的重要標準。當然就實際情況來說,仍要看你的reviewers有沒有接受你的結果。我必須要強調,在網路上你還是可以找到一些文章,它們要替p-value辯護。要是碰到這樣的評論者,可能就必須要小心。你第一個問題是說,提出實質案例而不一定是理論,我覺得也可以,我個人會接受,因為所謂文獻,除了理論之外,還有這種實質的知識、地方性的知識。我個人認為這些知識可以幫助我們加強prior,特別是當這些案例能夠增加我們了解自己研究假設的脈絡時。ASA的聲明特別提到脈絡(context)的重要性,我剛剛也有提到醫生詮釋陽性反應時,通常要參考病人所處的脈絡。但是我必須要說,我今天特別強調prior的重要性,我不知道在座是否有其他學者可以肯定我這一點,我覺得我個人強調prior,可能與文獻上的這些在講p-value的危險性的articles相較時,我強調的可能比較多一點。我不能保證所有的統計學者都會同意我的看法,所以要是碰到我來評審你的文章就好了。但是我希望我講的還是有點說服力吧?要是你研究假設的prior夠強,可能p-value的問題就不是這麼大。

發問:聽了很多同仁的問題,還有老師的回答以後,我這邊另外的問題是,因為在一開始,老師提到一個期刊─Basic and Applied Social Psychology,也講了ASA在今年提出的聲明,我想問,ASA它的官方期刊─JASA,是否已經有接受,或是應該說拒絕這種只報p-value的文章?還是說他們政策現在是做一個調整,同時都接受兩種?

林澤民:很抱歉,JASA的文章我不是經常在看,我不能回答你的問題。但是我剛剛已經講了,BASP在他們政策制定之後,ASA有一個回應,不是那official statement,是在發表official statement之前的一個回應。那個回應只說ASA正在籌擬一個official statement。而最後這official statement其實跟BASP的決定是不一樣的。因為ASAofficial statement,第一點在說明p-value是什麼,它並沒有說p-value錯誤。它只是把p-value的正確意義講出來。換句話說,只要是使用正確的意義,p-value並沒有問題,只是不要去誤用它。不要只是著重在統計顯著性,因為model對錯的機率跟p-value不一樣。要使用p-value作檢定,要把它跟α來做比較,所以問題不只是p-value,而是α。界定了α之後,才知道結果是不是顯著。當得到一個顯著的結果以後,必須再來衡量偽陽性反機率的問題,也就是model後設機率的問題,這就不是p-value可以告訴你的。


有誰推薦more
迴響(1) :
1樓. catshrimp01
2017/03/02 13:03
賓夕法尼亞大學(賓州大學) 最響亮的招牌之一莫過於它的商學院華頓商學院

BUSINESS INSIDER雜誌針對常年提供MBA課程的60所學校, 用五項指標:名聲(來自讀者調查)、平均畢業起薪、 就職率(畢業後三個月)、平均GMAT分數、學費做出評比。

2015年華頓商學院在評比中獲得第一名,MBA 第一年課程為財務、會計、領導學、管理學等核心課程,本活動特邀 畢業自賓州大學的蘇老師主講6堂領導力

報名表網址:(https://goo.gl/xEIOb4)

(catshrimp01@gmail.com)
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1