這篇文章中,我會試圖用淺白的語言一步步帶你認識貝氏統計學派的思想世界。我會從一個高中常見的統計問題「球袋問題」出發,並講述貝氏學派的兩大特色:先驗機率以及後驗分佈,最後帶你看看一個貝氏統計學家,可能會從什麼新的角度詮釋這個經典的球袋問題。這是一篇重在概念介紹的文章,因此不會有任何的數學推論和公式。

從古典統計學出發:球袋的比喻

你的眼前有一個不透明的球袋,我們知道裡面有若干顆球,球的顏色不是紅色就是白色。在一次只能拿出一顆球,並且看完必須放回袋中的情況下,我們要如何才能推斷這個球袋中紅球與白球的比例?

這題簡單。我們每次從袋中隨機取出一顆球,紀錄顏色後放回,並再次取球。如此重複多次後,我們便可以大致推斷出紅球和白球各自出現的頻率。如果在 1,000 次抽樣後,有 600 次出現紅球,400 次出現白球,我們便可以十分有自信地推斷袋中的紅白球比約為 6:4,又或者,紅球和白球出現的機率分別為 0.6 和 0.4。

熟悉統計學概論的你可能會知道,這種做法的理論基礎(之一)即是最大概似估計式(maximum likelihood estimator, MLE)。簡而言之,我們在抽出 600 次紅球和 400 次白球後,推論「袋中紅白球比例是 6:4 的情況」最有可能造成我們的實驗結果。假設袋中的紅白球比不是 6:4(例如 7:3 或 9:1),則不太可能導致我們現在出現的實驗結果。這個就是最大概似估計法的精神。並且我們知道,重複進行抽樣的次數越多,我們的估計就可能越精準,越接近正確的比例(也就是統計學上的「信賴區間」越小)。

問題來了。如果今天我們被限制,總共只能進行 10 次抽樣呢?或是 5 次?甚至只有 1 次?如果今天我們只能抽取一次,並且抽出了白球,我們能依照這個實驗結果對袋中的紅白球比例進行什麼推論呢?

上面這個難題,成為了古典統計學(或稱頻率學派)的硬傷。顧名思義,頻率學派的推論哲學,即是相信大數法則(Law of Large Number, LLN),相信只要進行足夠多次的抽樣試驗,最終實驗中某事件出現的頻率會趨近該事件發生的機率。這時,在抽樣次數不足的情況下,古典統計的估計方法可能不穩定,甚至出現偏差較大的結果。舉上面的例子而言,如果我們在面對只有一次抽樣機會,並且抽出白球的情況下,透過 MLE 計算得出的紅白球比例是——0:1。也就是袋中全部都是白球(當然,估計的信賴區間會大到這個數值幾乎沒有實用意義)。

袋中全是白球的狀況固然不是沒有可能,但不太符合直覺對吧?如果我說,有一種統計方法能在這種情況下,有機會給出比較好的推論呢?今天介紹的主角「貝氏統計」就能做到,而它做到的方法,便是要你相信你的直覺。

尊重直覺的貝式統計

投擲一枚(不必然公正)硬幣,出現正面的機率是多少?投擲一顆(不必然公正的)骰子,出現三的機率是多少?如果你的回答是「沒丟過不知道」,恭喜你,你是一名天生的頻率學派。如果你的回答是「二分之一⋯⋯?」和「六分之一⋯⋯?」那恭喜你,你是一名貝氏學派統計學家。怎麼說呢?

如前言所述,頻率學派的統計學家認為對於母體參數(也就是真正的機率)最理性的估計方法就是透過實驗和數學推論,並且屏除人類直覺的主觀干擾。乍聽之下非常合理,頻率學派的推論方法也的確在統計領域數百年來屹立不搖,直到現今都還十分受歡迎。但假設今天碰到前言的情況,只能進行一次實驗呢?這時你要相信一個孤立無援的抽樣結果,還是自己的直覺?

在另一方面,十八世紀橫空出世的貝氏統計則採取了另一個方法。

貝氏學派肯定信念的重要性。信念也就是在你做任何實驗前,根據經驗、直覺、常識,甚至盲目猜測的主觀機率。這個機率在貝氏統計的術語中稱為先驗機率(或先驗分布,prior distribution)。舉不必然公正硬幣的例子而言,如果我們在實驗前猜測,出現正面的機率很有可能是 1/2,並且認為硬幣不太可能非常不公正(例如正面或反面的機率為 1),我們可能會依據這樣的信念,將硬幣出現正面的先驗機率表示成下面這張圖1

這是典型的機率密度函數(probability density distribution, pdf),x 軸為硬幣出現正面的機率,y 軸可以簡單理解為「可能性」。可以發現函數圖形在 x=0.5 時達到最高,這也就代表我們在實驗前,猜測硬幣出現正面機率為 0.5 的機率最大,且硬幣出現正面的機率不太可能非常高(x=0.9)或非常低(x=0.1)。這種對於連帶參數的不確定性也納入考量的方法,也是貝氏統計另一個非常重要的性質,將會在下一節提到。

有了直覺作為基底後,我們便可以開始進行實驗。假設我們投擲了三次硬幣,竟然連續三次都出現反面,此時我們會透過貝氏定理(也就是高中數學課出現過的那條公式,至於如何使用不是本文的討論範圍)對我們的先驗機率進行更新,重新繪製一幅機率密度函數,或許會長成這樣:

這個更新過後的機率,就被我們稱為後驗機率(posterior distribution)。可以發現,現在函數圖形的最高點在 0.4 上下,也就是說我們傾向相信這個硬幣可能是不公正的,而且出現正面的機率可能為約 0.4。值得注意的是,如果同樣的實驗結果(連續三次反面)由頻率學派解讀,可能會不得不承認,這個硬幣出現正面的機率是 0(一樣,信賴區間會大到使得統計值沒有實用意義),畢竟在有限次的實驗之中,沒有任何一次出現過正面。此時貝氏學派的優勢就很明顯了。

我們可以繼續進行實驗,此時剛才的後驗機率成為了現在的先驗機率,也就是我們透過經驗累積修正了我們的信念,並且繼續透過更多的實驗對機率進行更新。如果在 1,000 次實驗過後,僅出現 100 次正面,卻有 900 次反面,我們更新後的後驗機率則會像這樣:

此時機率最高的地方出現在 \(x=0.1\) 上下。經過這一連串的機率修正,我們發現貝氏學派的核心宗旨正是試錯(trial and error),並且面對實驗結果不停更新機率,並在我們的信念和實驗結果間求取一個平衡。

貝氏統計在此的優勢盡顯:在實驗次數有限的情況下,我們追求先驗的信念和實驗結果間的平衡,使得推論出來的機率不會太偏頗;隨著實驗次數增加,我們獲得越來越多資訊後,初始信念的權重在一連串的更新下自然而然地下降,實驗結果的重要性上升,並且會在最後趨近頻率學派的估計。也就是說,貝氏統計進可攻,退可守,在實驗次數少時透過偏重信念,穩定機率推論,在實驗次數多時偏重數據,估計準確度上也不輸頻率學派。

至於先驗機率,或是信念,該怎麼挑選呢?這牽涉到非常深入的貝氏統計理論,不過簡而言之,通常我們可以透過專家推論(氣象學家認為的颱風登陸機率)、經驗法則(過去半年來觀察到的晶片良率),或單純的「我不知道」(認為硬幣出現正面的機率從 0%-100% 可能性一樣高),這些都有機會成為良好的先驗機率。

擁抱不確定性的貝氏統計

從上一節的討論中,細心的你可能已經注意到貝氏學派和頻率學派的另一個差異。頻率學派會告訴你他們推論的機率值,但貝氏學派只會給你一張圖,也就是密度函數(也就是上一節提到的「機率的機率」)。這是貝氏統計的一大特點:將母體參數的估計視為變數。

頻率學派的哲學相信,任何事物發生的機率都有一套固定、真實的值(袋中的紅白球比一定有一個答案、明天下雨的機率一定有一個正確的數值等等)。從有限的實驗次數中觀察,並推論出那個真正的答案(母體參數)便自然而言地成為了頻率學派的目標。也因此,頻率學派的推論方法最終都回到三個估計法:點估計(找到確定值)、區間估計(找到包含確定值的範圍)、假設檢定(驗證我的值猜測準不準確)。一言以蔽之,頻率學派相信母體參數是一個不會變的常數,所以我們要找到一個常數來估計它。

另一方面,貝氏學派選擇另一種態度:無論母體參數存在與否,在沒有母體下,我們都承認不可能找到正確答案,所以就連最不可能的答案我們都不排除,因此,估計的結果應該是一個變數

回到上方擲硬幣的例子,在出現 100 次正面和 900 次反面後,頻率學派可能會跟你說:「我們有 90/95/99/…% 的信心,硬幣出現正面的那個正確機率大概落在 0.1 上下2」。

但貝氏學派只會再一次給出這張圖:

並且兩手一攤,告訴你:「我們沒辦法真的知道硬幣出現正面的機率,不過在實驗過後,我們認為硬幣是正面的機率,有很高的機率是 0.1。但也有一點可能性是 0.13。另外,雖然可能性不高,但我們也不排除出現正面的機率是 0.5,說不定我們只是運氣很糟,一直丟到反面而已。什麼事都有可能發生,對吧?」想從一個堅實的貝氏統計學家口中套出那個真正機率非常困難,他永遠會告訴你「我們不排除所有可能」,並且給你一張機率函數圖形,因為它呈現了我們對不確定性的完整認知。

我們能不能從機率密度函數圖形中找出那個答案?也不是不行。如果我們非得要寫出一個數字,我們可能會選擇這個函數圖形的平均值或是眾數(函數圖形最高的那一點),但從一個貝氏統計學家的視角出發,沒有一個點能夠比起整個圖形,給出更完整、全面的資訊。

這或許是貝氏統計最令人費解,卻也最迷人之處。許多人初見貝氏統計時,可能是驚訝大過於仰慕:「所以那個答案不存在?」但貝氏統計想說的其實是:「除非你有母體資料,否則你永遠不可能知道真正的答案,我們的的推論只是在反映我們不知道的這個事實而已。」有人可能會批評貝氏統計的推論方法不負責任、逃避問題,但也有人認為這方法正是勇敢的表現:勇於承認我們的無知,不執意追求我們無法得知的那個答案,保持謙卑,並正面擁抱不確定性。

結論

正是這兩個推翻傳統統計哲學的新思想,讓貝氏學派與眾不同,在發展至今成為和頻率學派得以分庭抗禮的統計學派。貝氏統計從稱之為信念的先驗機率出發,在實驗過程中逐步更新、修正,導出後驗機率。並且,貝氏統計傾向將母體參數視為一個變數,而非一個常數。

你可能會問,現實中有什麼狀況是不能透過大量重複實驗推論得知的?其實還真不少:最新落成的核電廠發生核洩漏意外的機率、台灣在下一屆棒球經典賽打入四強的機率、某一位罕病人士在五年內的存活率等等,這些都不是可以大量複製的實驗。而貝氏統計的強項之一便在於此。我們可以先透過對核電廠周圍環境、球隊陣容與球員能力、疾病的生理特性等背景資訊,推論出先驗機率。接著再透過少量的觀察資料進行更新,便能產生有意義的統計推論。貝氏的使用情境不僅於此,還有許多情境中,貝氏統計意外地可以給出比起頻率學派更有幫助的答案。

當然,即便兩個學派的哲學相去甚遠,這並不代表我們必須要選邊站。在多數情況下,貝氏學派和頻率學派的理論學說相輔相成,學術界更常同時參採兩方的長處進行更完整的推論。

回到球袋的問題

回到一開始的球袋問題,一個貝氏統計學家會怎麼解讀只能抽取一次,並抽到白球的狀況呢?

我們會先定義一個先驗機率。例如,如果我們沒有足夠的理由相信袋中紅白球的比例為多少,或許我們可以先設定這樣的先驗機率3

也就是,我們認為袋中紅白球比例無論是多少,都有一樣的可能性。可能是 1:9,可能是 2:8,可能是 3.1415:6:8385。我們對於每個比例的可能性都採取相同的開放態度(當然,你可以依據其他的理由選擇不同的先驗機率,這當然也會導致不同的後驗機率,不過在此只以其中一種常見的作為範例)。

在單次試驗並抽出白球後,我們便會對我們的信念做出修正,計算出後驗機率:

這時,貝氏統計學家可以這樣回答這個問題:「我們不知道袋中的紅白球比例,但是我們認為紅白球比例為 1:9 (含以下)的機率大約是 0.2(圖中著色部分),同時我們不排除其他可能性,在有更多次實驗後,我們才可以給出更有自信的答案。」

不知道這樣的說法是否有說服你?不知道你是否覺得這比起頻率學派的「比例是 0:1,但我超級不確定,以至於這個推論幾乎沒有參考價值」更能給出較為全面、有意義的答案?無論你是否有被貝氏統計說服,希望這篇文章成功提供給你一種全新觀看統計推論的視角。

最後的最後,讓我們用一張美妙的 GIF 結束整篇文章,動態呈現貝氏統計如何從一個不帶資訊的先驗機率(藍線)開始,透過後驗機率修正,逼近一個紅白球比為 2:8(紅線)的球袋實驗吧。


註解

  1. 熟悉機率論的你可能知道,這裡使用的是 Beta(5,5) 的機率分布圖形。事實上,整篇文章的機率函數圖都是不同參數的 Beta 分佈。 

  2. 這裡其實在不嚴謹的情況下使用了信賴區間的概念,如果有堅實統計背景的人可能會覺得怪怪的,不過因為古典統計學不是這次討論的重點,因此恕我這樣潦草地帶過。 

  3. 其實在這樣的先驗機率下做後驗機率修正,並求取最大後驗機率(maximum a posterior, MAP)等價於直接求取 MLE,但如文中所述,MAP 這種單一估計值的觀念其實稍微背離了貝氏的哲學,通常作為輔助決策用。