用直覺理解貝式統計：一個不用數學的入門指南

這篇文章中，我會試圖用淺白的語言一步步帶你認識貝氏統計學派的思想世界。我會從一個高中常見的統計問題「球袋問題」出發，並講述貝氏學派的兩大特色：先驗機率以及後驗分佈，最後帶你看看一個貝氏統計學家，可能會從什麼新的角度詮釋這個經典的球袋問題。這是一篇重在概念介紹的文章，因此不會有任何的數學推論和公式。

從古典統計學出發：球袋的比喻

你的眼前有一個不透明的球袋，我們知道裡面有若干顆球，球的顏色不是紅色就是白色。在一次只能拿出一顆球，並且看完必須放回袋中的情況下，我們要如何才能推斷這個球袋中紅球與白球的比例？

這題簡單。我們每次從袋中隨機取出一顆球，紀錄顏色後放回，並再次取球。如此重複多次後，我們便可以大致推斷出紅球和白球各自出現的頻率。如果在 1,000 次抽樣後，有 600 次出現紅球，400 次出現白球，我們便可以十分有自信地推斷袋中的紅白球比約為 6:4，又或者，紅球和白球出現的機率分別為 0.6 和 0.4。

熟悉統計學概論的你可能會知道，這種做法的理論基礎（之一）即是最大概似估計式（maximum likelihood estimator, MLE）。簡而言之，我們在抽出 600 次紅球和 400 次白球後，推論「袋中紅白球比例是 6:4 的情況」最有可能造成我們的實驗結果。假設袋中的紅白球比不是 6:4（例如 7:3 或 9:1），則不太可能導致我們現在出現的實驗結果。這個就是最大概似估計法的精神。並且我們知道，重複進行抽樣的次數越多，我們的估計就可能越精準，越接近正確的比例（也就是統計學上的「信賴區間」越小）。

問題來了。如果今天我們被限制，總共只能進行 10 次抽樣呢？或是 5 次？甚至只有 1 次？如果今天我們只能抽取一次，並且抽出了白球，我們能依照這個實驗結果對袋中的紅白球比例進行什麼推論呢？

上面這個難題，成為了古典統計學（或稱頻率學派）的硬傷。顧名思義，頻率學派的推論哲學，即是相信大數法則（Law of Large Number, LLN），相信只要進行足夠多次的抽樣試驗，最終實驗中某事件出現的頻率會趨近該事件發生的機率。這時，在抽樣次數不足的情況下，古典統計的估計方法可能不穩定，甚至出現偏差較大的結果。舉上面的例子而言，如果我們在面對只有一次抽樣機會，並且抽出白球的情況下，透過 MLE 計算得出的紅白球比例是——0:1。也就是袋中全部都是白球（當然，估計的信賴區間會大到這個數值幾乎沒有實用意義）。

袋中全是白球的狀況固然不是沒有可能，但不太符合直覺對吧？如果我說，有一種統計方法能在這種情況下，有機會給出比較好的推論呢？今天介紹的主角「貝氏統計」就能做到，而它做到的方法，便是要你相信你的直覺。

尊重直覺的貝式統計

投擲一枚（不必然公正）硬幣，出現正面的機率是多少？投擲一顆（不必然公正的）骰子，出現三的機率是多少？如果你的回答是「沒丟過不知道」，恭喜你，你是一名天生的頻率學派。如果你的回答是「二分之一⋯⋯？」和「六分之一⋯⋯？」那恭喜你，你是一名貝氏學派統計學家。怎麼說呢？

如前言所述，頻率學派的統計學家認為對於母體參數（也就是真正的機率）最理性的估計方法就是透過實驗和數學推論，並且屏除人類直覺的主觀干擾。乍聽之下非常合理，頻率學派的推論方法也的確在統計領域數百年來屹立不搖，直到現今都還十分受歡迎。但假設今天碰到前言的情況，只能進行一次實驗呢？這時你要相信一個孤立無援的抽樣結果，還是自己的直覺？

在另一方面，十八世紀橫空出世的貝氏統計則採取了另一個方法。

貝氏學派肯定信念的重要性。信念也就是在你做任何實驗前，根據經驗、直覺、常識，甚至盲目猜測的主觀機率。這個機率在貝氏統計的術語中稱為先驗機率（或先驗分布，prior distribution）。舉不必然公正硬幣的例子而言，如果我們在實驗前猜測，出現正面的機率很有可能是 1/2，並且認為硬幣不太可能非常不公正（例如正面或反面的機率為 1），我們可能會依據這樣的信念，將硬幣出現正面的先驗機率表示成下面這張圖¹：

這是典型的機率密度函數（probability density distribution, pdf），x 軸為硬幣出現正面的機率，y 軸可以簡單理解為「可能性」。可以發現函數圖形在 x=0.5 時達到最高，這也就代表我們在實驗前，猜測硬幣出現正面機率為 0.5 的機率最大，且硬幣出現正面的機率不太可能非常高（x=0.9）或非常低（x=0.1）。這種對於連帶參數的不確定性也納入考量的方法，也是貝氏統計另一個非常重要的性質，將會在下一節提到。

有了直覺作為基底後，我們便可以開始進行實驗。假設我們投擲了三次硬幣，竟然連續三次都出現反面，此時我們會透過貝氏定理（也就是高中數學課出現過的那條公式，至於如何使用不是本文的討論範圍）對我們的先驗機率進行更新，重新繪製一幅機率密度函數，或許會長成這樣：

這個更新過後的機率，就被我們稱為後驗機率（posterior distribution）。可以發現，現在函數圖形的最高點在 0.4 上下，也就是說我們傾向相信這個硬幣可能是不公正的，而且出現正面的機率可能為約 0.4。值得注意的是，如果同樣的實驗結果（連續三次反面）由頻率學派解讀，可能會不得不承認，這個硬幣出現正面的機率是 0（一樣，信賴區間會大到使得統計值沒有實用意義），畢竟在有限次的實驗之中，沒有任何一次出現過正面。此時貝氏學派的優勢就很明顯了。

我們可以繼續進行實驗，此時剛才的後驗機率成為了現在的先驗機率，也就是我們透過經驗累積修正了我們的信念，並且繼續透過更多的實驗對機率進行更新。如果在 1,000 次實驗過後，僅出現 100 次正面，卻有 900 次反面，我們更新後的後驗機率則會像這樣：

此時機率最高的地方出現在 \(x=0.1\) 上下。經過這一連串的機率修正，我們發現貝氏學派的核心宗旨正是試錯（trial and error），並且面對實驗結果不停更新機率，並在我們的信念和實驗結果間求取一個平衡。

貝氏統計在此的優勢盡顯：在實驗次數有限的情況下，我們追求先驗的信念和實驗結果間的平衡，使得推論出來的機率不會太偏頗；隨著實驗次數增加，我們獲得越來越多資訊後，初始信念的權重在一連串的更新下自然而然地下降，實驗結果的重要性上升，並且會在最後趨近頻率學派的估計。也就是說，貝氏統計進可攻，退可守，在實驗次數少時透過偏重信念，穩定機率推論，在實驗次數多時偏重數據，估計準確度上也不輸頻率學派。

至於先驗機率，或是信念，該怎麼挑選呢？這牽涉到非常深入的貝氏統計理論，不過簡而言之，通常我們可以透過專家推論（氣象學家認為的颱風登陸機率）、經驗法則（過去半年來觀察到的晶片良率），或單純的「我不知道」（認為硬幣出現正面的機率從 0%-100% 可能性一樣高），這些都有機會成為良好的先驗機率。

擁抱不確定性的貝氏統計

從上一節的討論中，細心的你可能已經注意到貝氏學派和頻率學派的另一個差異。頻率學派會告訴你他們推論的機率值，但貝氏學派只會給你一張圖，也就是密度函數（也就是上一節提到的「機率的機率」）。這是貝氏統計的一大特點：將母體參數的估計視為變數。

頻率學派的哲學相信，任何事物發生的機率都有一套固定、真實的值（袋中的紅白球比一定有一個答案、明天下雨的機率一定有一個正確的數值等等）。從有限的實驗次數中觀察，並推論出那個真正的答案（母體參數）便自然而言地成為了頻率學派的目標。也因此，頻率學派的推論方法最終都回到三個估計法：點估計（找到確定值）、區間估計（找到包含確定值的範圍）、假設檢定（驗證我的值猜測準不準確）。一言以蔽之，頻率學派相信母體參數是一個不會變的常數，所以我們要找到一個常數來估計它。

另一方面，貝氏學派選擇另一種態度：無論母體參數存在與否，在沒有母體下，我們都承認不可能找到正確答案，所以就連最不可能的答案我們都不排除，因此，估計的結果應該是一個變數。

回到上方擲硬幣的例子，在出現 100 次正面和 900 次反面後，頻率學派可能會跟你說：「我們有 90/95/99/…% 的信心，硬幣出現正面的那個正確機率大概落在 0.1 上下²」。

但貝氏學派只會再一次給出這張圖：

並且兩手一攤，告訴你：「我們沒辦法真的知道硬幣出現正面的機率，不過在實驗過後，我們認為硬幣是正面的機率，有很高的機率是 0.1。但也有一點可能性是 0.13。另外，雖然可能性不高，但我們也不排除出現正面的機率是 0.5，說不定我們只是運氣很糟，一直丟到反面而已。什麼事都有可能發生，對吧？」想從一個堅實的貝氏統計學家口中套出那個真正機率非常困難，他永遠會告訴你「我們不排除所有可能」，並且給你一張機率函數圖形，因為它呈現了我們對不確定性的完整認知。

我們能不能從機率密度函數圖形中找出那個答案？也不是不行。如果我們非得要寫出一個數字，我們可能會選擇這個函數圖形的平均值或是眾數（函數圖形最高的那一點），但從一個貝氏統計學家的視角出發，沒有一個點能夠比起整個圖形，給出更完整、全面的資訊。

這或許是貝氏統計最令人費解，卻也最迷人之處。許多人初見貝氏統計時，可能是驚訝大過於仰慕：「所以那個答案不存在？」但貝氏統計想說的其實是：「除非你有母體資料，否則你永遠不可能知道真正的答案，我們的的推論只是在反映我們不知道的這個事實而已。」有人可能會批評貝氏統計的推論方法不負責任、逃避問題，但也有人認為這方法正是勇敢的表現：勇於承認我們的無知，不執意追求我們無法得知的那個答案，保持謙卑，並正面擁抱不確定性。

結論

正是這兩個推翻傳統統計哲學的新思想，讓貝氏學派與眾不同，在發展至今成為和頻率學派得以分庭抗禮的統計學派。貝氏統計從稱之為信念的先驗機率出發，在實驗過程中逐步更新、修正，導出後驗機率。並且，貝氏統計傾向將母體參數視為一個變數，而非一個常數。

你可能會問，現實中有什麼狀況是不能透過大量重複實驗推論得知的？其實還真不少：最新落成的核電廠發生核洩漏意外的機率、台灣在下一屆棒球經典賽打入四強的機率、某一位罕病人士在五年內的存活率等等，這些都不是可以大量複製的實驗。而貝氏統計的強項之一便在於此。我們可以先透過對核電廠周圍環境、球隊陣容與球員能力、疾病的生理特性等背景資訊，推論出先驗機率。接著再透過少量的觀察資料進行更新，便能產生有意義的統計推論。貝氏的使用情境不僅於此，還有許多情境中，貝氏統計意外地可以給出比起頻率學派更有幫助的答案。

當然，即便兩個學派的哲學相去甚遠，這並不代表我們必須要選邊站。在多數情況下，貝氏學派和頻率學派的理論學說相輔相成，學術界更常同時參採兩方的長處進行更完整的推論。

回到球袋的問題

回到一開始的球袋問題，一個貝氏統計學家會怎麼解讀只能抽取一次，並抽到白球的狀況呢？

我們會先定義一個先驗機率。例如，如果我們沒有足夠的理由相信袋中紅白球的比例為多少，或許我們可以先設定這樣的先驗機率³：

也就是，我們認為袋中紅白球比例無論是多少，都有一樣的可能性。可能是 1:9，可能是 2:8，可能是 3.1415:6:8385。我們對於每個比例的可能性都採取相同的開放態度（當然，你可以依據其他的理由選擇不同的先驗機率，這當然也會導致不同的後驗機率，不過在此只以其中一種常見的作為範例）。

在單次試驗並抽出白球後，我們便會對我們的信念做出修正，計算出後驗機率：

這時，貝氏統計學家可以這樣回答這個問題：「我們不知道袋中的紅白球比例，但是我們認為紅白球比例為 1:9 （含以下）的機率大約是 0.2（圖中著色部分），同時我們不排除其他可能性，在有更多次實驗後，我們才可以給出更有自信的答案。」

不知道這樣的說法是否有說服你？不知道你是否覺得這比起頻率學派的「比例是 0:1，但我超級不確定，以至於這個推論幾乎沒有參考價值」更能給出較為全面、有意義的答案？無論你是否有被貝氏統計說服，希望這篇文章成功提供給你一種全新觀看統計推論的視角。

最後的最後，讓我們用一張美妙的 GIF 結束整篇文章，動態呈現貝氏統計如何從一個不帶資訊的先驗機率（藍線）開始，透過後驗機率修正，逼近一個紅白球比為 2:8（紅線）的球袋實驗吧。

註解

熟悉機率論的你可能知道，這裡使用的是 Beta(5,5) 的機率分布圖形。事實上，整篇文章的機率函數圖都是不同參數的 Beta 分佈。 ↩
這裡其實在不嚴謹的情況下使用了信賴區間的概念，如果有堅實統計背景的人可能會覺得怪怪的，不過因為古典統計學不是這次討論的重點，因此恕我這樣潦草地帶過。 ↩
其實在這樣的先驗機率下做後驗機率修正，並求取最大後驗機率（maximum a posterior, MAP）等價於直接求取 MLE，但如文中所述，MAP 這種單一估計值的觀念其實稍微背離了貝氏的哲學，通常作為輔助決策用。 ↩