理解樣本變異數與自由度(一):自由度
本篇文章將會用非常直覺、深入淺出的方式,從樣本變異數的公式出發,讓不熟悉統計的人或是統計初學者對統計中無所不在卻又神秘的術語「自由度(Degree of Freedom)」有基本的理解,並且從多個面向解釋這個許多人常常一知半解的統計疑問:
到底為什麼樣本變異數的公式,分母是 n-1?
文章會以如下的架構進行:整部文章將會分為三篇。我會先帶你直覺理解什麼是自由度,並會告訴你樣本變異數為何要使用 n-1 的自由度(只用 n 的話會如何?用 n-1 又有什麼好處?)。我會用十分直覺的方式帶你理解使用(或不使用) n-1 導致的效果。最後,我會用專業統計的語言給你更全面的解釋。
我盡力將整篇文章由淺入深,由直覺到數學,一步一步帶領你理解自由度和樣本變異數。這樣的好處還有一個:你不必然要將整篇文章從頭到尾看完。你可以依據你專業上或興趣上的需要,看到你滿意的地方為止,無需太過於深入統計細節,也不會被滿滿的數學嚇壞。
這篇文章不是專業嚴謹的定義解釋,而是我融合所學與經驗發想出,希望以更生活化、更少數學定義的方法理解統計語言的文章(簡單來說,專業統計人看到可能會高血壓的文章)。如果你更想看到專業、不含糊、數學定義正確的文章,這並不是這篇文章的主要目的,網路上有更多更好的文章)
開始之前
最一開始,我們先來看一下母體變異數(\(\sigma^{2}\))與樣本變異數(\(S^{2}\))的公式(對於公式熟悉的你可以直接挑過這段)
母體變異數:
\[\sigma^{2} = \frac{1}{n} \sum_{i = 1}^{n}(x_{i} - \mu)^{2}\]其中 n 為樣本數,\(\mu\) 為母體平均值(或稱期望值)。
另一方面,樣本變異數的長相為:
\[S^{2} = \frac{1}{n-1}\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}\]其中 \(\bar{x}\) 為樣本平均值,公式為 \(\bar{x} = \frac{1}{n}\sum_{i = 1}^{n} x_{i}\) 。在不知道母體變異數和母體平均值的情況下,我們就可以利用樣本的平均值和變異數來估算母體的變異數。
直覺理解自由度
所以為什麼樣本變異數的分母中,我們的樣本數硬生生少了 1?在許多統計學的課堂上,或許我們都被要求「背下來就好」,或是用一句「分母寫的是自由度」帶過,但究竟什麼是自由度?
我們在高中數學習題中,一定有做過一種題目(這題數學很簡單拜託不要關掉分頁):
小明紀錄了自己五天的看書頁數,並計算出平均值為 15 頁。有天他意外將桌上墨水打翻,五染了第五天的數據。已知小明前四天看書的頁數分別為 20、16、14、15 頁,請問小明第五天看了幾頁?
我們可以帶入平均值的公式 \((20 + 16 + 14 + 15 + x) / 5 = 15\),並且算出第五天被污染的數字正是 x = 10 頁。但這和自由度有什麼關係?
想像一下我們進行抽樣的場景。假設我們打算抽出五個數據,在這五個數據被抽出前,它們的狀態都是「自由」的:在我抽出來之前,我完全無法猜到下個數據會是多少,最後抽出來的數值可能極高,也可能極低,但我無從得知。我們稱這種自由的狀態為「自由度」。因此如果我打算抽出五筆數據,這個抽樣就有五個自由度。
現在想像另一種情況:我抽出五個數據,但我在抽出數據前,就莫名得知了這五個數據的平均值為 15。當然,在抽出前四筆數據時,我依然不知道我會抽出什麼數值,這四個數據仍然是「自由」的。假設我分別抽出了 20、16、14、15 四個數字。現在的我,在知道平均值的情況下,就算不用抽也知道第五個出現的數值會是 10,因為只有 10 才可以讓我整個樣本的平均值變成 15(如果你還沒發現,這裡的數字跟上面的題目一樣)。
也就是說,在我抽出四個數據,並且知道樣本平均數的情況下,第五個尚未被抽出的數據其實已經沒有自由可言了。這時,我們的樣本就損失了一個自由度。一言以蔽之,如果我們知道大小為 n 的樣本的平均值,在我們得知 n-1 個數據的實現值後,最後一個數據可以直接被我用平均值推算出來,這個數據的實現值對我而言已經沒有隨機性(自由!)了。
有些人可能會將自由度理解為「給定某些統計量,完全復原樣本所需的最少數據數量」,就像一開始的高中題目,小明能夠復原第五天閱讀的頁數一樣。這是一個不太精確的說法,但以這篇文章而言,這樣的理解也夠用了。
最後,用上數學的話來說,自由度就是在估計時,樣本中獨立且能夠自由變化的觀測值數量。
回到我們最一開始,樣本變異數的公式:
\[S^{2} = \frac{1}{n-1}\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}\]仔細一看,會發現括號當中有一個 \(\bar{x}\)(樣本平均值)存在!也就是說,在估算樣本變異數時,我們已經用上了一個被我們當作已知的資訊(也就是平均值),在這條公式當中,給定平均值後,已經有一筆數據默默地失去了自由變動的權利,因此我們也損失了一個自由度。這也是為什麼我們在分母會寫上 n-1 了。
看到這裡,可能很多人還是不滿意。好,我大概知道自由度是什麼了,但為什麼分母必須要寫上自由度?我改用樣本數會怎麼樣嗎?
下一篇文章,我會針對這個問題盡量給出一個簡單直覺的解釋。
文章總結
- 自由度描述的是樣本中獨立的隨機(自由)變化數值的數量
- 當我們得知樣本平均值後,只需要 n-1 筆數據,就能推算最後一筆數據的值
- 我們在計算樣本變異數的時候,用上了樣本平均值。給定了樣本平均值後,我的樣本中可以自由變化的數據其實只剩下 n-1 筆,因此分母必須隨之調整。
(如果你只是想知道自由度是什麽,看到這裡就可以結束了,希望能滿足你的小小好奇心。下一章之後我僅會單純就變異數的分母問題進行深入討論。)
下一章:第二章