想想打靶吧。
有一個人,「集中性」很差,一張靶紙上到處都有彈孔,可是,就是有幾個剛好射中靶心。成績很高。
另一個人,「集中性」很高,彈孔都集中在某一個區塊,可是,一堆彈孔就是離靶心很遠。
這兩個人到底誰厲害呢?
若光看平均數,你選了第一個人,那要殺敵還得碰運氣。
若是第二人,也許該告訴他,若想打A這個地方,應該要瞄在B的位置。或者應該說,其實是準心歪了,或者槍根本沒經過校正。
問題很多,但是,打靶的目的,就是要我們發現問題,解決問題。
是的,取樣的過程,就是要去發現問題,解決問題。
射手就是所謂的製程。
射出彈孔就是取樣的過程。
彈孔的所在位置,就是收集的樣本資料。
靶心是理想平均數,實際上應該稱之為期望值。
計算彈孔的平均數(因為是平面,所以會有X與Y)
但是~~散佈情形呢?
其實,散佈的反義好像是集中。其實,這個是相對的意義。
也就是說,應該要有個方法來計算散佈情形,然後得到一個值,可以相互比較。
分散性
只要有取樣得到一系列數字,就可以算樣本平均數。
如果去計算每個數字與平均數之差,感覺上好像可透過距離來呈現他的散佈性。
可惜,樣本資料有些比平均數大,有些比平均數小,這樣子來回抵消掉,也看不出什麼特性。
當然可以取絕對值,不過,如果用平方的話,是不錯的選擇。
樣本值與平均數之差,不就是「誤差」嗎?把所有的誤差先平方,避免抵消效果。然後再全部加起來,似乎可用來代表這組樣本資料的散佈情況。計算所得之值如果越大,就表示他的散佈情況就很嚴重。越小,就表示越集中。
專業一點的說法,這個計算之值稱之為樣本變異數。
他的公式如下:
這個公式應該不難理解,就是先計算平均數,然後個別數據資料減去平均數後再平方。每一個都這樣子做完之後,加總起來。之後,再除以n-1。
回想一下,平均數是除以n是吧。這兒為什麼要除以n-1呢?
我想,開始學統計的人,這是最無法理解之事。(喔~起碼我是)
這個n叫做自由度。
同一個數字,除以n 與除以n-1,所得結果何者為大,當然是n-1。
好,這個是來看散佈性,越小就是越集中,越大就是越分散。(有那種味道)
可是,我們只取得樣本資料不是嗎?這個數值越小,猜錯的機率不是越大嗎?
之前平均數,我們取了n個數字,這些數字真的是我們取得的。所以,除以n沒問題,有信心。
可是,樣本變異數,好像要減一個平均數,這可不是我們抽樣取得,他是計算結果,不是嗎?而且,他也只有樣本呀,並不能代表母數?你的信心度是不是應該要下降一點。也就是說,你的自由度(不是你操作的)不就應該少一個嗎?(這個就是平均數)所以,加總後所得除以n-1。後續,會看到n-2的,你應該可以聯想到,是在公式中會有兩個數字是經過計算所得,而不是原始的樣本資料。
其實,比較常用的是標準差,他的公式:
用試算表軟體,都有公式可以輕鬆算出來。
下圖C欄下方是用內建公式算的。至於D欄則是依據統計公式算的。
沒有留言:
張貼留言