2013年6月21日 星期五

實驗設計-4



之前我們試著用直方圖來看我們資料的特性。一般是期望看出資料是左偏還是右偏,也就是最高點聚集區塊的位置。其實這樣不太科學的樣子。應該要有數字化來支持。

透過數字化的方式,其實也是從直方圖的感覺所衍生的。也就是要看出圖中的兩個重點:
1. 集中性
2. 分散性
哈~這兩個好像是矛盾右互斥的東西。
但是,對一堆我們想要研究的資料,在我們還沒有理解他之前,當然要看看他的集中與分散個別有什麼意思。

集中性

最常用的就是平均數(Mean),這裡所提到的是指樣本平均數。


假設收集了n個數據,分別是。把大家相加後,再除以總個數n,即可得。
這個數字具有「重心」的意義,也就是集中趨勢。
如果不考慮量測誤差,或者異常值,那應該每次取得的樣本值應該都是這個值。而且,我們也可以相信母體也應該是這個值。

但是,實際的情形可能不是我們所想像,有可能大部分的值其實都比理論平均值大一點,偏偏有一個值,就是筆理論平均值小很多,那平均下來,當然就會有偏差。
所以,有時候會想要去看看,如果我取樣n個並排序後,最中間那個值到底是什麼。如果他跟平均值一樣的話,那我們可以想像他的直方圖應該像是一個鐘形,中間高,兩邊低。
這個數字就叫做中位數。
可是我們抽樣的n,有可能是奇數,也有可能是偶數,最中間那個數就會不一樣了。


假設我們收集到下列11個數據:3,3,8,6,3,4,4,7,7,11,12
平均數的作法:
 

那中位數呢?
11個,所以是奇數,取最中間那個值就好,也就是第(11+1)/2=6個
先把原本的11個數據排序一下:
3,3,3,4,4,6,7,7,8,11,12
所以,第6個就是6。

跟平均數不一樣耶!!
是的,人生沒有樣樣都是完美的。

沒有留言:

張貼留言