1. 簡介
資料(Data)充斥在我們生活周遭,但能善加利用者希矣。因為資料得經過處理(Process)後,才有可能轉變成資訊(Information)。迨蒐集完充分資訊後,才有助於完成一個決策(Decision)。資料要如何收集,哪些需要收集,什麼才是有用的資料。這部份得從專業知識與經驗、要解決問題與未來需求等角度切入後,才能得到答案。這部份又是一個有趣的議題。
但這系列我想學習的是,資料的處理與應用。
在開始之前,有些專有名詞得先定義清楚。
population: 母體。也就是你所關心的問題與或你要解決問題對象中所有可能的資料對象。他可能是有限的,也有可能是無限的。他有可能可以逐一訪視,但也有可能耗盡一生也無法訪視全部。
sample: 樣本。由於,時間與成本的因素,你可能無法完整收集母體資料。所以,只能從母體中取得部份的資料,這些資料叫做樣本。
random sampling:隨機抽樣。為了要保證取得部份資料即可代表母體,那這個收集樣本資料的過程就變得很重要。透過隨機抽樣的過程,可讓樣本資料能充分代表母體。如果抽樣過程有偏差,那從樣本資料要來描述母體的特性時,就會出現問題。
variability:變數。這是用來代表我們所關心母體,用來衡量母體某個特性的代表。他是一個量測值,因為,可能是從許多的抽樣出來的樣本資料所衡量之結果。因此,他就有可能帶有誤差。畢竟他不是真的母體。
experimental design:實驗設計。為了讓樣本資料衡量後的結果能夠非常接近母體,也就是誤差得要最小。那整個收集樣本資料的過程與計算方式就得審慎規劃。這個過程就叫實驗設計。
replication:重現。因為是用樣本資料來推估母體特性,那就會產生誤差。然而,誤差來源或造成錯誤因素有很多。為了讓非樣本資料誤差的因素降到最低,最好的方法就是同樣的實驗方式(收集資料的方式)多做幾次。反過來說,如果每次重現的結果都非常一致時,那就表示這個所設計的實驗方法非常的精確。
沒有留言:
張貼留言