2. 資料摘要
話說,我們對於所關心的問題,透過資料處理來獲得解答。在開始資料處理之前,我們得先了解我們可以有什麼樣的方法與角度來看資料。
之前,有提到母體與樣本是不一樣的。我們一般是用樣本去推估母體。因為是推估,就會有誤差。其實,玩到最後,根本就是在處理誤差。
好,要得誤差之前,還是得先學會到底資料長什麼樣子,再來說如何整理資料。
假設你是一家生產矽力康的公司。在出品前,不是應該要告訴人家說一瓶到底能夠塗滿多少面積。理論上,若不考慮塗佈者的技術問題,相同的容量當然可以塗佈相同的面積。問題是在裝填的過程中,往往就會出現差異了。
好,先不管到底出現差異的來源是什麼,假設我們拿了32瓶包裝好的產品去做實驗,結果我們就會得到32組數據。
補充說明:就物理而言,單位很重要。就數學而言,就不是那麼重要。
資料來源:Introductory Statistics for Engineering Experimentation, Elsevier.
101.8 100.5 100.8 102.8 103.8 102.5 102.3 96.9
100.0 99.2 100.0 101.5 98.5 101.5 100.0 98.5
100.0 96.9 100.7 101.6 101.3 98.7 101.0 101.2
102.3 103.1 100.5 101.2 101.7 103.1 101.5 104.6
取得這個32瓶產品,就是一個取樣的過程。想要驗證你的製程能力,或者去看作業員的工作品質,都會影響你取樣方式。但是,「隨機取樣」的概念一定跑不掉的。
面對這些經由實驗後所得到的數據就是這樣子。因為是量測資料,所以,最後一位是估計值。(但在這邊不是重點)
接著我麼要想,怎麼來看待這些資料。
找平均值?也許吧。
每一瓶的塗佈能力的理論值,應該就是平均值吧。可是,我想看看目前生產機器是否有問題,生產出來的是偏低還是偏高呢?
或者,你根本沒有理論值,反而是要去看看他最容易生產出什麼數據。
可以有好多好多種應用需求,是吧!
可是,我們都知道,圖勝於文吧,更何況是一堆長了差不多的數字。所以,把資料畫個圖來呈現應該是不錯的想法。
那~應該要畫什麼圖呢?又是一個大問題了。
一般我們畫圖,就得定義出橫軸 (X) 與縱軸(Y)代表什麼意思。一般橫軸最常用的就是時間。
但是,就本案例來說,當初並沒有收集到時間,那個數字的順序並不能代表時間。況且,我們想知道的是到底製程是否正常。他發生異常應該也是隨機的。如果跟時間有關?哇~那就得看看,是不是作業員的關係。這也是我們在研究問題時,常常搞錯對象。
那該怎麼處理呢?
我想知道的應該是出現這個資料的頻率吧。頻率的意思是說某某東西出現幾次。回到原始數據,好像一樣的不多,把每個原始數據都當做一個分組的話,那就沒有意義了。所以,我們就得試著為這些資料好好地來「分組」。原始數據落在哪一分組,那該組次數就加1了。
接著再根據整理後的資料,X軸是你分組的組距,Y軸是該組距下的次數。那~這樣的圖叫做「直方圖」。
(留著下回,每次以不超過一頁面為原則)
沒有留言:
張貼留言