地磅計量測試中異常數據剔除方法的探討
由于地磅計量測試工作屬于一項精細工作,它要求得到的各項數據要盡可能準確,因此在通過計量測量得到大量數據后,還應科學,合理的整理數據。為盡可能準確、高效地剔除異常數據,保證測得數據的有效性,本文在闡述了電子地磅計量測試工作意義的基礎上,分析了計量儀器產生誤差的原因,研究了測量數據異常值判斷準則,并結合本人實際工作經驗,總結了剔除方法在應用中應注意的事項,以供同行參考。
一、地磅計量測試工作的意義
對日常各類生產實踐而言,基于使用各種數據的需要,應評估檢測儀器,可借助評估結果來對檢測儀器的狀態能否滿足正常使用要求進行判定,檢測數據非常重要,只有參照數據,才能判定生產工藝穩定與否,各環節產成品與成品參數符合使用需要與否。通過計量測試工作,可對生產工藝的改進與變革進行指導,促進產品質量的不斷提高,若計量測試不準確、不科學,得到的數據就很難令人信服,那么想借助數據控制工藝過程、評定產品質量,持續改善產品質量就很難實現。
二、地磅計量儀器產生誤差的原因
從統計學的角度來看,我們通常會把一組重復測量數據中,明顯與其它數據有差異的數據稱為可疑數據,與組內其它數據差異非常明顯是這種數據的主要特點,這一特點也就是我們通常所說的數據發生了變異,那么實際這種變異究竟合理與否,要想得出結論,必須得借助進一步判斷。
計量儀器具有一定的高精密性,有嚴格的外界環境要求。若外界環境變化劇烈,實際計量儀器的測試很可能會有嚴重偏差出現,造成檢測儀器的結果誤差較大。一般情況下,下列原因通常會造成計量儀器產生誤差:
1.有機械或外界震動沖擊檢測儀器。
2.電網供電電壓發生變化或存在電磁干擾使檢測儀器的正常工作受到影響。
3.檢測人員工作素質不高,工作技能不達標。工作疏忽、缺乏足夠的工作經驗,不正當操作。
4.測量儀器自身存在故障,如部分零件存在松動,內部有損壞的電子元件等。
異常值通常偏差正常合理值較大,若在計算中或判定過程中應用了異常值,通常會嚴重干擾計算結果,對人們正確決策的做出造成影響。因此我們必須盡力把異常值剔除,若在剔除過程中應用的剔除方法不正確,異常值造成的影響不但會很難消除,有時還會誤以為測量重復性較好,影響到數據判斷的真實性,只有正確剔除異常數據,最終的測量才能與人們的使用需求相符。
三、異常值判斷準則
在計量實踐中,下列幾種準則是我們常用來判斷異常值的準則:1)3∑準則;2)格拉布斯準則;3)肖維勒準則;4)t 檢驗法。
雖然以上幾種準這的實際內容存在差異,但置信概率在這幾種準則中都要用到,置信概率主要指隨機變量在置信區間內所落的概率,我們用 X 表示置信區間內測量數據的實際取值范圍,則以上幾種準則可進行如下表示:
1)3∑準則:
|Xd-X|>3σ
這個式子的含義是可疑數據與整組數據算數平均值的差的絕對值比 3 倍的標準偏差大,則應舍棄此數值。我們可把測得數據代入上式,若符合上式,我們可判定這個值屬于異常值,應剔除該值。
2)肖維勒準則:|Xd-X|>w·nσ在使用這個公式時,若獨立測量得到的數據,帶入上式后,上式成立,則我們可判斷異常值為 Xd,我們應把 Xd 剔除。
3)格布拉斯準則:
|Xd-X|≥G(α,n)s式中,測量數據用 Xd 表示,s 為貝塞爾公式計算的標準差,至于后面的G(α,n)查表可得到。
4)t 檢驗法。這種檢驗法主要是把可疑數值 Xi 外的數值來作為一個數據集合總體,我們可把這個數據集總體假定為正態分布,雖然這只是假定了一個數據分布,到底是正態分布與否,還需進行進一步判定,但在具體應用時,對于樣本實際符合正態分布與否通常都不進行深入判定,而將樣本近似看做是正態分布,可把可疑數值 Xi 看作樣本總容量為 1 的一個特殊替,在比較兩個總體時,若兩者在一個總體中包涵,那么顯著差異不應在兩者間存在,統計量 k 便可由此計算出來:
在上式中,我們用X表示樣本數據算術平均值;s 表示樣本數據標準差。用計算所得的 k 值,比較查t 分布表所得值,若比較結果比顯著性水平 a 下的 t 檢驗值大,則 Xi 的出現可說明只是一個小概率事件,可把它看作是一個異常值,進而剔除這個值。
四、實例判定
下面我們就結合一個實例來判定一下以上異常值的判斷準則:
如:等精度測量某測量量,得到了下列測量數據:10.002,10.204,0.218,10.228,10.230,10.312,10.320,10.342,10.346,可用以上方法進行判斷并把異常值剔除,置信概率可取為 95%,也就是 α=0.05。
我們懷疑異常值為 10.346。
通過計算可得:這十個數的平均值為 10.2317,X1 的平均值為 10.2231,
δ=0.0912,s=0.0888。
綜合計算異常值為 10.346,應把 10.346 剔除。
五、結語
在實際應用中,為確保測試精度的足夠,避免誤判現象的出現,可對以上判定準則的兩種或三種進行綜合,同時判斷,如果應用的這幾種判定方法,出現一致的結論,則應把可疑數據剔除,這樣可使判斷的可靠性得到大幅提升,而若應用這幾種方法后出現了不一致的判定結果,則對應剔除的數據必須進行慎重考慮,再次進行驗證,對于這種情況,筆者建議保留處理數據。這有這樣才能準確、高效地剔除異常數據,保證測得數據的有效性。