Bootstrap方法統(tǒng)計數(shù)據(jù)質(zhì)量評價研究

時間:2022-07-03 03:13:38

導語:Bootstrap方法統(tǒng)計數(shù)據(jù)質(zhì)量評價研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

Bootstrap方法統(tǒng)計數(shù)據(jù)質(zhì)量評價研究

摘要:統(tǒng)計的作用在于服務國家宏觀決策和人民生產(chǎn)生活,它在反映國民經(jīng)濟和社會發(fā)展水平、為黨和國家制定正確的決策、預測未來發(fā)展趨勢等方面發(fā)揮著舉足輕重的作用。統(tǒng)計數(shù)據(jù)要實現(xiàn)以上功能,必須保證統(tǒng)計數(shù)據(jù)高質(zhì)量。數(shù)據(jù)作為生產(chǎn)要素,在數(shù)據(jù)要素市場化過程中,如果不能保證其質(zhì)量,數(shù)據(jù)價值不但得不到體現(xiàn),反而會給使用者帶來不良的后果。本文首先介紹了數(shù)據(jù)質(zhì)量的概念和bootstrap方法的基本原理,然后基于Bootstrap抽樣并應用統(tǒng)計分布驗證方法對統(tǒng)計數(shù)據(jù)質(zhì)量進行評估,最后對山西統(tǒng)計局公布的地區(qū)國內(nèi)生產(chǎn)總值數(shù)據(jù)質(zhì)量進行驗證評估。

關鍵詞:數(shù)據(jù)質(zhì)量;Bootstrap方法;統(tǒng)計分布

毋庸置疑,大數(shù)據(jù)時代下,數(shù)據(jù)充分發(fā)揮其價值的必備條件是要有高質(zhì)量數(shù)據(jù)。2021年1月19日統(tǒng)計局局長寧吉喆在題為“推進統(tǒng)計現(xiàn)代改革”中指出:“統(tǒng)計數(shù)據(jù)作為國家經(jīng)濟發(fā)展的晴雨表已經(jīng)取得了顯著的成績,但它發(fā)揮的作用還不夠充分,還有待開發(fā),數(shù)據(jù)質(zhì)量需要進一步提升”。統(tǒng)計數(shù)據(jù)質(zhì)量的內(nèi)涵也不再僅僅是準確,大數(shù)據(jù)背景下,適合的才是最好的,用戶需求也是衡量數(shù)據(jù)質(zhì)量的一個方面。近年來,科技發(fā)展迅猛,新型技術的發(fā)展突飛猛進,物聯(lián)網(wǎng)、人工智能、云計算的發(fā)展讓人應接不暇,海量的數(shù)據(jù)紛繁復雜,如何保證數(shù)據(jù)的質(zhì)量,已成為上到國家,下到每一位統(tǒng)計相關者關注的問題,也是我們亟待解決的問題。在此背景下,數(shù)據(jù)質(zhì)量評估無疑是保證高質(zhì)量數(shù)據(jù)的前提條件。在數(shù)據(jù)評估研究方面,祝君儀(2015)6在《大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質(zhì)量的評估方法及適用性分析》一文中分析了目前常用的包括邏輯規(guī)則檢驗、核算數(shù)據(jù)重估、計量模型分析、統(tǒng)計分布驗證、調(diào)查偏差評估、多維評估延伸六種評估數(shù)據(jù)質(zhì)量的方法,但僅僅是定性分析。成邦文等(2001)2已經(jīng)證明如果統(tǒng)計指標反映的是經(jīng)濟社會規(guī)模(如產(chǎn)量、銷售收入等),則統(tǒng)計量均趨于對數(shù)正態(tài)分布,并提出了統(tǒng)計數(shù)據(jù)質(zhì)量評估的對數(shù)正態(tài)分布檢驗法。本文基于社會規(guī)模服從對數(shù)正態(tài)分布,利用Bootstrap抽樣法對統(tǒng)計數(shù)據(jù)質(zhì)量進行評估。

一、基本概念及理論

(一)統(tǒng)計數(shù)據(jù)質(zhì)量

對于統(tǒng)計數(shù)據(jù)質(zhì)量還沒有形成統(tǒng)一公認的定義,隨著大數(shù)據(jù)時代的到來,統(tǒng)計數(shù)據(jù)質(zhì)量的內(nèi)涵從準確性這一個維度擴展到多個維度。衡量數(shù)據(jù)質(zhì)量最明顯的標準就是數(shù)據(jù)的準確性,即數(shù)據(jù)信息準確描述其所代表的真實機構(gòu)或現(xiàn)象的程度。除了準確性這一特征外,數(shù)據(jù)的時效性、精確性、完整性、一致性都是數(shù)據(jù)質(zhì)量的重要表現(xiàn)。當然在眾多的維度中,準確性是擺在數(shù)據(jù)質(zhì)量的第一位的,只有數(shù)據(jù)準確,數(shù)據(jù)分析結(jié)果才有效,管理者據(jù)此做出的決策才正確。本文的研究是基于數(shù)據(jù)準確性進行研究。

(二)Bootstrap基本思想

Bootstrap是1979年Efron在他的論文<Bootstrapmethods:anotherlookatthejackknife>一文中首次提出,又名撥靴法,Bootstrap方法在現(xiàn)代統(tǒng)計學中應用非常廣。Bootstrap方法是一種利用計算機軟件實現(xiàn)抽樣的方法,其基本原理是基于初始給定樣本重復抽樣,本文設置1000條抽樣路徑,故可得到1000個樣本,基于所得樣本計算研究者關心的統(tǒng)計量,在抽樣次數(shù)足夠大條件下很容易得到統(tǒng)計量的分布圖。Bootstrap抽樣的優(yōu)點在于不需要事先對總體分布進行假設,根據(jù)中心極限定理,在樣本量足夠大條件下,樣本統(tǒng)計量會無限逼近總體分布。

(三)評估步驟

步驟1:假定為初始樣本,利用Matlab中Bootstrap函數(shù)從此樣本中有放回抽取m個樣本,本文規(guī)定m=1000。步驟2:根據(jù)1中抽樣結(jié)果,計算各自樣本統(tǒng)計量,具體利用Matlab中mean函數(shù)計算均值統(tǒng)計量,即可得到1000個樣本均值;步驟3:基于2中計算結(jié)果,調(diào)用log函數(shù)計算統(tǒng)計量的對數(shù)值;步驟4:利用QQ圖及單一樣本Kolmogorov-Smirnov檢驗3中結(jié)果是否服從正態(tài)分布,如果是,說明統(tǒng)計量服從對數(shù)正態(tài)分布,統(tǒng)計數(shù)據(jù)質(zhì)量符合要求,否則,統(tǒng)計數(shù)據(jù)誤差大,需要修正。

二、數(shù)據(jù)收集與實證研究

(一)數(shù)據(jù)收集

本文以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對象,對其進行數(shù)據(jù)質(zhì)量評估。表1是山西省2000-2019年地區(qū)生產(chǎn)總值。

(二)驗證對數(shù)正態(tài)分布

利用Bootstrp方法對2000-2019年山西省地區(qū)生產(chǎn)總值進行可放回的重復抽樣1000次,進而得到1000個Bootstrap樣本,然后根據(jù)每一個樣本計算對應的均值,從而得到1000個樣本均值,接著計算樣本均值對數(shù),然后通過spss繪制其對應的直方圖,如圖1所示。從圖1可以直觀的看出,統(tǒng)計量的對數(shù)服從正態(tài)分布,從圖中只是很形象的觀察出統(tǒng)計量對數(shù)的分布,要想進一步證實其為正態(tài)分布,還需要進行統(tǒng)計檢驗。本文使用Q-Q圖檢驗和K-S檢驗兩種方法對統(tǒng)計量對數(shù)進行正態(tài)性檢驗。(1)Q-Q圖又名分位數(shù)圖,通過比較實際觀測數(shù)據(jù)分位數(shù)與正態(tài)分布分位數(shù)是否一致來檢驗數(shù)據(jù)的正態(tài)性。具體是通過做散點圖,觀測兩列數(shù)據(jù)的分位數(shù)是否分布在參考直線上,如果是,說明被檢驗數(shù)據(jù)服從正態(tài)分布,否則非正態(tài)。通過SPSS中Q-Q圖功能對樣本統(tǒng)計量對數(shù)進行檢驗,結(jié)果如圖2所示,從Q-QPlot中,各點幾乎全部落在參考直線上,說明被檢驗數(shù)據(jù)服從正態(tài)分布。(2)K-S檢驗。在利用Bootstrp方法得到1000個樣本均值對數(shù)后,為了檢驗樣本均值對數(shù)的分布,提出原假設和備擇假設,原假設為樣本均值對數(shù)服從正態(tài)分布,備擇假設為樣本均值對數(shù)不服從正態(tài)分布。通過SPSS中的非參數(shù)檢驗K-S方法進行檢驗,輸出結(jié)果如表2,從表里可以看出,K-S檢驗中,Kolmogorov-SmirnovZ值為0.022,P值(雙側(cè))=0.2,在給定顯著性水平α=0.05條件下,顯然P>α,所以接受原假設,說明樣本均值對數(shù)服從正態(tài)分布。

結(jié)語

本文研究新時代統(tǒng)計數(shù)據(jù)質(zhì)量評價方法,利用對數(shù)正態(tài)分布來評估數(shù)據(jù)質(zhì)量,鑒于研究數(shù)據(jù)分布需要足夠的樣本容量,然而現(xiàn)實數(shù)據(jù)無法滿足此要求,故采用Bootstrap重抽樣方法解決兩者間矛盾。通過以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對象,驗證采用Bootstrap方法構(gòu)造的統(tǒng)計量是否服從對數(shù)正態(tài)分布判斷真實數(shù)據(jù)的數(shù)據(jù)質(zhì)量,通過檢驗,結(jié)果表明山西省2000-2019年地區(qū)生產(chǎn)總值統(tǒng)計數(shù)據(jù)質(zhì)量可靠。

參考文獻

[1]寧吉喆.推進統(tǒng)計現(xiàn)代化改革[R/OL].[2021–01–19].

[2]成邦文.研究與開發(fā)機構(gòu)統(tǒng)計數(shù)據(jù)質(zhì)量與異常點的對數(shù)正態(tài)分布檢驗與識別[J].統(tǒng)計研究,2000(1):42–45.

[3]EfronBradley.Bootstrapmethods:anotherlookatthejackknife[J].TheAnnalsofStatistics,1979(1).

[4]白永昕,閆懋博,基于Bootstrap方法的多維統(tǒng)計數(shù)據(jù)質(zhì)量評估[J].統(tǒng)計與決策,2020(11):5–9.

[5]宗威,吳峰.大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學學報(社會科學版),2013(5):38–43.

[6]祝君儀.大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質(zhì)量的評估方法及適用性分析[J].中國市場,2015(29):41–42.

[7]王華.政府統(tǒng)計數(shù)據(jù)質(zhì)量的用戶滿意度測評——基于多層次模糊綜合評價的實證研究[J].商業(yè)經(jīng)濟與管理,2010(5):62–70

作者:張會清 單位:晉中信息學院