數據挖掘技術提高民營經濟質量研究
時間:2022-08-10 10:30:14
導語:數據挖掘技術提高民營經濟質量研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
隨著大數據概念的出現,數據的價值越來越受重視。數據挖掘就是從大量的數據中挖掘出有用的信息,所以數據自身的質量對挖掘出來的信息有重要的決定作用。統計數據的質量是政府統計工作的生命線,關系著政府統計部門的形象和公信力。隨著經濟的發展,政府經濟統計數據被使用的頻率越來越高,人們也越來越關注統計數據自身的質量問題。然而,我國的一些官方統計數據常常受到諸多媒體和社會公眾的質疑,認為數據中水分太高,失真現象很嚴重。事實上,我國政府統計部門在提高我國統計數據質量方面已經做了很多努力,由于其面對的統計對象廣泛且復雜,導致數據質量提高的難度不斷增大。要提高政府統計數據質量僅僅依靠目前已有的方法和技術是不夠的,必須要引進新的技術手段,所以本文嘗試將數據挖掘技術引入到提高民營經濟統計數據質量研究中,以期能夠改善政府統計數據不能滿足使用者需求的現狀。
一、民營經濟和統計數據質量的內涵
(一)民營經濟的內涵
關于民營經濟的定義,尚未形成一致的觀點。一種較為認可的定義是,民營經濟是指除了國有及國有控股、集體經濟、外商和港澳臺商獨資及其控股的經濟組織,其主要成分是私營企業、個體工商戶和農民專業合作社。其中,私營企業和個體工商戶在民營經濟中占據了絕大部分。在當前有關民營經濟的統計資料和研究文獻中,基本上也是按照如上的構成成分加以統計和分析研究的。
(二)統計數據質量的內涵
關于統計數據質量的涵義,不同統計機構和學者對此有不同的定義。例如,加拿大統計局確定了衡量數據質量的6個方面標準:即實用性、準確性、及時性、可取得性、銜接性、可解釋性;英國統計局提出的數據質量的標準是準確性、及時性、有效性和客觀性。廈門大學博導曾五一教授在他的研究中認為,統計數據的質量并不限于通常人們理解的準確性,它的完整內涵應當包括:準確性、適用性、時效性、可比性與可獲得性等五個方面的要求。本文就借用曾教授的觀點,依照這五個標準來提高統計數據的質量。
二、民營經濟統計數據質量的現狀
政府對外公布的民營經濟相關數據頗多,比如民營經濟增加值、民營經濟的營業收入、民營經濟規模以上企業數、民營經濟對GDP的貢獻率等。民營經濟數據的質量高低對以其為依據所做的有關決策和結論的科學性有重大影響,所以提高民營經濟統計數據的質量具有重要意義。從總體上看,目前的統計數據可以反映我國經濟發展的大體趨勢。由于民營經濟統計的對象復雜多變且分布廣泛,使得民營經濟統計數據的質量還存在諸多問題,不能滿足使用者的需求。
(一)民營經濟統計數據失真的現象很嚴重
統計數據失真的現象早已被社會公眾所熟知,例如東北多個GDP造假縣域經濟規模超香港,地方GDP“增速高于全國、總量大于全國”等。統計數據失真主要是由統計制度不夠完善造成的。通過對福建省某市統計局的走訪,了解到目前民營經濟統計沒有專門的部門負責,而是將民營經濟中的不同行業分給不同的部門負責統計,在統計人員中也分出了調查隊和統計組兩個隊伍,數據的收集主要是由各級政府層層上報。有的政府上報的數據完全是虛假數據,這樣的統計制度難免會出現數據失真的現象。統計數據虛假是最常見的統計數據質量問題,也是危害最為嚴重的統計數據質量問題。這些統計數據完全是虛構杜撰的,根本就沒有事實依據。
(二)民營經濟統計指標不統一造成各地統計數據難以銜接
目前,從國家層面看,全國沒有統一的民營經濟定義,也沒有統一的民營經濟統計口徑和統計指標,也沒有明確一個部門牽頭負責民營經濟工作。各省對民營經濟統計工作沒有參照的標準,只能自成一體。各級政府部門都是根據自身的統計需要來制定各自的統計指標和統計口徑,這使得不同省份的民營經濟統計數據不具有可比性,相互間難以銜接。以山東省為例,工商聯、工商局、中小企業局三個部門都在抓民營經濟,而市一級多數由中小企業主管部門負責。從統計口徑上看,省工商局所統計的民營經濟指標實際上只是個體工商戶和私營企業,省中小企業局執行的是以前鄉鎮企業的指標體系,基本不用民營經濟這個概念,但到了市一級,中小企業、民營經濟用的都是這個數據,而概念和標準都十分清楚的中小企業從上到下都沒有專門的統計。概念界定不清、統計口徑不統一、統計體系不健全,給基層工作帶來很大不便。對此,山東省宏觀經濟研究院經濟研究所所長高福一認為,面對大數據時代,統計體系不完備,會對政府的科學決策造成一定影響。
(三)民營經濟配合統計工作的積極性不高,申報的數據較隨意
民營經濟的統計工作,僅僅依靠統計部門及其他政府部門遠遠不夠,需要各民營經濟實體的積極配合。從當前情況來看,由于缺乏相應的法律約束,民營經濟實體在這種“純義務”的統計工作上,很少采取主動配合的態度,對統計部門需要的統計資料也是敷衍了事,甚至有時要統計人員再三催促,才隨意地報上一組數據應付。這種不準確的數據嚴重影響統計報表的準確性,不利于我國民營經濟的統計工作。同時,民營經濟體對于涉及企業銷售總額與營業利潤等企業的敏感性數據,抵觸心理嚴重,這主要是其“怕征稅、怕露富、怕泄密”的心理造成的,如此一來,在對待民營經濟統計工作的態度上,民營經濟體本身就不愿意參與,也不會主動配合,大大降低了民營經濟統計工作的效率。由此可見,缺乏相應的法律約束,使民營經濟提供的數據與報表資料隨意性很大,給我國民營經濟的統計工作帶來非常大的困擾,這也是我國民營經濟統計數據質量不高的重要原因。
三、數據挖掘技術在提高民營經濟統計數據質量中的應用
數據挖掘的正式研究開始于1989年舉行的第十一屆國際聯合人工智能學術會議,從數據庫中發現知識(KDD)一詞首次在該會議中被提出。數據挖掘技術從一開始就是面向應用的,在國外很多領域,如金融、生物、電信、保險、交通、零售等領域,數據挖掘的應用都起到了明顯的效果。世界上研究數據挖掘的組織、機構和大學有很多,比如卡內基梅隆大學、斯坦福大學和麻省理工學院等。與國外相比,國內對數據挖掘的研究稍晚,沒有形成整體力量,直到1993年國家自然科學基金才首次支持該領域的研究項目,到上世紀90年代中后期,初步形成了知識發現和數據挖掘的基本框架。此后一批研究學術論文逐漸發表,但是基本上還是以學術研究為主,實際應用上處于起步階段。在大數據時代,利用數據挖掘提升競爭力已成為各行各業都在追逐和挑戰的目標,數據挖掘被認為是大數據中最關鍵和最有價值的工作。目前有研究者提出將數據挖掘技術應用于統計中,為相應的部門提供服務。比如,將數據挖掘應用在政府統計、人口普查、經濟普查中。民營經濟作為我國的一大經濟支柱,其中包含了大量復雜的信息,數據質量高低不容忽視。因此,有必要對數據挖掘技術在民營經濟統計數據質量控制方面進行研究。
(一)微觀層面
我國民營經濟包含的對象復雜多樣,各單位的規模大小不一,其分布又十分廣泛。面對如此龐大的群體,民營經濟統計工作的難度可想而知。我國沒有統一的民營經濟統計,都是各省各部門根據自身的需要進行相關統計。據某統計局工作人員介紹,在收集民營經濟統計數據時,按照企業規模的大小分為兩種渠道,規模以上的企業通過網絡直報提交數據,規模以下的通過調查隊或者當地基層政府提交相關數據。在收集數據時,根據行業不同又分工為不同科室負責,比如有的科室負責鋼鐵行業,有點科室負責文化產業行業等,這樣容易導致重復統計或者遺漏統計。目前我國對于民營經濟申報的統計數據沒有任何法律約束,導致上報的數據很隨意,常常與實際值偏離巨大。在初始環節嚴把數據的質量,對后期的數據加工具有重要的意義。1.孤立點的識別。孤立點指的是在數據集合中與大多數數據的特征不一致的數據。孤立點挖掘可以描述為,給定一個n個數據點或對象的集合,以及預期的孤立點的數目k,發現與剩余的數據相比是顯著不一致的頭k個對象就是孤立點。目前挖掘孤立點的算法主要包括七類:基于統計的方法、基于距離的方法、基于密度的方法、基于偏離的方法、基于聚類的方法、基于粗糙集的方法和基于人工神經網絡的方法。在民營經濟統計數據采集過程中,由于采集的對象龐大,政府統計工作人員無法做到對每次收集的數據一一核實,只能對采集的數據進行一次篩選,將其中可能存在顯著差異的數據找出來,然后對這些數據進行核實,剔除一些無效的數據,以保證原始數據的真實性。對于民營經濟各個單位上報的統計數據,無論是故意的還是無意的都會出現一些孤立點,這些孤立點的存在無疑會影響數據的質量。我們可以通過基于聚類的方法來找到這些孤立點,首先將民營經濟統計數據集利用已經成熟的模型進行聚類分析,使數據集形成簇,而那些不在簇中的數據即被視為異常點,然后對這些異常點進行一一核實,這樣工作量就大大縮小了。2.缺失數據的替代。缺失數據是指數據集中某些記錄的屬性值丟失或空缺,一般缺失的屬性值代表了缺失的信息。民營經濟統計指標體系涵蓋的內容廣泛,而民營企業大部分規模較小,數據記錄的制度不健全,面對政府部門收集數據的任務,有時是提交空白數據,有時是隨便填報個數據敷衍了事。統計部門收集到的空白數據,最簡單的辦法是直接去掉,這樣勢必會影響到最終統計結果的真實性。為了提高數據的質量,必須要對這些缺失值找到一個合理的替代值。缺失數據的替代方法有單值替代、類均值替代和回歸替代,這些方法都可以解決缺失數據的替代問題。單值替代是使用一個常量代替所有的缺失值,常量的選擇由應用的目的而定,可選擇平均值、最大值、最小值等統計指標。類均值替代是用缺失數據記錄所在類別的屬性平均值代替缺失數據。回歸替代是應用回歸分析技術,對包含有缺失屬性值的屬性和相關的其他屬性建立預測模型,并用相應的預測值代替缺失屬性值。3.虛假數據的修正。在民營經濟統計中,會收集很多不可避免的虛假數據。造成統計數據虛假的因素多種多樣,如一些經濟主體受經濟利益驅使,捏造虛假數據,在財務報表上大做文章。比如,一些效益好的企業為了偷稅漏稅故意少報利潤和銷售收入,而一些效益不好的企業少報虧損或者高賬面盈利,以騙取銀行貸款并樹立企業形象。還有一些企業長期搞多本賬,報給財稅部門的是“苦賬”,報給銀行獲得貸款的是“喜賬”,報給上級主管部門的是應付賬,留給自己的才是真實賬。虛假數據俗稱為含水分的數據,如果這些數據水分不大,可以不去理會,因為統計數據是反映一個大體概況和趨勢的,不需要毫厘不差。如果這些數據水分較大,匯總在一起的高水分的數據容易放大或者縮小實際經濟狀況,這時就必須在初始數據采集時嚴控數據中的水分。這些數據一般不會像孤立點那樣容易被發現,具有一定的隱蔽性,必須要借助于數據挖掘方法才能識別其中的水分,比如數據挖掘中的聚類分析。聚類分析是將一個數據集劃分為若干聚類,并使得同一個聚類內的數據對象具有較高的相似度,而不同聚類中的數據對象的相似度盡可能低。在民營經濟統計數據庫中將具有相似屬性的企業歸為同一個聚類,對于同一個聚類中某個企業的某項屬性明顯存在巨大差異,則可以判斷此屬性數據可能存在嚴重虛假,然后再進一步調查核實和修正。
(二)宏觀層面
大部分地方統計部門在處理和分析統計數據時還處于手工操作或半手工操作,計算機的使用僅限于做一些簡單的匯總和指標計算,統計分析也主要是事后分析,沒能利用發達的計算機技術通過信息共享等方式進行事前分析和預測。1.關聯規則的應用。關聯規則是近幾年研究較多的數據挖掘方法,具有高度的靈活性和重要性,應用也是最為廣泛的。關聯規則挖掘的主要對象是事務數據庫,在事務數據庫中,事務1中出現了屬性項甲,事務2中出現了屬性項乙,事務3中則同時出現屬性甲和乙。那么屬性甲和乙在事務中的出現互相之間是否有規律可循就是關聯規則要挖掘的隱含信息,以查找容易被忽略或與人們熟知相背離的事件。經濟統計中運用關聯規則能夠挖掘出匯總數據中聯系密切的行業,這些關系密切的行業有已知的,也有未知的。尤其在民營經濟的統計數據中,有些內部信息匯報人不愿如實填寫數據,導致匯總后的數據與實際數據相差甚遠,此時可以通過已經建立的規則關系來識別和修正一些水分較大的數據。在實際運用當中,很多屬性之間所存在的關系為人們所知曉,被稱為平凡規則,如提升工業總產值能夠帶來生產總值的增加。通過平凡規則,我們能夠對數據質量的高低進行判斷,以此達到消除虛假數據的目的。2.決策樹的應用。決策樹是一種用于分類、聚類和預測的建模方法,在民營經濟統計數據中可以用決策樹進行分類和預測分析。我國民營經濟統計沒有統一的口徑,很多數據是通過統計人員根據收集部分數據推斷出來的,所以需要一種有效可行的預測方法。決策樹算法十分直觀,這一過程的關鍵是有效構建決策樹,主要分為建樹和剪枝階段。通過決策樹對數據分類主要由兩個步驟組成:其一,決策樹模型的構建,即通過訓練集實現一顆決策樹的構建及精化;其二,將輸入的數據通過決策樹進行分類處理。當將數據輸入決策樹時,會由根節點對屬性值依次進行測試并記錄,然后到達葉子節點,來實現尋找記錄所在類。從整體來看,決策樹算法屬于遞歸過程,一直進行到滿足終止條件為止。分割停止要滿足兩個條件:其一為某一個節點上數據都同屬一類;其二是能夠進行數據分割的點已經耗盡。這一過程主要用于解決數據挖掘的預測及分類方面問題。
四、提高民營經濟統計數據質量的對策
民營經濟統計是一項綜合的統計工作,涵蓋了民營經濟的各行各業,必須著眼于整個統計工作,從政府和企業相結合的角度建立一套行之有效的機制,來切實規范企業的行為,夯實企業的統計基礎,并調整部門間的信息共享。
(一)政府應做的工作
1.加大統計執法檢查力度,做好統計基礎工作。對民營企業中存在的虛報、瞞報、拒報等統計違法行為,要鼓勵執法人員勇于執法、善于執法,在保護民營企業遵紀守法正常發展的同時加大對一些典型的統計違法案件的曝光力度,以案說法,擴大教育面,促進這些企業的統計工作正常開展。同時,各級統計部門要重視對民營企業特別是新建的民營企業統計基礎工作的指導工作,要組織力量搞好培訓工作,督促企業依法建立健全原始記錄和統計臺賬,夯實基礎工作,嚴把統計數字質量關,要優選專兼職統計工作人員,切實做到業務精、責任心強,保證統計數字上報的及時性和準確性。2.將數據挖掘技術嵌入到網上直報系統,增強統計數據的自動化處理能力。在信息技術飛速發展的今天,先進的信息技術已經成為進行統計工作必不可少的工具,利用數據挖掘技術輔助網上直報系統,從而使得原始數據采集、儲存加工以及信息傳遞實現了現代化,這不僅提高了統計數據傳遞的及時性,而且也提高了統計數據的準確性。同時伴隨著信息技術的發展,調查技術也在不斷地改善,一些新的調查方法將會逐步代替舊的調查方法,例如計算機輔助調查、計算機輸入數據搜集系統等等。與此同時,還要不斷推進統計信息自動化建設,提高各級統計部門的配機率和數據信息的處理能力,集中力量做好統計數據處理的軟件開發和綜合數據庫建設,進而提高統計數據的質量。
(二)民營企業應做的工作
1.民營企業的領導層要重視配合政府統計部門的工作。要搞好統計工作必須得到企業領導的支持和其他職能部門的通力配合。統計工作涉及企業的供產銷和人財物各個方面,對一個企業的生產經營活動起到監督、檢查和指導作用,因此沒有領導的重視和支持,沒有企業中各個部門的積極配合,就無法保障統計數據的準確,資料來源渠道的暢通。2.民營企業自身要加強規范化統計基礎工作。企業必須要有健全的原始記錄、統計臺賬及財務報表,且能同時滿足相關部門的需要,財務報表能滿足統計需要的不再布置統計報表,并且根據會計決算的實際期效,統一上報時間。以減輕企業的勞動負擔,增強企業積極配合統計的意愿,這樣也避免了在財務決算之前“瞎估亂報”的現象。根據企業的實際情況,可以將會計、統計合并為一個綜合部門,共同承擔會計、統計任務,解決基層企業力量配置及勞務成本的問題。但無論人員如何配置,必須保證提供準確可靠的原始數據,做到不遲報、不漏報,確保源頭數據的真實性,以提高民營經濟統計的數據質量。
作者:柯芳 單位:福建師范大學協和學院
參考文獻
[1]曾五一.國家統計數據質量研究的基本問題[J].商業經濟與管理,2010,(12).
[2]高敏雪.從外部監督入手解決統計數據質量問題的努力[J].統計研究,2009,(8).
[3]羅建梅.提高中國政府統計數據質量的幾點思考[J].經濟研究導刊,2009,(19).
[4]金勇進,陶然.中國統計數據質量理論研究與實踐歷程[J].統計研究,2010,(1).