數(shù)據(jù)挖掘在資產(chǎn)管理的運(yùn)用綜述

時(shí)間:2022-04-03 10:10:00

導(dǎo)語(yǔ):數(shù)據(jù)挖掘在資產(chǎn)管理的運(yùn)用綜述一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘在資產(chǎn)管理的運(yùn)用綜述

[摘要]進(jìn)行高校資產(chǎn)數(shù)據(jù)挖掘與分析研究,能更好地為高校管理、高校決策提供科學(xué)依據(jù)。本文分析了高校資產(chǎn)管理的現(xiàn)狀與特點(diǎn),構(gòu)建了高校資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)雪花模型,挖掘出高校資產(chǎn)管理指標(biāo)之間的關(guān)聯(lián)規(guī)則,并對(duì)該數(shù)據(jù)挖掘模型進(jìn)行評(píng)價(jià),在實(shí)際應(yīng)用中取得了良好效果。

[關(guān)鍵詞]高校資產(chǎn);數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘;雪花模型;關(guān)聯(lián)規(guī)則

1概述

高校資產(chǎn)信息管理系統(tǒng)中的數(shù)據(jù)客觀記錄了高校所有資產(chǎn)的歷史情況和現(xiàn)狀,同時(shí)也隱含著各種資產(chǎn)的特點(diǎn),蘊(yùn)藏著學(xué)校的發(fā)展規(guī)律和趨勢(shì)。然而現(xiàn)階段高校各部門一般采用不同的數(shù)據(jù)庫(kù),數(shù)據(jù)整合困難,無法實(shí)現(xiàn)不同系統(tǒng)跨平臺(tái)信息的共享與交互,無法實(shí)現(xiàn)面向主題的數(shù)據(jù)分析,從而無法更多更好地利用數(shù)據(jù)資源。

為了充分利用這些積累的記錄信息,從中發(fā)現(xiàn)有用的知識(shí),獲得潛在的規(guī)律,為高校資產(chǎn)管理和決策提供科學(xué)參考,需要建立一個(gè)分析決策系統(tǒng)。而實(shí)現(xiàn)分析決策系統(tǒng)的主要技術(shù)就是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或發(fā)現(xiàn)知識(shí)[1]。數(shù)據(jù)挖掘通過一些模型和智能方法,從大量數(shù)據(jù)中提取、識(shí)別用戶真正感興趣的、新穎的、潛在有用的模式,提供給用戶作為決策的依據(jù)和參考。

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)已被廣泛應(yīng)用于商業(yè)領(lǐng)域,但用于高校資產(chǎn)管理領(lǐng)域的卻很少。本文通過構(gòu)建高校資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)模型,對(duì)資產(chǎn)管理指標(biāo)的相關(guān)屬性進(jìn)行分析,通過數(shù)據(jù)挖掘得出了資產(chǎn)管理指標(biāo)之間存在的一些強(qiáng)關(guān)聯(lián)規(guī)則,各規(guī)則的信任度均達(dá)到70%以上。

2高校資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)邏輯模型

數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)集能對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的所有數(shù)據(jù)提供統(tǒng)一的和集成的視圖,可作為傳統(tǒng)報(bào)表、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型包括事實(shí)表和維度表,事實(shí)表描述挖掘主題包涵的多個(gè)角度,維度表則從不同角度描述挖掘主題的相關(guān)數(shù)據(jù)[2]。結(jié)合高校資產(chǎn)挖掘主題與資產(chǎn)信息數(shù)據(jù)的特點(diǎn),高校資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型采用了雪花模型結(jié)構(gòu),如圖1所示。“資產(chǎn)數(shù)據(jù)事實(shí)表”與“部門表”、“資產(chǎn)編碼表”、“資產(chǎn)分級(jí)表”、“時(shí)間表”4個(gè)主維度表關(guān)聯(lián),“部門表”、“資產(chǎn)編碼表”和“資產(chǎn)分級(jí)表”還分別有“上級(jí)部門表”、“資產(chǎn)類別表”和“資產(chǎn)指標(biāo)表”3個(gè)二級(jí)維度表,其中“資產(chǎn)類別表”還有三級(jí)維度表“資產(chǎn)大類表”。建立這種多級(jí)維度表不但可以降低數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)冗余度,減少數(shù)據(jù)量,保證數(shù)據(jù)一致性,還有利于改變數(shù)據(jù)粒度,實(shí)現(xiàn)靈活粒度的數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘如果建立在原始數(shù)據(jù)水平或較低的維層次上,則此時(shí)數(shù)據(jù)粒度小,挖掘速度慢,挖掘得到的規(guī)則繁雜,難以理解;如果數(shù)據(jù)從低維層次抽象到高維層次,對(duì)較高維層次數(shù)據(jù)進(jìn)行挖掘,則此時(shí)數(shù)據(jù)粒度大,挖掘速度快,得到的規(guī)則泛化程度高,便于宏觀理解。因此通常在高維層次上進(jìn)行挖掘,必要時(shí)再進(jìn)行較低維層次上的挖掘[3]。

3數(shù)據(jù)屬性歸約及取值

3.1數(shù)據(jù)屬性歸約

高校的資產(chǎn)數(shù)據(jù)按教育部規(guī)定分為16類,對(duì)這些資產(chǎn)進(jìn)行管理非常繁雜,根據(jù)實(shí)際我們選取以下4個(gè)管理指標(biāo)以利于資產(chǎn)數(shù)據(jù)挖掘:

(1)資產(chǎn)購(gòu)建價(jià)值,用A表示。它是購(gòu)買或建造資產(chǎn)的原值。理論上同類資產(chǎn)價(jià)值高的要比價(jià)值低的使用壽命長(zhǎng)。

(2)資產(chǎn)剩余使用年限率,用B表示。每種資產(chǎn)都有一定的使用年限,使用中每年提取折舊,當(dāng)?shù)竭_(dá)規(guī)定的使用年限后該資產(chǎn)一般只剩下很少的殘值,原則上也就報(bào)廢了。資產(chǎn)剩余使用年限率反映了資產(chǎn)的剩余使用年限,是資產(chǎn)管理的一個(gè)重要指標(biāo)。

(3)資產(chǎn)每年使用率,用C表示。不同的資產(chǎn)每年的使用率各不相同,有的長(zhǎng)年使用,如房屋和家具等;有的一年才使用幾次,如某些實(shí)驗(yàn)儀器設(shè)備。同樣的資產(chǎn)使用次數(shù)多的肯定比使用次數(shù)少的容易壞。

(4)資產(chǎn)質(zhì)量評(píng)估值,用D表示。每年由相關(guān)人員對(duì)每種資產(chǎn)進(jìn)行一次評(píng)估,評(píng)估該資產(chǎn)當(dāng)時(shí)的性能和好壞程度。

3.2資產(chǎn)管理指標(biāo)數(shù)據(jù)的取值

對(duì)資產(chǎn)管理的4個(gè)指標(biāo)值采用統(tǒng)一的分級(jí),分為“一級(jí)”、“二級(jí)”、“三級(jí)”、“四級(jí)”、“五級(jí)”5個(gè)等級(jí),分別用1、2、3、4、5表示,對(duì)指標(biāo)數(shù)據(jù)的取值采取分類轉(zhuǎn)換。

(1)同一類資產(chǎn)的購(gòu)建價(jià)值會(huì)因品牌種類、購(gòu)建時(shí)間、市場(chǎng)行情等因素的影響而不同,一線品牌中的高檔資產(chǎn)購(gòu)建價(jià)值肯定高,定為一級(jí);一線品牌中的中檔資產(chǎn)或二線品牌中的高檔資產(chǎn)定為二級(jí);二線品牌中的中檔資產(chǎn)或非品牌中的高檔資產(chǎn)定為三級(jí);非品牌中的中檔資產(chǎn)定為四級(jí);淘汰產(chǎn)品、試用品或非正規(guī)單位生產(chǎn)的產(chǎn)品定為五級(jí)。

(2)會(huì)計(jì)上對(duì)資產(chǎn)的使用年限沒有明確規(guī)定,資產(chǎn)折舊的年限通常是分大類按稅務(wù)規(guī)定進(jìn)行計(jì)算的:一般房屋為20年;生產(chǎn)設(shè)備為10年;工具、家具為5年;電子設(shè)備為3年;低值易耗品為1年。這個(gè)規(guī)定與實(shí)際使用年限相比是偏低的,因此將規(guī)定使用年限近似平均分成5個(gè)區(qū)間,其中第五區(qū)間包括規(guī)定使用年限到期后仍在使用的那段時(shí)間。每個(gè)區(qū)間數(shù)按年取整,如不為整則在購(gòu)建初的第一區(qū)間多分配一點(diǎn)時(shí)間。資產(chǎn)剩余使用年限率=(稅務(wù)規(guī)定使用年限-已使用年限)/稅務(wù)規(guī)定使用年限。將數(shù)值型數(shù)據(jù)離散化后分區(qū)計(jì)算資產(chǎn)剩余使用年限率,結(jié)果各類資產(chǎn)剩余使用年限率基本近似,各區(qū)間取值(1,0.8],(0.8,0.6],(0.6,0.4],(0.4,0.2],(0.2,0],依次定為一級(jí)、二級(jí)、三級(jí)、四級(jí)、五級(jí),如房屋從新建起使用(0,4]年為一級(jí),(4,8]年為二級(jí),(8,12]年為三級(jí),(12,16]年為四級(jí),>16年為五級(jí)。

(3)資產(chǎn)每年使用率由使用資產(chǎn)的負(fù)責(zé)人在每年年中依據(jù)使用記錄對(duì)每種資產(chǎn)作出評(píng)價(jià),平均分成五級(jí),使用最少的為一級(jí),它的使用壽命相應(yīng)就長(zhǎng);使用最多的為五級(jí),它的使用壽命相應(yīng)就短。

(4)對(duì)資產(chǎn)質(zhì)量進(jìn)行評(píng)估的相關(guān)人員在每年年中時(shí)對(duì)每種資產(chǎn)的性能和好壞進(jìn)行一次評(píng)估,評(píng)估的結(jié)果值也分成五級(jí),最好的為一級(jí),最差的為五級(jí),五級(jí)意味著不能再使用。

根據(jù)以上分析,高校的每種資產(chǎn)可以描述如下:(資產(chǎn)編號(hào),購(gòu)建價(jià)值,剩余使用年限率,每年使用率,資產(chǎn)評(píng)估值)。例如:(415012,A1,B3,C1,D2)表示資產(chǎn)號(hào)為415012的資產(chǎn),其購(gòu)建價(jià)值一級(jí),剩余使用年限率三級(jí),每年使用率一級(jí),質(zhì)量評(píng)估值二級(jí)。

實(shí)例:2008年某學(xué)院的實(shí)驗(yàn)室正在使用的計(jì)算機(jī)有126臺(tái),當(dāng)年各項(xiàng)管理指標(biāo)分級(jí)情況和計(jì)算機(jī)數(shù)量之間的關(guān)系如表1所示。

4數(shù)據(jù)挖掘

本文對(duì)高校資產(chǎn)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,頻繁數(shù)據(jù)項(xiàng)集的生成采用Apriori算法。

4.1Apriori算法及其特點(diǎn)

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)主要研究方向,目的是發(fā)現(xiàn)海量數(shù)據(jù)中數(shù)據(jù)項(xiàng)集之間存在的潛在關(guān)系規(guī)則。先識(shí)別出頻繁出現(xiàn)的屬性值集,也稱頻繁項(xiàng)集,然后再利用這些頻繁項(xiàng)集創(chuàng)建描述關(guān)聯(lián)規(guī)則[4]。關(guān)聯(lián)規(guī)則中有支持度和信任度兩個(gè)重要的度量,為滿足一定的要求,用戶需要指定規(guī)則必須滿足最小支持度(minsupport)和最小信任度(minconfidence)兩個(gè)門限[5]。關(guān)聯(lián)規(guī)則的挖掘分為兩個(gè)步驟:①發(fā)現(xiàn)頻繁項(xiàng)目集:找出所有大于或等于用戶指定最小支持度的最大頻繁項(xiàng)目集,又稱強(qiáng)項(xiàng)集;②生成關(guān)聯(lián)規(guī)則:根據(jù)用戶指定的最小信任度利用頻繁項(xiàng)目集生成關(guān)聯(lián)規(guī)則,該規(guī)則是滿足最小支持度和最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則。編輯。

Apriori算法是關(guān)聯(lián)規(guī)則中最典型的算法,它通過對(duì)事務(wù)數(shù)據(jù)清單D的多趟掃描來發(fā)現(xiàn)所有的頻繁項(xiàng)目集(強(qiáng)項(xiàng)集)L:

L1={large1-itemsets};//頻繁1項(xiàng)目集

for(k=2;Lk-1≠Φ;k++)

{Ck=apriori-gen(Lk-1,minsupport);//Ck是頻繁k項(xiàng)目候選集

foralltransactionst∈D

{Ct=subset(Ck,t);//Ct是從候選集Ck中提取的包含在事務(wù)t中的候選集元素

forallcandidatesC∈Ct

C.count++;

Lk={C∈Ck|C.count≥minsupport};

L=UkLk;//求所有頻繁項(xiàng)目集Lk的和

Apriori算法中調(diào)用了函數(shù)apriori-gen(Lk-1,minsupport),是為了通過頻繁(k-1)項(xiàng)目集產(chǎn)生頻繁k項(xiàng)目候選集,即利用第(k-1)趟掃描得到強(qiáng)項(xiàng)集集合Lk-1的候選集Ck。該函數(shù)先進(jìn)行拼接,再剪枝。在拼接生成候選數(shù)據(jù)項(xiàng)集時(shí),一個(gè)項(xiàng)集必須是頻繁數(shù)據(jù)項(xiàng)集且它的所有子集也都是頻繁數(shù)據(jù)項(xiàng)集,因此要?jiǎng)h除所有含有非頻繁項(xiàng)目子集的候選元素。

如果k項(xiàng)集C∈Ck的某(k-1)子集不是(k-1)強(qiáng)項(xiàng)集,則將C從候選集Ck中刪除。

Arpiori算法中如果生成的候選項(xiàng)集太多,則多次掃描會(huì)使效率急劇下降,同時(shí)過多的候選項(xiàng)集還可能生成大量的規(guī)則,影響它的應(yīng)用。本系統(tǒng)中采用數(shù)據(jù)屬性歸約,大大減少了生成的候選項(xiàng)集,能快速發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,提高使用效率。

4.2采用Apriori算法實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘

本系統(tǒng)對(duì)建立的某高校資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,先對(duì)原始數(shù)據(jù)進(jìn)行整理和特征化變換,設(shè)定資產(chǎn)管理指標(biāo)中的資產(chǎn)質(zhì)量評(píng)估值為規(guī)則目標(biāo)。

采用Apriori算法生成頻繁數(shù)據(jù)項(xiàng)集。設(shè)定最小支持度為3%,最小信任度為70%,先構(gòu)造1個(gè)屬性的候選集C1,計(jì)算C1的支持度,去掉C1中支持度小于3%的屬性,得到頻繁項(xiàng)目集L1。再根據(jù)L1及2個(gè)屬性的組合,構(gòu)造候選集C2,計(jì)算C2的支持度,去掉C2中支持度小于3%的二維屬性,得到頻繁項(xiàng)目集L2。依次類推重復(fù)上述過程,直到所有屬性組合完畢,形成頻繁項(xiàng)集L={L1,L2,…}。

再研究資產(chǎn)數(shù)據(jù)間的關(guān)聯(lián)性,挖掘滿足最小信任度的規(guī)則。若X,Y為項(xiàng)目集,且X∩Y=?準(zhǔn),蘊(yùn)涵式X?圯Y稱為數(shù)量關(guān)聯(lián)規(guī)則,X和Y分別稱為X?圯Y的前提和結(jié)論。項(xiàng)目集(X∪Y)的支持度稱為關(guān)聯(lián)規(guī)則X?圯Y的支持度,記作support(X?圯Y),即support(X?圯Y)=support(X∪Y)。數(shù)值關(guān)聯(lián)規(guī)則X?圯Y的信任度記作confidence(X?圯Y):confidence(X?圯Y)=support(X∪Y)/support(X)×100%。給定用戶的最小支持度minsupport和最小信任度minconfidence,如果support(X?圯Y)≥minsupport,同時(shí)confidence(X?圯Y)≥minconfidence,則稱數(shù)量關(guān)聯(lián)規(guī)則X?圯Y為強(qiáng)規(guī)則,即根據(jù)用戶指定的最小信任度而生成的關(guān)聯(lián)規(guī)則是滿足最小支持度和最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則。表2是系統(tǒng)數(shù)據(jù)挖掘的強(qiáng)關(guān)聯(lián)規(guī)則,它反映了資產(chǎn)購(gòu)建價(jià)值、資產(chǎn)剩余使用年限率和資產(chǎn)每年使用率這3個(gè)指標(biāo)與資產(chǎn)質(zhì)量評(píng)估值之間的關(guān)聯(lián)性。購(gòu)建價(jià)值高,又在購(gòu)建初期且很少使用的資產(chǎn)其性能變化不大,它的資產(chǎn)質(zhì)量評(píng)估值肯定很高。數(shù)據(jù)挖掘時(shí)如降低最小支持度,會(huì)增加系統(tǒng)生成的頻繁項(xiàng)目集數(shù),這樣挖掘出的規(guī)則會(huì)太多,因而會(huì)降低了規(guī)則的普遍性和代表性。

5結(jié)束語(yǔ)

本文利用數(shù)據(jù)挖掘技術(shù)對(duì)高校資產(chǎn)作了深層次研究,通過采用Apriori算法生成頻繁數(shù)據(jù)項(xiàng)集,進(jìn)而挖掘出高校資產(chǎn)管理指標(biāo)之間的關(guān)聯(lián)規(guī)則,各規(guī)則的信任度均達(dá)到70%以上,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行分析得出的結(jié)論和決策建議在實(shí)際應(yīng)用中取得了良好效果。

主要參考文獻(xiàn)

[1][加]JiawEiHan,MichelineKamber.數(shù)據(jù)挖掘——概念與技術(shù)[M].影印版.北京:高等教育出版社,2001.

[2]袁雋媛.試論數(shù)據(jù)倉(cāng)庫(kù)在高校網(wǎng)絡(luò)教育管理中的應(yīng)用[J].發(fā)明與創(chuàng)新,2007(5):36-37.

[3]安利平,張松,仝凌云.基于決策樹的OLAM及其應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(15).

[4]陳安,陳寧,周龍?bào)J.?dāng)?shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.

[5]李新良,陳湘.?dāng)?shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].計(jì)算機(jī)工程與科學(xué),2007,29(12).