數據挖掘技術論文范文

時間:2023-03-18 16:11:50

導語:如何才能寫好一篇數據挖掘技術論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

數據挖掘技術論文

篇1

[關鍵詞]數據挖掘數據挖掘方法

隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。

一、數據挖掘的定義

數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。

二、數據挖掘的方法

1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。

3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。

5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。

6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。

8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。

篇2

(1)確定業務對象:做好業務對象的明確是數據域挖掘的首要步驟,挖掘的最后結構是不可預測的,但是探索的問題必須是有預見的,明確業務對象可以避免數據挖掘的盲目性,從而大大提高成功率。

(2)數據準備:首先,對于業務目標相關的內部和外部數據信息進行查找,從中找出可以用于數據挖掘的信息;其次,要對數據信息的內容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結合相應的挖掘算法,將數據轉化稱為相應的分析模型,以保證數據挖掘的順利進行。

(3)數據挖掘:在對數據進行轉化后,就可以結合相應的挖掘算法,自動完成相應的數據分析工作。

(4)結果分析:對得到的數據分析結果進行評價,結合數據挖掘操作明確分析方法,一般情況下,會用到可視化技術。

(5)知識同化:對分析得到的數據信息進行整理,統一到業務信息系統的組成結構中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復進行。

二、數據挖掘技術在水利工程管理中的實施要點

水利工程在經濟和社會發展中是非常重要的基礎設施,做好水利工程管理工作,確保其功能的有效發揮,是相關管理人員需要重點考慮的問題。最近幾年,隨著社會經濟的飛速發展,水利工程項目的數量和規模不斷擴大,產生的水利科學數據也在不斷增加,這些數據雖然繁瑣,但是在許多科研生產活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預防以及對生態環境問題的處理方面,獲取完整的水利科學數據是首要任務。那么,針對日益繁雜的海量水利科學數據,如何對有用的信息知識進行提取呢?數據挖掘技術的應用有效的解決了這個問題,可以從海量的數據信息中,挖掘出潛在的、有利用價值的知識,為相關決策提供必要的支持。

1.強化數據庫建設

要想對各類數據進行科學有效的收集和整理,就必須建立合理完善的數據庫。對于水利工程而言,應該建立分類數據庫,如水文、河道河情、水量調度、防洪、汛情等,確保數據的合理性、全面性和準確性,選擇合適的方法,對有用數據進行挖掘。

2.合理選擇數據挖掘算法

(1)關聯規則挖掘算法:關聯規則挖掘問題最早提出于1993年,在當前數據挖掘領域,從事務數據庫中發現關聯規則,已經成為一個極其重要的研究課題。關聯規則挖掘的主要目的,是尋找和挖掘隱藏在各種數據之間的相互關系,通過量化的數據,來描述事務A的出現對于事務B出現可能產生的影響,關聯規則挖掘就是給定一組Item以及相應的記錄組合,通過對記錄組合的分析,推導出Item間存在的相關性。當前對于關聯規則的描述,一般是利用支持度和置信度,支出度是指產品集A、B同時出現的概率,置信度則是在事務集A出現的前提下,B出現的概率。通過相應的關聯分析,可以得出事務A、B同時出現的簡單規則,以及每一條規則的支持度和置信度,支持度高則表明規則被經常使用,置信度高則表明規則相對可靠,通過關聯分析,可以明確事務A、B的關聯程度,決定兩種事務同時出現的情況。

(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關聯規則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優秀的長頻繁項挖掘算法,利用了事務項目關聯信息表、項目約簡、關鍵項目以及投影數據庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應該對重復分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關聯規則挖掘中典型的Apriori方法,可以起到更好的效果。

(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。

三、結語

篇3

近年來,我國的部隊管理體系已經逐漸向著自動化方向發展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現信息現代化模式,很大程度提高了部隊工作的效率,但是由于外界因素與經濟發展的多樣化以及人們的思維模式也在不斷改變,從而出現了一些新問題,使得部隊管理體系存在著一定問題:第一、關聯性小、系統比較獨立。現階段,部隊采購食品系統的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達到最優化采購方式,因此就變得比較獨立;第二,數據功能簡單,可靠性不高?,F階段,部隊食品采購數據只是對采購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,數據分散不集中?,F階段與部隊人員健康、起居飲食、訓練相關的數據分散在不同系統中,使得數據變得不一致、不完整,僅僅只能進行簡單查詢、匯總、統計等工作,不能對數據進行多角度分析、關聯等,不能為采購食品提供很好的政策支持。針對部隊采購存在的問題,可以利用數據倉庫以及數據挖掘技術建立多為數據庫,利用數據挖掘進技術對食品采購數據進行挖掘。依據現階段部隊的實際發展情況,建立一套新數據庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經存在的數據進行一定改革與拓展,合理優化系統數據,成為新的數據庫。并且選取對數據挖掘影響比較大的系統性分析,包括訓練系統,食品采購系統、人員管理系統以及醫療衛生系統。針對食品采購采購系統建立數據模型。

二、在部隊食品采購系統中的應用以及其價值評價

在部隊食品采購系統實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數據進行分析,并且在數據挖掘過程中對多維數據進行描述與查找起到一定作用。因為多維數據比較復雜,增長的也比較快,因此,進行手動查找是很困難的,數據挖掘技術提供的計算模式可以很好的對數據進行分析與查找。在建設部隊食品采購倉庫數據的時候,數據內容主要包括了人員的健康、兵員的飲食以及訓練等,進行數據挖掘主要包括以下內容:第一,把每個主題信息數據進行收集、匯總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析數據信息。根據部隊的實際情況,利用數據挖掘技術對部隊人員健康、飲食、訓練等數據信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內在關系。根據數據庫中許多面向主題的歷史數據,采用數據挖掘技術進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內在關系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質以及訓練質量,對提高我國部隊戰斗力有著深遠的意義。

三、結束語

篇4

統計學論文2000字(一):影響民族院校統計學專業回歸分析成績因素的研究論文

摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。

關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績

為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。

一、數據選取

回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。

選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。

二、建立多元線性回歸模型1及數據分析

運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:

(1)

線性回歸模型通常滿足以下幾個基本假設,

1.隨機誤差項具有零均值和等方差,即

(2)

這個假定通常稱為高斯-馬爾柯夫條件。

2.正態分布假定條件

由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。

從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。

回歸分析期末成績y1的多元回歸模型1為:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。

三、后退法建立多元線性回歸模型2及數據分析

從模型1中剔除了x2變量,多元回歸模型2為:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。

四、結束語

通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。

通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。

統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文

摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。

關鍵詞:統計學專業;數據挖掘;大數據;教學

一、引言

通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。

二、課程教學探討

針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。

(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。

(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。

(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。

(4)充分考慮前述提到的三點,課程內容計劃安排見表1。

(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。

三、教學效果評估

經過幾輪的教學實踐后,取得了如下的教學效果:

(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。

(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。

(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。

(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。

教學實踐結果表明,通過數據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。

篇5

>> 基于本體的網絡輿情觀點挖掘方法研究 基于熱點文件下載的網絡輿情信息挖掘方法研究 基于網頁文本獲取的高校網絡輿情監控 基于OAG循環的網絡輿情管理模型研究 基于大規模文本數據情感挖掘的企業輿情研究 基于文本挖掘的網絡媒體報道研究 基于模糊神經網絡的Web文本挖掘系統 基于PDCA循環的預算管理 基于PDCA循環的績效考評 基于 PDCA 循環方法的瀝青路面質量動態管理的研究 基于數據挖掘的網絡輿情預警決策支持系統 基于數據挖掘技術的網絡輿情智能監測與引導平臺設計研究 基于Web挖掘的突發事件網絡輿情預警研究 基于Web數據挖掘的網絡輿情分析技術研究 基于Web挖掘的突發事件網絡輿情預警策略探討 基于數據挖掘技術在網絡輿情預測中的應用 基于數據挖掘的高校網絡輿情分析系統設計與實現 基于數據挖掘的輿情觀點挖掘研究 基于蛙鳴博弈的網絡輿情與政府監管的模型淺析 基于PDCA循環的績效管理體系的構建 常見問題解答 當前所在位置:.

[2]張玉亮.突發事件網絡輿情的生成原因與導控策略――基于網絡輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.

[3]許鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]鄭軍.網絡輿情監控的熱點發現算法研究[D].哈爾濱哈爾濱工程大學,2007.

[6]陳耘可,李博,鄭天翔.PDCA循環在煤炭企業質量標準化建設中的研究與應用[J].煤炭經濟研究,2013,33(2):77-79.

[7]辛敏.PDCA理論在護理質量管理中的應用研究[D].碩士學位論文:山西醫科大學,2010.

篇6

關鍵詞: 居民出行特征; 數據挖掘; GPS軌跡數據; DBSCAN

中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統狀況跟城市居民的出行行為息息相關,居民的出行行為會對城市交通體系產生影響[2]。對居民出行特征進行研究是城市和交通規劃、城市公共基礎設施建設管理中的一個基礎性任務,不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規劃起著至關重要的作用[3]。

出租車因其靈活性和便利性,已日漸成為城市交通系統的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務,所以,出租車的運營規律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設備以一定的頻率向城市交通客運管理中心傳送出租車的實時經緯度、運營狀態、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數據[5],利用DBSCAN對這些進行數據進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區域提供依據,有效的降低出租車的空駛率。

1 GPS軌跡數據挖掘設計

1.1 數據預處理

本文選取榆陽區(地理坐標為東經108?58'-110?24',北緯37?49'-38?58'之間)作為研究區域,GPS軌跡數據使用榆陽區1100多輛出租車五天的運營數據,對數據進行預處理后,出租車軌跡數據由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。

表1中,營運狀態的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。

1.2 利用DBSCAN算法進行聚類挖掘

居民的作息和社會活動有明顯的時間規律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數據根據時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區域分布數據,有效地提高其巡游過程中的載客成功率?;诖?,論文引入了DBBSCAN算法,該算法需要3個輸入參數:歷史軌跡數據對象D,空間半徑ε,以及密度閾值MinPts;輸出參數為聚類簇C,部分MATLAB代碼如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('緯度');

2 實驗結果

聚類結果如圖1和圖2所示,出行熱點區域在圖中用圓圈標出。

以上的聚類結果顯示,榆陽區的居民出行呈現一定空間和時間特征。工作日和非工作日出租車熱點區域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。

3 結束語

本文利用DBSCAN算法對出租車的歷史GPS軌跡數據進行挖掘,從挖掘結果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據挖掘結果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續研究和改進。

參考文獻(References):

[1] 衛龍,高紅梅.基于軌跡數據挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92

[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區域挖掘[D].重慶大學,2016.

[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區識別――廣州市浮動車GPS時空數據挖掘[J].地理學報,2016.3:471-483

[4] 張俊濤,武芳,張浩.利用出租車軌跡數據挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108

[5] 張薇,林龍.基于數據挖掘的增城居民出行特征分析[J].科技和產業,2015.7:61-64

[6] 趙苗苗.基于出租車軌跡數據挖掘的推薦模型研究[D].首都經濟貿易大學碩士學位論文,2015.

[7] 童曉君.基于出租車GPS數據的居民出行行為分析[D].中南大學碩士學位論文,2012.

篇7

論文關鍵詞:數據挖掘;電子商務;web數據挖掘 

 

1 引言 

當前,隨著網絡技術的發展和數據庫技術的迅猛發展,有效推動了商務活動由傳統活動向電子商務變革。電子商務就是利用計算機和網絡技術以及遠程通信技術,實現整個商務活動的電子化、數字化和網絡化。基于internet的電子商務快速發展,使現代企業積累了大量的數據,這些數據不僅能給企業帶來更多有用信息,同時還使其他現代企業管理者能夠及時準確的搜集到大量的數據。訪問客戶提供更多更優質的服務,成為電子商務成敗的關鍵因素,因而受到現代電子商務經營者的高度關注,這也對計算機web數據技術提出了新的要求,web 數據挖掘技術應運而生。它是一種能夠從網上獲取大量數據,并能有效地提取有用信息供企業決策者分析參考,以便科學合理制定和調整營銷策略,為客戶提供動態、個性化、高效率服務的全新技術。目前,它已成為電子商務活動中不可或缺的重要載體。 

2 計算機web數據挖掘概述 

2.1 計算機web數據挖掘的由來 

計算機web數據挖掘是一個在web資源上將對自己有用的數據信息進行篩選的過程。web數據挖掘是把傳統的數據挖掘思想和方法移植到web應用中,即從現有的web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數據信息。計算機web數據挖掘可以在多領域中展示其作用,目前已被廣泛應用于數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。 

2.2 計算機web數據挖掘含義及特征 

(1) web數據挖掘的含義。 

web 數據挖掘是指數據挖掘技術在web 環境下的應用,是一項數據挖掘技術與www技術相結合產生的新技術,綜合運用到了計算機語言、internet、人工智能、統計學、信息學等多個領域的技術。具體說,就是通過充分利用網絡(internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網絡用戶登記信息等內容,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業管理和商業決策。 

(2)web數據挖掘的特點。 

計算機web數據挖掘技術具有以下特點:一是用戶不用提供主觀的評價信息;二是用戶“訪問模式動態獲取”不會過時;三是可以處理大規模的數據量,并且使用方便;四是與傳統數據庫和數據倉庫相比,web是一個巨大、分布廣泛、全球性的信息服務中心。 

(3)計算機web數據挖掘技術的類別。 

web數據挖掘技術共有三類:第一類是web使用記錄挖掘。就是通過網絡對web 日志記錄進行挖掘,查找用戶訪問web頁面的模式及潛在客戶等信息,以此提高其站點所有服務的競爭力。第二類是web內容挖掘。既是指從web文檔中抽取知識的過程。第三類是web結構挖掘。就是通過對web上大量文檔集合的內容進行小結、聚類、關聯分析的方式,從web文檔的組織結構和鏈接關系中預測相關信息和知識。 

3 計算機web數據挖掘技術與電子商務的關系 

借助計算機技術和網絡技術的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業和個人的關注。隨著電子商務企業業務規模的不斷擴大,電子商務企業的商品和客戶數量也隨之迅速增加,電子商務企業以此獲得了大量的數據,這些數據正成為了電子商務企業客戶管理和銷售管理的重要信息。為了更好地開發和利用這些數據資源,以便給企業和客戶帶來更多的便利和實惠,各種數據挖掘技術也逐漸被應用到電子商務網站中。目前,基于數據挖掘(特別是web數據挖掘)技術構建的電子商務推薦系統正成為電子商務推薦系統發展的一種趨勢。 

4 計算機web數據挖掘在電子商務中的具體應用 

(1)電子商務中的web數據挖掘的過程。 

在電子商務中,web數據挖掘的過程主要有以下三個階段:既是數據準備階段、數據挖掘操作階段、結果表達和解釋階段。如果在結果表達階段中,分析結果不能讓電子商務企業的決策者滿意,就需要重復上述過程,直到滿意為止。 

(2)web數據挖掘技術在電子商務中的應用。 

目前,電子商務在企業中得到廣泛應用,極大地促進了電子商務網站的興起,經過分析一定時期內站點上的用戶的訪問信息,便可發現該商務站點上潛在的客戶群體、相關頁面、聚類客戶等數據信息,企業信息系統因此會獲得大量的數據,如此多的數據使web數據挖掘有了豐富的數據基礎,使它在各種商業領域有著更加重要的實用價值。因而,電子商務必將是未來web數據挖掘的主攻方向。web數據挖掘技術在電子商務中的應用主要包含以下幾方面: 

一是尋找潛在客戶。電子商務活動中,企業的銷售商可以利用分類技術在internet上找到潛在客戶,通過挖掘web日志記錄等信息資源,對訪問者進行分類,尋找訪問客戶共同的特征和規律,然后從已經存在的分類中找到潛在的客戶。 

二是留住訪問客戶。電子商務企業通過商務網站可以充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產品,以此來不斷提高網站訪問的滿意度,最大限度延長客戶駐留的時間,實現留住老客戶發掘新客戶的目的。 

三是提供營銷策略參考。通過web數據挖掘,電子商務企業銷售商能夠通過挖掘商品訪問情況和銷售情況,同時結合市場的變化情況,通過聚類分析的方法,推導出客戶訪問的規律,不同的消費需求以及消費產品的生命周期等情況,為決策提供及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調整,優化商品營銷。 

四是完善商務網站設計。電子商務網站站點設計者能夠利用關聯規則,來了解客戶的行為記錄和反饋情況,并以此作為改進網站的依據,不斷對網站的組織結構進行優化來方便客戶訪問,不斷提高網站的點擊率。 

篇8

【關鍵詞】 數據挖掘技術;電子商務;推薦系統;研究

隨著計算機互聯網技術在社會工作與生活中的普及,電子商務產業也獲得了快速的發展。為了進一步擴大電子商務的市場,提高電子商務企業的經濟效益,電子商務推薦系統被開發出來。而數據挖掘技術作為支持該系統運行的重要技術,對電子商務推薦系統的發展具有重要意義。本文將主要對其進行分析與研究。

一、數據挖掘技術概述

數據挖掘技術至今還沒有一個統一的、確定的概念定義。歸結起來,筆者認為數據挖掘的概念應主要包括以下三方面內容:①未知。一些學者也將其表述為新穎。這一方面內容強調的是數據挖掘技術能夠清楚的揭示出許多數據之間的相互關聯關系,并對于隱藏在這些數據信息后的隱含信息也能隨之被呈現。通常來說,被挖掘出的信息越隱秘,那么其價值也就越大[1]。②可用。一些學者也將其表述為有效、支持決策等。數據挖掘技術的這一內容主要強調對數據信息可用性價值的需求。因為只有挖掘出了有價值的、能夠被人們利用的數據信息,才能滿足人們的需求,推動某些事物的發展。③可理解。一些學者也將這一內容解釋為可解釋。然而無論表述之間存在著怎樣的差異,這一內容都主要對被挖掘出的數據信息的可理解狀況提出了要求。只有那些通被商家與客戶理解的數據信息才能夠被最終應用,發揮其自身的價值,帶動相關利益主體的進步與發展。

二、協同過濾技術

數據挖掘技術有許多種類,如關聯規則、聚類、貝葉斯網絡和協同過濾技術等[2]。其中協同過濾技術作為數據挖掘技術中最具有價值的一種技術,被廣泛的應用到了現如今的電子商務推薦系統之中。

2.1協同過濾技術的實現

協同過濾技術的實現并不是一步就可以完成的,而需要經過多個步驟。經過歸納,筆者將其分為三個主要步驟:第一,人們需要事先對用戶進行調查,以記錄和收集他們對企業商品項目的評價信息;第二,對企業項目集的搜索結果進行生成操作;第三,對企業項目集推薦結果進行生成操作[3]。在進行第一個步驟時,人們經常使用顯示評價法與人工調查法對商品項目的評價信息進行收集。在電子商務時代,傳統的人工走訪方式已經逐漸被取代,更多的是應用顯示評價法對商品項目信息進行收集。

2.2基于用戶的協同過濾技術

此種協同過濾技術主要通過慣性分析方式將電子商務企業的用戶作為研究對象,這種數據挖掘技術是以用戶為研究對象的。也就是說當電子商務企業的某兩個用戶對于某一商品的評價信息趨于一致時,那么系統就會推斷這兩個用戶對商品的喜好品味是相同的,而商務推薦系統在以后的工作中在對某一商品進行推薦評價等工作時就會認為這兩個用戶也會對此商品有著同樣的喜愛程度。

將基于用戶的協同過濾技術應用到電子商務的推薦系統中,電子商務推薦系統能夠更加輕松的對商品項目用戶的喜好傾向進行搜集與挖掘,從而為相關的商家提供一定的數據信息支持其新產品的研發設計等。并且通過這一技術電子商務推薦系統還能夠對并未購買過某商品的用戶,但是與其有著相同喜好的用戶已經購買過的關聯用戶進行商品推薦,以發掘更多的潛在購買用戶,擴大企業的市場,增加產品的銷量,從而獲取更高的利益。

2.3基于項目的協同過濾技術

基于項目的協同過濾技術主要將商品項目作為其作用對象。若電子商務推薦系統要想將某件商品Y推薦給某個用戶S。就應該首先將用戶S已經購買并評價過的商品(Y1、Y2……Yn)進行統計,然后對電子商務企業需要推薦的商品Y和這n個已經評價過的商品之間的相似度進行計算與對比。找出這n個評價過商品中與待推薦商品Y相似度最大的商品項目,從而建立起與待推薦商品Y相似的商品集合(n1、n2……nk)。由于商品用戶S對待推薦的商品Y的評價情況與用戶S對(n1、n2……nk)中商品集合的評價情況相似度較高,因此電子商務推薦系統會用用戶S對(n1、n2……nk)商品集合的評價值進行加權的方式來得出用戶S對待推薦商品Y的評價值F。當F大于推薦平均值w時,電子商務推薦系統就會對用戶S推薦商品Y。

三、結束語

本文主要對基于數據挖掘技術的電子商務推薦系統進行了研究,并重點對協同過濾技術對電子商務推薦系統的重要性作用進行了分析,希望能夠進一步推動電子商務推薦系統的發展。

參 考 文 獻

[1] 韓家煒.數據挖掘――概念與技術(范明,孟小峰譯)[M].機械工業出版社,2011.

篇9

[關鍵詞]文本挖掘人 文社科 技術應用

[分類號]TP391

[文本挖掘概述

文本挖掘(text mining)是一個跨學科的交叉研究領域,涉及到數據挖掘、機器學習、統計學、自然語言處理、可視化技術、數據庫技術等多個學科領域的知識和技術。目前關于文本挖掘并沒有統一的定義,關于文本挖掘的名稱亦有“文本數據挖掘(text data mining)”或“文本知識發現(knowledge discovery in text)”等不同說法。一個比較廣泛使用的定義是:文本挖掘是指為了發現知識,從文本數據中抽取隱含的、以前未知的、潛在有用的模式的過程。它是一個分析文本數據,抽取文本信息,進而發現文本知識的過程。

一個完整的文本挖掘過程一般包括預處理、模式挖掘、模式評價等多個步驟,其中包含了多種文本處理與挖掘技術,如數據預處理技術中的分詞、特征表示、特征提取技術,挖掘分析技術中的文本結構分析、文本摘要、文本分類、文本聚類、關聯規則、分布分析與趨勢預測等技術以及信息展示中的可視化技術等。

文本挖掘技術拓展了現有的數據挖掘技術,把挖掘的對象從結構化的數值數據擴展到非結構化的文本數據,因此可以幫助我們從海量的文本數據中發現新的模式、模型、規則、趨勢等知識,目前在很多領域得到了廣泛應用。文獻計量的結果表明,近年來國際上文本挖掘的研究論文呈迅猛上升勢頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關的論文3 049篇(截至2010年),且呈逐年上升的趨勢。從WoK學科統計來看,目前文本挖掘技術的研究主要集中于計算機科學、計算生物學、數學、醫藥信息學、生物化學與分子化學、信息科學、醫學等自然科學領域,論文總數占文獻總量的82%。相比而言,人文社會科學領域的論文則較少,兩者之和為18%,其中人文科學僅為1%。

由于互聯網時代學術資源生產與傳遞方式的變化,以新的方法和技術從海量文本中發現隱含的知識和模式,成為情報學中最有前景的領域之一。由于人文社科文獻的非結構化特征更加明顯,文獻中包含的隱性內容更多,能否在人文社科領域成功運用文本挖掘就成為了檢驗文本挖掘的方法論優勢的試金石。本文以文本挖掘的幾個關鍵技術——信息抽取、文本分類、文本聚類、關聯規則、模式發現與可視化技術為主要線索,分析發現文本挖掘技術在人文社科研究中的應用特點,以便為人文社科研究中更加自覺地應用文本挖掘方法提供新的思路。

2、信息抽取應用

信息抽取(information extraction)是文本挖掘的前-端技術,它從文本對象中抽取預先指定的實體、關系、事件等信息,形成結構化的數據并輸入數據庫。信息抽取所獲得的結構化信息片段從一個角度反映了文本內容的內在特征,因此通過機器學習等方法可以從中發現知識、挖掘知識,為科學研究提供有力的支持。

信息抽取作為一門獨立的內容處理技術,其本身在商業、情報分析、數字圖書館等領域有著廣泛的應用,已有較多專門的信息抽取系統投入商用。在人文社科研究中,信息抽取常常作為文本挖掘的一個重要步驟,作為知識發現技術的前端和基礎。文獻構建了基于信息抽取的文本挖掘模型,均把信息抽取作為文本挖掘的一個重要組成部分,是提高文本挖掘效率的一個手段。不僅討論了信息抽取對文本挖掘的作用,而且證實了通過文本挖掘得出的規則對信息抽取系統具有指導作用。除了作為文本挖掘的前端技術,信息抽取技術在改善信息檢索、輔助知識發現方面在人文社科研究中有著較多的應用。

2.1 改善信息檢索

傳統的信息檢索只能通過關鍵詞與文檔的匹配返回與用戶需求相關的文檔,而信息抽取則可以幫助用戶直接定位所需的信息,無需閱讀文檔的全部內容。由于在處理海量數據時具有出色表現,信息抽取在多個人文社科領域得到了應用。在古典文學研究領域,德國萊比錫大學承擔的eAQUA項目從古典文獻資料(公元前3000年一公元600年)中抽取特定領域的知識,并通過eAQUA門戶免費提供這些知識。在文獻中,英國倫敦國王學院的Matteo(2010)介紹了一個信息抽取在古典文學中的應用研究項目,該項目旨在對當代關于古希臘和拉丁文學作品進行研究的二手文獻進行實體抽取,并提供與原始文獻之間的關聯,從而提供更高級的信息展示和檢索功能。在社會學領域,英國聯合信息系統委員會(JISC)資助的ASSERT E’’項目綜合利用信息抽取、文本聚類等技術提供了一個自動生成文獻綜述的系統。信息抽取技術與信息檢索技術互相融合滲透,為人文社科領域海量信息資源的獲取提供了極大的便利。

2.2 輔助知識發現

篇10

關鍵詞:數據挖掘;數據倉庫;教育管理;算法;VB

中圖分類號:TP311.52 文獻標識碼:A文章編號:1007-9599 (2011) 03-0000-02

Education Management Decision Support System Based on Data Mining

Lin Lin

(Biochemical Engineering College of Union University,Beijing 10023,China)

Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.

Keywords:Data mining;DW;Education management;Algorithm;VB

隨著信息時代的快速發展,外界所帶給我們的大量信息也越來越多。大量信息在給人們帶來方便的同時,也帶來了一大堆麻煩:信息過量難以消化,信息真假難以辯識,信息安全難以保證,信息格式難以統一。身處信息中的我們,如何才能不被信息淹沒、如何從中及時發現有用的信息呢?是否存在著一種工具、一種方法或者一個手段使得身處“數據爆炸、知識匱乏”的我們,能夠以一種輕松的狀態來進行有效的管理決策呢?

數據挖掘技術是人們長期對數據庫技術進行研究和開發的結晶,它為我們提供了一個非常優秀的工具。

一、 數據挖掘技術

所謂數據挖掘就是指一個完整的過程,該過程就是從海量的隨機應用數據中,提取分析隱含在其中的、人們事先并不知道的、但又具有內在聯系的、有價值的信息數據,這些信息數據為決策提供必要的支持。

數據挖掘過程中詳細各個步驟的大體內容如下六步:

1. 確定主題:即做好需求分析,清晰地定義出問題,并對探索的問題具有可預見性。

2. 數據的提煉:搜索與主題有關的數據信息,研究數據的質量,并確定將要進行挖掘操作的類型。

3. 數據的轉換:將數據轉換成一個分析模型,這個分析模型是針對挖掘算法建立的。

4. 數據挖掘:對所得到的經過轉換的數據進行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作要都能自動地完成。

5. 結果分析:解釋并評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。

6. 知識的同化:將分析所得到的知識集成到業務信息系統的組織結構中去。

二、 數據挖掘與教育管理決策支持系統

我們使用數據挖掘技術對我們所掌握的信息進行特定的“挖掘”,能夠發現:廣義知識、關聯知識、分類知識、預測型知識、偏差型知識,能夠在數據中尋找預測性的信息,能夠為我們的管理提供“做出決策”的依據,能夠有力的支持我們做出恰如其分的選擇。

所謂教育管理,就是在特定的社會環境下,遵循教育的客觀規律,對各種教育資源進行合理配置,以實現教育方針和教育目標的行為,教育管理是社會管理的一部分。在學校教育管理中,我們引進數據挖掘技術,正是想針對教育的海量數據進行有效的發掘,以期充分利用數據挖掘的長處,來發現這些海量數據中潛在的、長久以來未被發現的規則,能夠對學生潛力做出數據挖掘,這就為學校的招生工作提供了一定程度的參考,并在學生入學后還可以分析其進步或者退步的可能原因是什么,解決學生教育導向的問題;還可以對學校管理層比較關心的問題進行挖掘。例如,在所有教職工中教師的比例有多大;一般意義上講某位教師是否達到了學校的一般標準;能夠對教師執教能力和教師人力資源優化做出分析,在教師招聘中為人力資源主管提供一般性的判斷依據,對所應聘的教師做出其潛力及前景分析,以便能夠輔助管理層做出更好的決策,優化教育管理,促進教育管理良性發展。

三、 系統架構的搭建

我們將分以下幾步來進行系統模型的設計及實現:

1 對數據進行分析,建立數據倉庫

數據主要來源是檔案室現存的檔案,包括教職工和學生的,還要動態的添加一些數據。如果能夠得到教育院校的支持來豐富數據,那就更好。這個數據的要求是大量、真實、準確。

對于教職工的信息,主要有以下屬性:編號、姓名、性別、民族、出生年月日、

政治面貌、工作時間、是否為班主任、是否為學校管理層、畢業院校、最高學歷、

最高學位、最高職稱、家庭經濟條件、教學評估成績、所獲榮譽、所帶班級榮譽、研究成果等等,越詳細對我們進行數據挖掘就越好。如下表所示。

對于學生的信息,主要有以下屬性:學號、姓名、性別、民族、出生年月日、政治面貌、專業、班級、入學時間、入學成績、畢業去向、畢業成績單、畢業論文名稱、畢業論文成績、畢業證書、畢業后十年狀況(可選)、畢業后二十年狀況(可選)、畢業后四十年狀況(可選)、家庭條件、在校期間所獲榮譽等等。

對每一個屬性進行賦值初始化,如:性別,定義為字符型變量,M代表男,F代表女;又如:對教師的研究成果,是以字符來進行賦值的,涵蓋了發表的論文、編著的書籍、科研成果等等,這些分別按照級別予以打分,進行累加,最后全部總和即為該教師的研究成果的成績,然后對該成績進行加權求值,按照求值分別賦以A、B、C等字符。對每一位教職工和學生進行賦值,并錄入到數據倉庫中。創建數據倉庫的工具我們可以選擇Microsoft SQL Server 。需要注意的是,SQL Server “企業管理器”中控制臺根目錄中SQL Server組名稱應與其他名字一致,例如分析服務器是LINLIN2006,它也應該是LINLIN2006。

2 決策樹算法

決策樹提供了一種展示類似在什么條件下會得到什么值這類規則的方法。如圖4-1,針對學生畢業成績影響因素進行數據挖掘后的一棵決策樹,從中我們看到,決策樹的基本組成:節點、分支和葉子。

圖4-1決策樹

圖4-1中“入學成績=好”這個條件是樹的根,即決策樹的根節點。對條件的不同回答產生了“是”和“否”兩個分支;而是否“學習勤奮”是根節點的子節點(子節點的個數與決策樹算法有關);如果分支下無節點,則到樹尾,稱為葉子,圖中“畢業成績=壞”就是其中的一個葉子。從樹根到每一片葉子的過程就是利用決策樹進行分類的過程,通常稱這個過程為“遍歷”。

決策樹算法是數據挖掘中常用的一種算法,常用于數據分析和預測。決策樹的構造結果是一棵二叉樹(即每個節點有兩個分支)或多叉樹(節點可以包含多于兩個的子節點)。構造決策樹的過程,即樹的生長過程是把條件數據不斷切分的過程,每次切分對應一個問題(即一個節點),二叉樹的內部節點(非葉子)一般表示為一個邏輯判斷,如圖4-1。對每個切分的要求是分組之間的“差異”盡量最大。各種決策樹算法之間的主要區別就是對這個“差異”衡量方式的區別。我們只需要把切分看成是把數據信息分成幾份,每份數據信息之間盡可能不具有相同或相似的屬性,而同一份內的數據盡量具有相同的屬性,即屬于同一類別。

對于教育管理決策者來說,決策樹的構造,即在其生長過程中沒有必要太“茂盛”。因為這樣會大大降低樹的易理解性和易用性,而且也使決策樹本身對原始數據產生較大的依賴性,換句話說,這樣的決策樹可能對于原始數據非常準確,但當有新的數據信息加進的時候,準確性就會急劇下降,這種情況被稱之為訓練過渡。為了使得到的決策樹所蘊含的規則具有普遍性,我們必須有效避免訓練過度,同時減少訓練的時間。常用的方法是限制決策樹的過度成長,即預先設定決策樹的最大高度(層數);此外也可以通過設定每個節點必須包含的最少記錄數來限制,當節點中記錄的個數小于這個數值時就停止切分。

1 使用VB對算法進行編程,實現各個模塊的功能

通過VB來進行圖形應用界面設計及核心程序編程。菜單的設計如下:導入數據倉庫、選擇數據倉庫、任務確立、選擇因素、開始運行、查看結果、保存結果、翻譯規則、保存規則、退出。主要通過表單及命令來實現各功能。樣本空間指的是由教職工、學生數據倉庫中的數據所構成的數據空間。

2 測試

根據軟件測試的要求,必須對該系統進行數據測試,即用手中所擁有的檔案資料與數據挖掘的結果對比,進行測試。

首先,假定某學校教師部分檔案資料如下(受篇幅限制,僅有部分):

其次,我們使用表中的數據來檢測樹形結構中每條枝葉的正確性。如果大部分吻合,那么該決策支持系統是成功的,軟件和算法都是正確的;否則就得檢查改正。這個測試以及測試結果比較的工作量是非常巨大的。

四、進行數據挖掘時應考慮的問題

1 確定問題,即用數據挖掘解決什么樣的問題,它是核心,偏離了這個主題,最終只能導致失敗;

2 海量數據的問題,一方面是源數據的挖掘,一方面是數據的提煉;另外非標準格式的數據、多媒體數據、面向對象數據處理問題;從而保證數據的質量和時效性;

3 各種算法的使用;

4 變化的數據和知識問題;

5 枝葉――規則的易懂性問題;

6 與其他系統的集成問題,如果可能的話,本系統可以嵌入到學校網絡協同辦公平臺之中;

這些都是在具體實施時應該注意的,也關系著基于數據挖掘的教育管理決策支持系統模型成功與否。

五、展望未來

隨著信息化不斷向前發展,基于數據挖掘的教育管理決策支持系統也將涵蓋人才培養、人力資源、教學評估、教育經濟等幾個大的方面,也將逐漸發展為教育管理數據挖掘應用平臺。基于數據挖掘的教育管理決策支持系統也將發揮越來越重要的角色。

參考文獻:

[1][加]Jiawei Han,Micheline Kamber(著)范明,孟小峰等譯 《數據挖掘概念與技術》 北京機械工業出版社

[2][中國]張堯庭,謝邦昌,朱世武(編)《數據采掘入門及應用――從統計技術看數據采掘》中國統計出版社

[3][美]John W.Fronckowiak,David J.Helda(著)全剛,楊領峰,申耀軍,張濤(譯)高長劍(審校)《MS VB6.0 數據庫編程大全》電子工業出版社