科研數據挖掘技術論文
時間:2022-06-24 09:31:40
導語:科研數據挖掘技術論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
一、數據挖掘相關概念
數據挖掘技術是近些年發展起來的一門新興學科,它涉及到數據庫和人工智能等多個領域。隨著計算機技術的普及數據庫產生大量數據,能夠從這些大量數據中抽取出有價值信息的技術稱之為數據挖掘技術。數據挖掘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數據中挖掘出有價值的能夠揭示實體和數據項間某些隱藏的聯系的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。
二、使用Weka進行關聯挖掘
Weka的全名是懷卡托智能分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基于JAVA環境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。
(一)數據預處理
數據挖掘所需要的所有數據可以由系統排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數據挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數據載入
點擊Explorer進入后有四種載入數據的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數據格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現數據的載入。由于所載入的數據噪聲比較多,這里應根據數據挖掘任務對數據表中與本次數據任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關聯挖掘與結果分析
WeakExplorer界面中提供了數據挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“lowerBoundMinSupprot”(最小支持度)參數值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數值設為1,在“metiricType”的參數值選項中選擇lift選項,將“minMetric”參數值設為1.1,將“numRules”(數據集數)參數值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯規則。其挖掘參數信息和關聯挖掘的部分結果。
三、挖掘結果與應用
以上是針對教師基本情況和科研各項總分進行的反復的數據挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯數據挖掘結果。
1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。
2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,并且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今后的科研工作中,科研處可以采用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。
3、講師類教師的論文等級不高。從論文得分能夠推斷出講師類教師所的級別不高。為了鼓勵這類教師的,在今后的科研量化工作中對省級、國家級的論文級別進行細化,并且降低一般論文的得分權重,加大高級論文的得分權重。并且鼓勵講師類教師參加假期培訓,提高自身的科研和教學水平。
作者:王鴻丹 單位:鐵嶺師范高等專科學校理學院
- 上一篇:圖書館畢業生清賬數據挖掘研究
- 下一篇:電信客戶流失數據挖掘論文