教育數據挖掘關鍵技術研究

時間:2022-07-08 11:29:40

導語:教育數據挖掘關鍵技術研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

教育數據挖掘關鍵技術研究

【摘要】基于教育數據挖掘關鍵技術應用,從試題表征、知識點標注、試題難度預測、學生認知診斷和個性化推薦5個方面的應用進行闡述,分析它們在目前使用中的關鍵技術、優勢和不足,并對教育數據挖掘領域發展趨勢進行展望。

【關鍵詞】教育數據挖掘;知識點標注;試題難度預測;學生認知診斷;個性化推薦

隨著教育信息化進程不斷深入推進,人們的學習方式從線下轉到線上,由此產生的教育數據量非常巨大,如何利用海量的教育數據資源,已然成為當前亟需解決的重要課題。教育數據挖掘技術應運而成,旨在有效幫助學生學習[1],然而教育數據資源具有異構性、隱含性和不可比性,導致數據挖掘非常困難,因而,對教育數據挖掘技術進行深入研究具有重要意義?,F從試題表征、知識點標注、試題難度預測、學生認知診斷和個性化推薦5個方面的關鍵技術應用進行介紹,分析它們目前使用的關鍵技術、優缺點和發展趨勢。

1關鍵技術應用

1.1試題表征相關技術。對于學習,試題永遠是最常見,也是非常重要的一種表現形式,對教育數據進行挖掘的第一件事情就是需要對試題進行表征,目前試題主要由文本、圖片、視頻等多種異構數據形式組成,不同的數據形式,采用的表征技術也各不相同。文本資源主要采用詞袋和詞向量兩種模型。典型模型有word2vec、ELMo和BERT等。針對知識點資源主要采用One-hot表征、知識圖譜表征技術。針對圖片資源主要采用基于卷積神經網絡(ConvolutionalNeuralNetwork,CNN)框架。1.2知識點標注。試題的知識點是描述試題用到的知識,知識點的標注是構建題庫和個性化推薦的基礎。試題知識點標注常用方法:一是人工標注,對標注人員的專業知識背景要求較高,耗時費力。二是傳統機器學習方法,常用多標簽分類方法,沒有考慮文本的深層語義,預測效果欠佳,對標注語料少的知識點的表現不好。三是深度學習,雖然能夠很好地提取文本的深層次語義特征,但沒有加入先驗知識,不同專業領域的知識無法融合,數據不平衡問題嚴重。1.3試題難度預測。試題難度的評估和預測是教育數據挖掘領域的一個重要的研究課題,其思路是讓學生做題,對于某道試題來說,答錯的學生越多,該試題越難。該做法需要學生事先做完試題,事后針對答題情況進行計算分析得出該試題難度。然而,有的時候需要提前對試題的難度進行評估。例如,對于標準化測試(如:高考、CET等),需要考試之前對試題進行難度的初步預測。傳統的方法多數采取人工評估,該方法存在專家主觀性強、費時費力的問題,沒有利用試題的文本特征。基于此,黃振亞[2]等人提出基于試題文本的難度預測框架(Test-AwareAttention-BasedConvolutionalNeuralNetwork,TACNN)。1.4學生認知診斷。認知診斷模型是通過對學生作答情況,了解學生對知識水平掌握的情況,由此進行個性化學習和資源推薦。常見的認知診斷模型包括IRT(ItemResponseTheory)和DINA(deterministicinputs,noisy“and”gate)模型。傳統DINA模型只適用于客觀題,不能對主觀題的答題情況進行分析。如果作答學生存在游戲心理,通過該模型診斷出來的學生能力就不夠客觀和準確。隨后,Wu[3]等人在此基礎上,又提出知識加猜測反應模型(KnowledgePlusGamingResponseModel,KPGRM),該模型通過基于聚合P值的方法多次對作答學生的游戲心理進行認知診斷,診斷準確性明顯提高。在大數據時代,需要處理大規模數據,傳統DINA模型計算效率很差。針對DINA模型計算時間過長的問題,王超[4]等人對原始DINA模型中的EM算法進行了改進,提出了基于增量DINA模型,有效提高了計算效率。1.5個性化推薦。個性化推薦是實現個性化教育的第一步,是教育數據挖掘領域非常重要的應用之一。近年來,有學者將基于協同過濾推薦技術應用到試題推薦當中,取得了一定的效果,但該方法只關注分數相近學生間的相似度和試題間的相似度,沒有涉及知識點信息,由此推薦的結果解釋性不強,合理性欠缺。為了解決以上問題,朱天宇[5]等人提出了一種結合概率矩陣分解(PMF)和認知診斷的個性化試題推薦方法PMF-CD,該方法通過對學生掌握的知識點與試題考察的知識點進行聯合分析來進行試題推薦。

2問題與發展趨勢

教育數據挖掘領域發展至今,雖然在某些領域取得了較大的進步,但是仍然有很多沒有解決的問題,現就主要的問題及未來發展趨勢總結如下。2.1問題。2.1.1大量未標記的資源沒有被利用。近年來產生了大量的教育資源數據,然而教育資源數據的屬性標注較少,大量未標記的資源沒有得到充分的利用。因此,如何有效利用這些未標記的資源,是機器學習方法在教育數據挖掘中不可避免的問題。2.1.2知識點標注權重相同問題。目前知識點標注方法中,不管是人工標注,還是采取一些算法自動完成標注,都只是簡單地把知識點標注出來,事實上對于一道包含多個知識點的題目而言,不同的知識點的重要程度是不一樣的,如果能將此道題目與知識點結合起來,會大大提高解決問題的能力,且對試題個性化推薦系統的性能好壞起到關鍵性的作用,因此,如何科學地對不同的知識點標注設置合理的權重,是值得深入研究的問題。2.1.3教育資源的表征、挖掘和應用比較困難。例如表征問題:目前試題表征都是基于不同的資源類型選擇不同表征技術。如:文本資源通常采用詞袋和詞向量技術;圖片資源通常選擇CNN框架等?,F實大量存在一道題中同時具有多種資源類型,例如一道數學幾何題,既有文字描述,又有公式和幾何圖形,他們之間有內在的知識點和意義上的聯系。傳統的表征技術很難描述這種關聯關系,亟待找到一種方法能夠有效解決此類問題。2.2發展趨勢。2.2.1無監督表征。針對大量未標記的資源沒有被利用的問題,設計有效的無監督表征框架以解決大規模教育資源數據的標注缺失問題,具有極其重要的現實意義。2.2.2教育知識圖譜的結合。由于教育數據資源多源異構性,導致教育資源的表征、挖掘和應用非常困難,未來可以嘗試教育知識圖譜,并結合教育知識圖譜對異構教育資源之間隱含邏輯關系的抽取和復雜語義結構關聯的挖掘,或許能夠取得顯著的效果。

3結語

教育數據挖掘是將數據挖掘技術應用到教育數據領域,具有數據的異構性、關系的隱含性和異構數據之間的不可比性,造成了教育數據的表示、挖掘和應用上的困難,未來依然是一塊充滿挑戰的研究領域,有許多問題亟需深入探索和解決。從試題表征、知識點標注、試題難度預測、學生認知診斷和個性化推薦5個方面應用的關鍵技術進行介紹,對比分析它們之間的優勢和不足,提出目前依然面臨的問題和未來發展的趨勢,旨在對后期進一步深入研究起到基石的作用。

參考文獻

[1]李宇帆,張會福,劉上力,等.教育數據挖掘研究進展[J].計算機工程與應用,2019,55(14):15-23.

[2]HUANGZY,LIUQ,CHENEH,etal.Ques-tionDifficultyPredictionforREADINGProblemsinStandardTests//Procofthe31stAAAIConferenceonArtificialIntelligence.PaloAlto,USA:AAAIPress,2017:1352-1359.

[3]WURZ,XUGD,CHENEH,etal.Knowl-edgeorGaming?CognitiveModellingBasedonMulti-ple-AttemptResponse//Procofthe26thInternationalWorldWideWebConference.NewYork,USA:ACM,2017:321-329.

[4]王超,劉淇,陳恩紅,等.面向大規模認知診斷的DINA模型快速計算方法研究[J].電子學報,2018(5):1047-1055.

[5]朱天宇,黃振亞,陳恩紅,等.基于認知診斷的個性化試題推薦方法[J].計算機學報,2017,40(1):176-191.

[6]劉淇,汪飛,王新.教育資源的深度表征與智能應用[J].人工智能,2019(3):45-54.

[7]胡國平,張丹,蘇喻,等.試題知識點預測:一種教研知識強化的卷積神經網絡模型[J].中文信息學報,2018,32(5):137-146.

[8]WURZ,LIUQ,LIUYP,etal.CognitiveModellingforPredictingExamineePerformance//Procofthe24thInternationalJointConferenceonArtificialIntelligence.NewYork,USA:ACM,2015:1017-1024.

作者:夏春芬 單位:湖北科技職業學院