關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文
時(shí)間:2022-03-26 04:07:39
導(dǎo)語:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1相關(guān)技術(shù)
關(guān)聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關(guān)聯(lián)規(guī)則是形如A=》B的蘊(yùn)涵式,其中A稱為該關(guān)聯(lián)規(guī)則的前項(xiàng),B稱為該關(guān)聯(lián)規(guī)則的后項(xiàng)。事務(wù),是一個(gè)明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務(wù)。由用戶設(shè)定的支持度和置信度的門檻值,當(dāng)sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時(shí),認(rèn)為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時(shí)滿足minsupport和minconfidence的這種關(guān)聯(lián)規(guī)則就叫做強(qiáng)的關(guān)聯(lián)規(guī)則。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當(dāng)項(xiàng)集的支持計(jì)數(shù)≥D中事務(wù)總數(shù)|D|與minsup-port的乘積時(shí),就叫做頻繁項(xiàng)集,當(dāng)項(xiàng)集的支持計(jì)數(shù)可能≥D中事務(wù)總數(shù)|D|與minsupport的乘積時(shí),就叫做侯選項(xiàng)集。所有侯選項(xiàng)集K-項(xiàng)集的集合記作Ck,所有頻繁項(xiàng)集K-項(xiàng)集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個(gè)參數(shù)的限制,所挖掘出的強(qiáng)關(guān)聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實(shí)際應(yīng)用的需求,再結(jié)合自身的領(lǐng)域知識,通過選擇與實(shí)際分析任務(wù)有關(guān)的數(shù)據(jù)集,設(shè)置不同的參數(shù),限定前項(xiàng)和后項(xiàng)的個(gè)數(shù),選擇前項(xiàng)和后項(xiàng)包含的屬性等操作,對關(guān)聯(lián)規(guī)則的挖掘進(jìn)行約束。
2模糊集理論的引入
在討論實(shí)際問題的時(shí)候,需要判定模糊概念涵義,如判斷某個(gè)數(shù)據(jù)在模糊集的定義和歸屬,這時(shí)就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。
3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法
假設(shè)有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個(gè)單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動(dòng)窗口方法,設(shè)maxspan=1(該值可以依實(shí)際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫。再把擴(kuò)展事務(wù)數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應(yīng)的隸屬度。
4結(jié)語
事務(wù)間具有相互關(guān)聯(lián)的項(xiàng)天生就比事務(wù)內(nèi)的項(xiàng)之間的關(guān)聯(lián)的支持度來得低,這是一個(gè)很應(yīng)值得注意的現(xiàn)象。概括出來就是事務(wù)間項(xiàng)具有的低支持度性質(zhì),由此衍生出來的就是對提高低支持度項(xiàng)集間關(guān)聯(lián)規(guī)則挖掘效率的討論及其應(yīng)用。通過基于相似度度量的方法來轉(zhuǎn)換思路不失為一種好的方法,簡單地說就是在保證失真能被有效控制的狀態(tài)下通過科學(xué)有效的方法使我們能夠最大程度地逼近來接近真值。如何把這一思路運(yùn)用到事務(wù)間關(guān)聯(lián)規(guī)則的挖掘上特別是能行之有效地對兩個(gè)或兩個(gè)以上的項(xiàng)進(jìn)行挖掘,這正是本文所想認(rèn)真討論的問題。,本文的模糊關(guān)聯(lián)規(guī)則算法對數(shù)據(jù)量較小或面對中小型數(shù)據(jù)量進(jìn)行處理(或者直接處理)也是可以的,但面對大數(shù)據(jù)量或超大數(shù)據(jù)量卻是存在一些問題的。原始數(shù)據(jù)庫轉(zhuǎn)化為擴(kuò)展數(shù)據(jù)庫光這個(gè)計(jì)算工作量開銷的時(shí)間復(fù)雜度都是值得深思的;缺少信息壓縮存儲技術(shù)以便盡量降低算法的空間復(fù)雜度,如采用Hash技術(shù)等。
作者:李春青李海生單位:廣西民族師范學(xué)院
熱門標(biāo)簽
關(guān)聯(lián)理論論文 關(guān)聯(lián) 關(guān)聯(lián)方交易 關(guān)聯(lián)交易 關(guān)聯(lián)性 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)企業(yè) 關(guān)聯(lián)方 關(guān)聯(lián)度 心理培訓(xùn) 人文科學(xué)概論