物聯網數據挖掘論文

時間:2022-03-26 03:03:46

導語:物聯網數據挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

物聯網數據挖掘論文

1物聯網數據挖掘流程

物聯網數據挖掘處理功能需要在Hadoop平臺和Map/Reduce模式基礎上進行,對此需要劃分2個不同層面的操作流程。

1.1Hadoop平臺的具體操作流程

(1)對物聯網中的RFID數據進行過濾、轉換、合并的處理,并在分布式系統HDFS中保存PML文件形式的數據。同時,可采取副本策略來處理PML文件,在同一機構的不同節點或不同機構的某一節點上保存PML文件中的2-3個副本,進而可實現對存儲、處理、節點失效問題的有效解決。

(2)在執行任務過程中,創建和管理控制是Master(主控程序)的主要工作,當Worker處于空閑狀態時會接收到有關的分配任務,需與Map/Reduce互相合作實現操作處理,處理的最終結果由Master來歸并,同時將反饋結果傳送給用戶。

1.2Map/Reduce的具體操作流程

(1)根據參數在Map/Reduce思想指導下對輸入文件進行分割處理,使其細化為M塊(16-64M大小范圍)。

(2)Master、Worker、Map操作(M個)、Reduce操作(R個)是構成執行程序的主要部分,其中Map/Reduce的處理任務會由Master伴隨物聯網的快速發展和廣泛應用,人們可以有效利用物聯網來實現信息交換和通信的目的,不過物聯網海量數據的日益增多大大降低了物聯網服務的質量。在此,對基于Apriori算法進行物聯網數據挖掘研究。摘要將其分配給空閑的Worker。

(3)在處理Map任務時,Worker會讀取處理中的數據,并向Map函數傳送<key,value>,而后產生中間結果在內存中緩存且定時向本地硬盤傳送。此外,依據分區函數將中間結果分割為R塊區,利用Master將本地硬盤接收到的數據位置信息傳送給Reduce函數。

(4)ReduceWorker根據Master所傳送的文件信息采用遠程讀取方式來操作,以在本地文件中找到對應的文件,對文件的中間key進行有序排列,并利用遠程發送信息給具體執行的Reduce。

(5)ReduceWorker依據key排序后的中間數據向Reduce函數傳送與key對應的中間結果集,而最后的結果需采取最終輸出文件來進行編寫。

(6)當Map、Reduce的任務全部完成之后,MapReduce將回歸到用戶程序的調用點處,同時以Master對用戶程序進行激活。

2基于Apriori算法的物聯網數據挖掘

2.1Apriori數據挖掘原理和操作流程

Apriori是提升物聯網數據挖掘功能的一種最有效算法,其原理是在K項集中以逐層搜索迭代的方式來探索。具體的操作流程包括:

(1)掃描數據集以生成頻繁1-項集L1。

(2)通過L1來探索頻繁項集L2,采用不斷迭代的方式來持續探索,直至頻繁項集是空集。

2.2K次循環搜索后的數據挖掘流程

當已完成了K次循環搜索時,還需要進行2個數據挖掘的操作流程:(1)在LK-1生成CK(候選集)之后,開展JOIN操作。(2)支持度統計和剪枝的操作依據Apriori性質來進行,而后使得CK生成LK(頻繁集)。為提高物聯網數據挖掘的效率,節省系統的時間和內存消耗,在Apriori算法基礎上還需要借鑒和移植云計算平臺的分布式并行計算性質。如此以實現Hadoop架構的建立,在掃描數據庫查找頻繁項集中得到的并聯規則需要存儲在Hadoop架構中。同時,為取得各個計算節點上的局部頻繁項集,各個DataNode節點需要經歷并行操作的掃描處理,并使用Master來統計和確定實際全局的支持度、頻繁項集。

2.3Apriori算法Map/Reduce化的處理流程

上述提及基于Apriori算法的物聯網數據挖掘需借助于Map/Reduce模式,其數據挖掘功能的實現還應Map/Reduce化Apriori算法。主要的處理流程包括:

(1)用戶提出挖掘服務的請求,且由用戶來設置Apriori所需的數據,如最小支持度、置信度。

(2)當Master接收到請求后,通過NameNode來進行PML文件的申請,而后逐步完成訪問空閑節點列表、向空閑的DataNode分配任務、調度和并行處理各個DataNode需要的存儲節點算法。

(3)運用Map函數來處理每個DataNode的<key,value>對映射、新鍵值對,以CnK(用1表示每一個CnK的支持度)來表示所產生的一個局部候選頻繁K項集。

(4)通過Reduce函數來實現調用計算,對每個DataNode節點上相同候選項集的支持度進行累加,以產生一個實際的支持度,將其與最小支持度(用戶申請時所設置)進行比較,進而用LnK表示所生成的局部頻繁K項集的集合。

(5)對所有的處理結果進行合并,從而實現全局頻繁K項集LK的生成。

3結論

綜上所述,根據物聯網數據的特點,以及物聯網海量數據挖掘問題的存在情況。我們積極將Apriori算法應用于物流網數據挖掘,這對于提高物聯網海量數據挖掘功能和效率有較大的作用及意義,而物流網數據挖掘問題也能得到有效的解決。

作者:海海洋單位:汕尾職業技術學院