漏洞庫數據挖掘論文
時間:2022-03-26 03:16:14
導語:漏洞庫數據挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1基礎概念介紹
1.1數據挖掘
數據挖掘(DM)融合了多個領域的理論和技術,如人工智能、數據庫、模式識別、統計學等技術。數據挖掘常與數據庫中的“知識發現”(KDD,KnowledgeDiscoveryinDatabase)進行比較,對于兩者之間的關系,學術界有很多不同見解。數據挖掘屬于整個知識挖掘過程的一個核心步驟。
1.2信息安全漏洞
漏洞(Vulnerability),又稱為缺陷。對信息安全漏洞的定義最早是在1982年,由美國著名計算機安全專家D.Denning提出,D.Longley等人從風險管理的角度分三個方面描述漏洞的含義,M.Bishop等人采用狀態空間描述法定義漏洞,權威機構如美國NIST在《信息安全關鍵術語詞匯表》以及國際標準化組織的ISO/IEC《IT安全術語詞匯表》中也對漏洞進行定義。世界上比較較知名的漏洞數據庫包括美國國家漏洞庫NVD(NationalVulnerabilityDatabase)、丹麥的Secunia漏洞信息庫等,我國在2009年也建成了中國國家信息安全漏洞庫CNNVD。本文選取Secu-nia漏洞庫的漏洞數據作為樣本進行數據挖掘。
2數據挖掘算法
2.1數據挖掘任務
數據挖掘任務主要是發現在數據中隱藏的潛在價值。數據挖掘模式主要分為兩種:描述型和預測型。描述模式是對歷史數據中包含的事實進行規范描述,從而呈現出數據的一般特性;預測模式通常以時間作為參考標準,通過數據的歷史值預測可能的未來值。依照不同的模式特征,細分六類模式:預測模式、關聯模式、序列模式、分類模式、回歸模式以及聚類模式。本文主要針對關聯模式進行深入探討。
2.2關聯規則分析及算法
關聯規則算法是指相關性統計分析,基于分析離散事件之間的相關性統計而建立關聯規則,關聯規則算法是定量分析,所以必須將樣本中的數據進行離散化操作,此算法是基于大量數據樣本的優化算法。
(1)關聯算法中的幾個基本概念
關聯規則算法包含4個基本概念項集。項集是一組項的集合,每個項都包含一個屬性,例如,項集{A,B}。項集的大小是指向集中含有項的數量。頻繁項集為樣本中出現頻率高的項集。支持度。支持度用來衡量項集出現的頻率。項集{A,B}的支持度定義為同時包含項A和項B的項集的總數。
(2)Apriori關聯算法
Apriori算法將發現關聯規則的過程分為兩個階段:首先通過迭代,檢索出數據集中所有的頻繁項集,即支持度不低于最小支持度的項集;第二階段利用頻繁項集構造滿足最小信任度的規則。
3運用關聯規則算法挖掘Secunia漏洞數據庫
Secunia漏洞庫覆蓋范圍包含程序和系統中的各種漏洞。該數據庫持續更新體現最新的漏洞信息。Secunia漏洞公告主要包括:漏洞名稱、Secunia公告號、日期、漏洞等級、漏洞來源、影響范圍、操作系統版本等。以Secunia漏洞庫中的信息為樣本,構建關聯挖掘規則,反映出漏洞信息在不同系統中的關聯性。
3.1構建關聯規則
(1)挖掘任務
通過歷史漏洞信息,挖掘分析不同軟件出現同類型漏洞的概率。
(2)挖掘結構
結合挖掘任務,數據挖掘關聯表為事例表結合嵌套表的方式。建立漏洞表Vulnerabilities,此表為事例表,漏洞id作為主鍵。嵌套表為Softwares表,記錄軟件名和軟件版本類型,軟件id作為兩張表進行關聯的外鍵。
3.2關聯規則挖掘結果
通過采集的Secunia庫的數據作為樣本,應用Apriori算法模型。依據最低支持度(Min_S)和最低置信度(Min_P)的閾值,形成相應的規則集。通過調整Min_S和最低Min_P的值,得到如表1所示的值。通過上述例子可以看出,當關聯規則的置信度越高、重要度越高,則該條關聯規則的價值越高,根據具體情況,可以設置最低置信度和最小重要度作為該條規則是否有價值的標準,即(Confidence(A→B)min,Importance(A→B)min),根據對置信度和重要的綜合考慮,可以得出價值更高的關聯規則,從而對信息安全事件有更好的預警分析。
4結語
本文主要研究了基于Secunia漏洞庫的關聯規則挖掘算法。介紹了數據挖掘的相關概念、關聯規則相關算法、Secunia漏洞庫的基本信息。以Secu-nia漏洞庫的數據為樣本進行關聯規則挖掘,分析了漏洞與軟件關系的關聯規則,建立了不同軟件中出現相關漏洞的聯系。如今,世界各國都在建立信息安全漏洞庫并信息安全漏洞信息,將漏洞信息與數據挖掘結合,可以對信息安全事件進行提前預警,具有重要而且長遠的意義。
作者:周密宋晨陽蔣丹婷單位:上海通用識別技術研究所