機器學習范文

時間:2023-04-10 03:56:12

導語:如何才能寫好一篇機器學習,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

篇1

關鍵詞:機器學習;數據挖掘;算法

中圖分類號:TP182 文獻識別碼:A 文章編號:1001-828X(2017)013-0-01

一、機器學習的應用

機器學習的方法可以應用到許多領域中,包括研究,科技、商業領域等,這些領域的機器學習運用越來越成熟和高效。研究中運用機器學習發現人類不容易發現的規律;科技中運用機器學習提高了科技解決實際生活的能力;商業領域運用機器學習更好的挖掘客戶和滿足客戶。除此之外,機器學習也為其他領域帶來不小的突破。機器學習集中解決兩個問題:其一,如何讓電腦系統利用經驗數據提高我們工作效率。其二,如何有效率地提高機器學習算法的準確率。機器學習對于解決科學和工程中的問題和在各種生活領域的實踐問題是重要的。

二、機器學習的發展

過去的二十年機器學習的發展取得了極大的進步。走出了驗室,走向了包括商業領域的廣泛運用。在人工智能(AI)中,機器學習被作為一種重要的方法應用到電腦可視化,語音識別,自然語言處理,機器人控制和其他應用中。許多人工智能的開發者開始認識到,對于許多應用場景,訓練一個系統去出示輸入輸出的結果,比人工分析內在機理更容易。機器學習的準確性在很多應用中比人類自己的分析結果要高得多。機器學習的影響已經廣泛傳播到運用計算機和數據庫的行業里,例如,顧客服務,醫療診斷系統,資源分配。在以經驗為主的學科,像歷史學,醫學到人文學科,機器學習也有其用武之地。學習問題可能被定義為當執行某些任務時,通過不斷的訓練提高解決能力[1]。例如,在學習偵察信用卡詐騙時,我們需要給所有的信用卡交易貼上一個是不是詐騙的標簽。測量表現將會由于這個詐騙鑒別分類器被提高,而它的訓練是由以前的一系列詐騙案例所構成。

三、機器學習的模型與算法

在不同的現實問題中機器學習算法也依據數據與模型的不同有了很大的差別。概念上機器學習算法被視為在一堆候選算法中選取一種對原始表現擬合最好的程序。機器學習算法的結論好壞差別非常大,很大程度上因為所用到的數據和模型的差別。這里的數據集分為訓練集和測試集。它努力從不同的程序中收集最好的算法。許多方法集中在函數取值問題,它們集中研究函數。給定一個輸入,就有一個輸出。學習問題就是如何找出一個更精確的函數。通常函數以參數化的形式呈現,而在另一些情況下,函數具體形式不太清楚,它是由一個搜索過程、一個因子分解、一個極大化過程、一個仿真過程等構成。即使函數形式不太清楚,其一般都依賴于參數與自由度,訓練找到這些參數的過程往往使得表現測度最優化[2]。

下面是機器學習主流的各種算法, 算法是機器學習的核心,要了解不同算法的難點所在,更要了解不同算法的優勢以及應用場合。算法離不開對于數學基礎,也與統計學的建模有關系;由于算法的計算難度比較大,更與計算機的計算性能有關,所以算法研究顯得非常重要但也比較困難。算法可以說是機器學習的內核,一種好算法的提出,對于機器學習是劃時代的貢獻。

四、機器學習的商業重要性

這個時代是一個互聯網信息爆炸的時代,隨著網絡的迅速發展和普及,使得信息量極大豐富,由于我們獲得海量數據的便捷性,我們可以利用的數據進行分析變得越來越容易,收集的信息門類五花八門。對于各個行業,還能收集與行業、競爭對手、客戶和市場有關的信息,能夠很好的分析和處理那些對企業有重大價值的信息成為未來企業脫穎而出的關鍵。根據分析結果找出企業面臨的問題和漏洞,更好的管理企業,讓企業取得生存發展空間。

可見數據挖掘對于企業的重要性,未來從事機器學習相關崗位的人員將會越來越多,數據挖據不僅在一些大的公司有重要的作用,在小企業里也是不可或缺的。數據在公司經營中提供了非常有價值的商業信息,數據中蘊含了巨大的商業潛力。數據像一個盒子。不是我們隨便看看的就能得到指導性的意見。大數據時代的到來尤其為管理者既帶來了機會,又增加了困難。因為他們要面對的是更加龐雜的數據系統,從中找出他們需要的具體規律,這本身不是一件容易的事。所以以后機器學習會越來越走向我們的企業,為企業帶來價值。

參考文獻:

[1]M.I.Jordan1 and T.M.Mitchell2.MachineL earning: Treads, perspective, prospects ,science,2015.

篇2

關鍵詞: 機器學習 人工智能 基本模型

1.引言

“機器學習”是人工智能的重要研究領域之一。機器學習的定義是“系統通過積累經驗而改善系統自身的性能”。通俗地說,就是讓機器去學習,利用學到的知識來指導下一步的判斷。最初研究機器學習,是讓計算機具有學習的能力,以實現智能化。因為人們認為具有人工智能的系統首先必須具有學習能力。機器學習的研究始于神經元模型研究,此后又經歷了符號概念獲取、知識強化學習研究階段,至今已發展到連接學習和混合型學習研究階段。

2.機器學習系統的基本模型

根據機器學習的定義,建立如圖1所示的機器學習基本模型。

模型中包含學習系統的四個基本組成環節。

環境和知識庫是以某種知識表示形式表達的信息的集合,分別代表外界信息來源和系統具有的知識。學習環節和執行環節代表兩個過程。學習環節處理環境提供的信息,以便改善知識庫中的知識。執行環節是整個機器學習系統的核心。利用知識庫中的知識來完成某種任務,并把執行中獲得的信息送還給學習環節。

2.1機器學習的分類

很多學者從不同的角度對機器學習進行了分類,這里簡單闡述一下繼續學習策略的機器學習的種類。按照學習策略的不同,機器學習分為機械學習、歸納學習、基于解釋的學習、基于神經網絡的學習和基于遺傳算法的學習。

2.1.1機械學習

機械學習(Rote Learning)就是“死記硬背式的學習”,靠記憶存儲知識,需要時檢索已經存下來的知識使用,不需要計算和推理。機械學習的模式如下:需要解決的問題為{y,y,...,yn},輸入已知信息{x,x,...x}后,解決了該問題,于是將記錄對{{x,x,...,x},{y,y,...,y}}存入數據庫,以后當遇到問{y,y,...,y}時,檢索數據庫,即可得到問題{y,y,...,y}的解答是{x,x,...,x}。

能實現機械式學習算法的系統只需具備兩種基本技能:記憶與檢索。此外,存儲的合理安排,信息的合理結合,以及檢索最優方向的控制也是系統應該考慮的問題。該算法簡單、容易實現、計算快速,但是由于系統不具備歸納推理的功能,對每個不同的問題,即使是類似的問題,也需要知識庫中有不同的記錄。因此占用大量的存儲空間,這是典型的以空間換時間的算法。

2.1.2歸納學習

歸納學習是應用歸納推理進行學習的一種方法。歸納學習的過程是由特殊實例推導出一般情況的過程,這樣就使類似的問題可以利用同樣的方法求解。歸納學習的過程就是示例空間與規則空間的相互利用與反饋。1974年,Simon和Lea提出了雙空間模型,形象地對這一執行過程進行了描述,如圖2所示。

歸納學習算法簡單,節省存儲空間,在一段時間內得到了廣泛的應用。在應用過程中,該算法逐漸顯現出它的缺點:(1)歸納結論是通過對大量的實例分析得出的,這就要求結論的得出要有大量實例作支撐,而這在許多領域都是無法滿足的。(2)歸納結論是由不完全訓練集得出的,因而其正確性無法保證,只能使結論以一定概率成立。(3)該算法通過對實例的分析與對比得出結論,對于信息的重要性與相關關系無法辨別。

2.1.3基于解釋的學習

基于解釋的學習(Explanation-Based Learning)是運用已知相關領域的知識及訓練實例,對某個目標概念進行學習,并通過后繼的不斷練習,得到目標概念的一般化描述。該學習的執行過程如圖3所示。

這種方式的學習得到一個領域完善的知識往往是比較困難的,這就對該算法提出了更高的要求。為解決知識不完善領域的問題,有以下兩個研究方向[2]:(1)改進該算法使其在不完善的領域理論中依然有效。(2)擴充該領域的知識使其擁有更強的解釋能力。通常情況下,第二種改進方法更重要些。

2.1.4基于神經網絡的學習

神經網絡是由許多類似神經元的節點和它們之間帶權的連接組成的復雜網絡結構,是為模仿人類大腦的復雜神經結構而建立起來的抽象數據模型,希望相似的拓撲結構可以使機器像人腦一樣進行數據的分析、存儲與使用。神經網絡學習的過程就是不斷修正連接權的過程。在網絡的使用過程中,對于特定的輸入模式,神經網絡通過前向計算,產生一個輸出模式,并得到節點代表的邏輯概念,通過對輸出信號的比較與分析可以得到特定解。在整個過程中,神經元之間具有一定的冗余性,且允許輸入模式偏離學習樣本,因此神經網絡的計算行為具有良好的并行分布、容錯和抗噪能力。

神經網絡學習算法是一種仿真算法,擁有良好的認識模擬能力和有高度的并行分布式處理能力。但神經網絡模型及其參數設置難以確定,需要長時間的試驗摸索過程。并且,對于最后得到的神經網絡,其反映的知識往往難以讓人理解。為解決這些問題,構造神經網絡集成并從神經網絡或神經網絡集成中抽取規則成為當前研究的熱點。

2.1.5基于遺傳算法的學習

遺傳算法以自然進化和遺傳學為基礎,通過模擬自然界中生物的繁殖與進化過程,使訓練結果逐漸優化。與遺傳過程類似,在學習過程中,通過選擇最好結果并使其組合產生下一代,使“優秀的遺傳因子”逐代積累,最后得到最優的解。遺傳算法解決了神經網絡學習中的一個缺點,它不需要知道原始信息而只需知道學習的目的即可進行,具有很強的并行計算能力和適應能力。此外,遺傳算法采取的隨機搜索方法提高了該學習算法對全局搜索的能力。遺傳算法的缺點主要體現在三個方面:無法確定最終解的全局最優性;無法控制遺傳過程中變異的方向;無法有效地確定進化終止條件。基于這三個缺點,有人提出了遺傳算法與其他學習算法的結合,優點互補已達到更好的效果。

3.結語

機器學習在過去十幾年中取得了飛速的發展,目前已經成為子領域眾多、內涵非常豐富的學科領域。“更多、更好地解決實際問題”成為機器學習發展的驅動力。事實上,過去若干年中出現的很多新的研究方向,例如半監督學習、代價敏感學習等,都起源于實際應用中抽象出來的問題,而機器學習的研究進展,也很快就在眾多應用領域中發揮作用。機器學習正在逐漸成為基礎性、透明化、無處不在的支持技術、服務技術。

參考文獻:

[1]周志華.機器學習與數據挖掘[J].

篇3

機器學習作為人工智能的核心內容而存在。簡單來講就是在模擬人類行為的基礎上,通過學習來使計算機獲得更多的新技能、新知識,變得更加聰明更加智能,以此來實現其組織結構性能上的不斷優化。而機器學習作為一項極為智能化的過程,具體該如何實現屬于機器的特有“學習”行為呢?關于這一點,不同專業學者基于自身專業研究內容的不同,因此眾說紛紜,但總結來講,機器學習與推理過程之間的緊密關系還是得到了大多數學者的一致認同,因此,我們可以將機器學習策略分為事例學習、類比學習、傳授學習、機械學習。基于計算機功能的復雜性,機器學習涉及范圍較廣,是在多種知識、技術的交叉和共同作用下的結果,如,概率論、凸分析、統計學、算法復雜度理論、逼近論等多專業學科都涉及其中。就機器學習的分類來講我們可以將其分為以下幾種:(1)基于學習策略分類——機械學習、示教學習、演繹學習、類比學習、基于解釋的學習、歸納學習;(2)基于所獲取知識的表示形式分類——代數表達式參數、決策樹、形式文法、產生式規則、形式邏輯表達式、圖和網絡、框架和模式、計算機程序和其它的過程編碼、神經網絡、多種表示形式的組合;(3)按應用領域分類——自然語言、圖像識別、認知模擬、故障診斷、數據挖掘、專家系統、規劃和問題求解、網絡信息服務等領域;(4)綜合分類——經驗性歸納學習、分析學習、類比學習、遺傳算法、連接學習、增強學習;(5)學習形式分類——監督學習、非監督學習。

2機器學習在網絡安全中應用的意義

從機器學習的本質上來講,它是在大數據集中的基礎上通過對數學技術的引入,來構建機器行為模型,并通過不斷輸入新的數據資料,使機器在對各時段數據進行分析、運算的基礎上,來實現對未來的科學預測。就機器學習在網絡安全中應用的意義來講,主要體現在,機器學習基于自身極強的數據分析能力,在應用的過程中,可以幫助用戶來有效的對網絡安全事件作出及時的響應,尤其是在團隊安全技能不足的情況下,可以通過自動執行來替代團隊執行一些瑣碎的系統安全任務,有助于切實保障用戶的網絡安全。同時機器學習與傳統電子科技產品的融合,有助于清除產品中的惡意軟件,進而達到提升產品安全系數和運行穩定性的目的。

3機器學習在網絡安全中的應用

3.1安全入侵檢測

網絡安全入侵檢測是一種較早出現的計算機系統自我安全防護技術,其在不對網絡性能以及用戶的計算機操作構成影響的情況下,通過對網絡運行數據、安全日志等信息的分析和檢測,來判斷系統是否受到了安全威脅,以此來實現對計算機系統的實時保護。機器學習憑借自身性能的智能化,在安全入侵檢測中的應用,能夠有效提升網絡安全入侵檢測反應靈敏度,使防護系統可以在短短的幾秒鐘內,就準確的檢測到惡意攻擊位置,并予及時的進行準確、有效的防護,將惡意攻擊對系統的傷害降到最低。

3.2垃圾郵件檢測

機器學習在垃圾郵件檢測中的應用,根據其特殊的運行原理,我們可以將其看作是機器學習當中的分類問題。如,我們將郵件整體定義在{-1,1}之間,1就代表是垃圾郵件,而-1則說明是非垃圾郵件。而在對垃圾郵件進行文本分類問題定義的過程中,我們首先就需要通過一定的數值來對垃圾郵件的文本信息予以表達,并用向量來對各條消息進行表示,垃圾郵件的特征值則集中表現在各特征向量元素當中。同時,由于系統對于垃圾郵件的檢測屬于在線應用范疇,因此,機器學習對于郵件的自動識別和分類能夠極大的提升系統對于垃圾郵件的檢測效率,降低出錯率。

3.3域名檢測

作為互聯網重要的核心應用系統,域名系統基于自身對整個網絡安全所起到的重要意義,經常成為被黑客和不法分子惡意攻擊的目標。以往我們多通過防火墻、黑名單攔截、域名系統等的作用下,來實現對域名惡意攻擊的檢測。以機器學習為主的域名檢測則通常是在在線模型、離線模型的雙重組合作用下,來實現其域名檢測和防御功能。其中,離線模型,通過對惡意域名、合法域名訓練數據集的建立,來從中提取出基于區域的特征、基于DNS應答的特征、基于域名信息的特征等,之后通過X-Means聚類算法、決策樹等模型的構建,結合網站提供的已知域名數據集來對所構建的模型予以進一步的調整和驗證。以此來判斷其是否屬于惡意域名。在線監測模型,是在網絡系統對域名的自動查詢分析作用下,來對被檢測域名的主要特征、信息等進行獲取,其特征顯示已標記的則視為已知域名信息,進行繼續訓練操作,特征顯示無標簽的則視為未知域名,需要在分類器的作用下,對其是否屬于惡意域名進行繼續判斷。

參考文獻

[1]張蕾,崔勇,劉靜,江勇,吳建平.機器學習在網絡空間安全研究中的應用[J/OL].計算機學報,2018:1-35.

篇4

[關鍵詞]機器學習 服務器調優 線程池

[中圖分類號]TP181 [文獻標識碼]A [文章編號]1009-5349(2016)02-0133-01

一、線程池調優系統總體設計

線程池調優系統由四個模塊組成:線程池模塊、性能監測模塊、支持向量機調優模塊。線程池模塊負責線程池的創建與維護,任務隊列的任務管理等,并將任務隊列中的用戶任務取出放入線程池中進行執行。性能監測模塊負責對表征線程池性能的三個特征量吞吐量、任務運算時間和任務阻塞時間的監測,作為測試樣本輸入支持向量機調優模塊中。支持向量機調優模塊則通過性能監測模塊提供的測試樣本,得到所需的最佳線程池尺寸,并與當前的線程池尺寸進行對比,最后調整線程池尺寸到最佳。

二、線程池模塊

線程池模塊主要負責線程池內線程的創建、銷毀、構造任務隊列,并將任務隊列中的用戶任務取入線程池中分配空閑線程來執行。系統采用Win32的提供的線程庫,以面向對象思想實現相關功能模塊。線程池模塊主要包括線程池類CPoolThread、任務隊列類CJobDequeue、線程類CThread以及同步類CMutex。

線程類CThread最重要的一個方法是線程的創建方法CThread::Create()。線程創建方法采用了Win32線程庫提供的線程創建應用程序接口CreateThread(Null,0,_ThreadEntry,this,0,&ThreadID)來實現。線程池類CThreadPool主要提供了一個數組變量m_list_thread來維護一個線程池,線程池內的每個線程都存在了這個數組變量中,而具體的池內線程的操作都交給了線程類CThread來完成。線程池類CThreadPool主要包括初始化線程池的初始化方法CThreadPool::InitInstance()來實現線程池內所有線程的創建操作,具體通過CThread類的CThread::Create()方法來實現每個線程的創建。任務隊列類CJobQueue是線程池類的一個對象,維護了一個任務隊列數組列表m_normal_list,用戶任務經過線程池類添加任務接口進入此數組列表中。任務隊列類通過隊列列表來維護管理等待中的用戶任務。同步類CMutex主要是為了實現程序中的某些互斥操作設立的,通過對私有變量m_lock調用WinAPI函數的WaitForSingleObject()與ReleaseMutex()來實現程序的加鎖與解鎖操作。

三、性能監測模塊

性能監測模塊主要是監測表征線程池性能的三個特征量:吞吐量、任務運算時間和任務阻塞時間。由于吞吐量是監測用戶任務進入任務隊列的數量,因此,對吞吐量的監測可以在任務隊列類中實現。而任務運算時間和任務阻塞時間直接是與線程的執行任務相關的,因此,將這兩個量的監測放入線程類中實現。

性能監測模塊對吞吐量的監測方法。每當有用戶任務通過線程池類進入任務隊列時,任務隊列將其成員變量m_tuntu進行加1操作,實現對吞吐量的實時更新。

任務運算時間的監測方法主要通過調用Windows提供的API函數GetThreadTimes添加至線程類中的Run方法中來實現。GetThreadTimes函數可以返回四個參數:線程創建時間、線程退出時間、系統代碼運算時間和用戶代碼運算時間。因此,可以通過對系統代碼時間與用戶代碼時間求和來得到任務占用CPU的時間,也就是任務運算時間。具體做法是當線程類中Run方法啟動用戶任務時,即調用此API函數,獲得任務進入線程池時間;當用戶任務運行結束時,再次調用此API函數,即可獲得任務離開線程池時間,將二者做差即可得到任務占用CPU的運算時間。

對任務阻塞時間的監測方法的實現則相對麻煩一些,因為沒有直接測試任務阻塞時間的API函數.但是可以通過間接的方法來測量,即任務阻塞時間=任務執行時間-任務運算時間。其中,任務執行時間可以通過WindowsAPI函數getTickCount()來分別得到任務進入線程池與離開線程池時的CPU時鐘,從而做差就可以求出任務執行時間;而任務運算時間也可以得到,因此再將兩者做差就可以得出最后的任務阻塞時間。具體做法同監測任務運算時間時的做法,只是改變了監測的API函數。

四、支持向量機調優模塊

根據支持向量機調優模型,將支持向量機調優模塊寫成線程類中的一個函數――調優函數Tuning()。

通過線程池類內的成員變量m_tuntu、m_cmptm和m_blktm獲取當前線程池性能數據,輸入到支持向量機方法中得到最佳線程池尺寸。當最佳線程池尺寸與當前線程池尺寸不符時,需要對線程池的尺寸進行調整。當需要增加線程池尺寸時,可以通過WindowsAPI函數CreateThread()來創建新線程;當需要減小線程池尺寸時,可以通過調用函數TerminateThread()來銷毀空閑線程,最終達到所需的最佳線程池尺寸。

篇5

關鍵詞: IDS;異常檢測;行為模式;機器學習;相似度

中圖分類號:TP18;TP393.08 文獻標識碼:A

Anomaly Detection of User Behaviors Based on Machine Learning

SUN Hong-wei,TIAN Xin-guang, ZHANG Er-yang

(1.School of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China;

2. Putian Telecom Corporation, Beijing 100088, China)

Abstract: Anomaly detection acts as one of the important directions of research on Intrusion Detection Systems (IDSs). In this paper, an anomaly detection model originated mainly by Terran Lane is briefly introduced. Then a new anomaly detection model based on machine learning is presented. The model uses shell command sequences of variable length to represent a valid user’s behavior patterns and uses more than one dictionaries of shell command sequences to build the user’s behavior profile. While performing detection, the model digs behavior patterns by sequence matching method and evaluates the similarities of the corresponding command sequences to the dictionaries. The two models are tested with UNIX users’ shell command data. The results show that the new model originated by us has higher detection performance.

Key words: IDS; anomaly detection; behavior pattern; machine learning; similarity measure

1 引言

目前,異常檢測是入侵檢測系統(IDS)研究的主要方向,這種檢測技術建立系統或用戶的正常行為模式,通過被監測系統或用戶的實際行為模式和正常模式之間的比較和匹配來檢測入侵,其特點是不需要過多有關系統缺陷的知識,具有較強的適應性,并且能夠檢測出未知的入侵模式。虛警概率高是目前限制異常檢測應用的主要因素。異常檢測的關鍵問題在于正常行為模式(庫)的建立以及如何利用該模式(庫)對當前行為進行比較和判斷。

國內外已經開展了神經網絡、機器學習等智能技術在異常檢測中的應用研究,研究目標主要是提高檢測系統的準確性、實時性、高效性以及自適應性,其中一些研究成果在檢測性能和可操作性上已接近或達到了實用化水平。本文介紹了Lane T等人提出的基于機器學習的IDS用戶行為異常檢測模型,在其基礎上提出一種新的檢測模型,此模型用多種長度不同的shell命令序列表示用戶行為模式,建立多個樣本序列庫來描述正常用戶的行為輪廓,檢測時以長度可變的命令

序列為單位進行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據。利用UNIX用戶shell命令數據進行的實驗表明,新的檢測模型具有很高的檢測性能和較強的可操作性。

2 基于機器學習的定長命令序列檢測模型

2.1 機器學習基本原理

機器學習是人工智能的一個新的分支,它是通過對人類認知機理的研究,借助機器(計算機系統)建立各種學習模型,賦予機器學習的能力,在此基礎上構建具有特定應用的面向任務的學習系統。一個機器學習系統主要有學習單元、知識庫、執行單元組成,其中學習單元利用外界信息源提供的信息來建立知識庫并對其做出改進(增加新知識或重新組織已有知識),執行單元利用知識庫中的知識執行任務,任務執行后的信息又反饋給學習單元作為進一步學習的輸入。學習單元是機器學習系統實現學習功能的核心部分,它涉及處理外界信息的方式以及獲取新知識過程中所用的方法。知識庫用來存儲知識,包括系統原有的領域知識(這種知識是長期的、相對穩定的),以及通過學習而獲得的各種新知識(這種知識是短期的、變化的),選擇何種知識表示對學習系統的設計起著非常重要的作用。執行單元是使學習系統具有實際用途,同時又能夠評價學習方法好壞的關鍵部分。

機器學習研究中的很大一部分工作集中在分類和問題求解這兩個領域;經過三十多年的發展,目前已有了很多學習方法,如歸納學習、實例學習、遺傳學習等,但這些方法均有其局限性,結合具體的應用領域探討新的學習方法和算法是目前的研究主流。

2.2 定長命令序列檢測模型的描述

美國Purdue大學的Lane T等人提出了一種基于機器學習的用戶行為異常檢測模型,并對模型進行了深入的研究和實驗。其模型利用長度固定的shell命令序列表示用戶的行為模式,建立樣本序列庫來描述正常用戶的行為輪廓;工作時,將被監測用戶的命令序列同正常用戶的樣本命令序列庫進行比較和匹配,根據兩者的相似度對被監測用戶的身份進行判斷。模型的要點簡述如下[2]:

(1)將長度固定的shell命令序列作為描述用戶行為模式的最小數據單元,采用實例學習方法建立正常用戶的樣本序列庫(知識庫)。

(2)定義兩序列之間的相似度,它用于表示兩個序列所代表的行為模式之間的相似程度。在此基礎上,定義一個序列同樣本序列庫的相似度,它用于表示此序列所代表的行為模式同正常用戶各種行為模式之間的最大相似程度。

(3)模型工作時,計算被監測用戶序列流中的每個序列同正常用戶樣本序列庫的相似度,然后,對相似度進行加窗濾噪處理,得到按時間順序排列的相似度判決值,根據判決值的大小對被監測用戶的身份進行實時判決。

模型中有以下幾個關鍵問題:一、最佳序列長度的選擇;二、樣本序列的提取;三、相似度函數的定義;四、濾噪算法的選擇。Lane T等人針對以上問題利用UNIX用戶的shell命令數據做了大量實驗,以下是他們得出的結論:

(1)最佳序列長度同具體用戶的行為特點有關。隨著序列長度的增大(從1到15),模型的檢測性能隨用戶的不同而呈現出不同的變化趨勢。

(2)在各種相似度函數中,關心相鄰命令之間相關性的相似度函數對應的檢測性能優于不考慮相關性的相似度函數。均值濾噪和中值濾噪算法[2]對應的檢測性能差別不大。

(3)在聚類、按出現概率提取、按時間順序截取、隨機選擇等樣本序列提取方法中,聚類方法對不同用戶的適應性要強一些,但實現起來最復雜。

3 基于機器學習的變長命令序列檢測模型

3.1 變長命令序列檢測模型的描述

Lane T等人提出的定長命令序列檢測模型主要有兩個缺點:一、在用戶行為模式的表示上缺乏靈活性和適應性。行為模式是指用戶操作過程中體現出的某種規律性;實際中,不同用戶所具有的行為模式存在差異,同一用戶完成不同行為模式時所執行的命令個數也不盡相同,因而,用長度固定的命令序列難以全面準確地表示出用戶的整體行為輪廓。二、不容易估算針對具體用戶的最佳序列長度。Lane T等人主要采用實驗方法來確定最佳序列長度,這種方法所需的計算量很大,而且其性能缺乏穩定性。我們針對定長命令序列檢測模型的以上不足進行了改進和修正,提出一種變長命令序列檢測模型,具體描述如下:

(1)根據正常用戶的歷史行為,定義種長度不同的shell命令序列,用于表示正常用戶的各種行為模式。

設序列長度的集合為,其中表示第種序列的長度,且。在樣本序列庫的個數確定的情況下,可有不同的選擇。例如時,可以為(即三種序列的長度分別為),也可以為或其它組合。和對檢測性能有直接影響,在選擇它們時,除了要充分考慮正常用戶的行為特點之外,還需考慮模型的復雜度及檢測效率(和越大,檢測系統的存儲量和工作中的運算量也會越大)。

(2)針對每種序列建立一個樣本序列庫,用個樣本序列庫來描述正常用戶的行為輪廓(行為模式集合)。按照正常用戶歷史行為中各序列的出現概率來提取樣本序列。

設個樣本序列庫的集合,其中表示長度為的序列對應的樣本序列庫。設正常用戶的訓練數據(歷史數據)為,它是一個長度為的shell命令流,其中表示按時間順序排列的第個命令,對應的長度為()的命令序列流可表示為,其中。我們設定一個概率門限,將()中出現概率大于的命令序列視為正常用戶的行為模式,即是由這些命令序列組成。

(3)定義序列之間以及序列同樣本序列庫之間的相似度函數,用以描述行為模式之間以及行為模式同用戶整體行為輪廓之間的相似程度。

設長度為的兩序列和的相似度為,其計算方法如下[1]:

第一步:設定,,。

第二步:如果(其中表示中的第個命令),則,;否則,,。

第三步:。如果,返回執行第二步;否則,。

根據以上定義,如果時(即兩序列相同),則有。

序列和樣本序列庫的相似度函數定義為:

(1)

(4)檢測時,以長度可變的命令序列為單位進行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據。

對于被監測用戶的命令流,將它所對應的長度為的序列流表示為,其中。模型工作時,按照以下方法定義第個長度可變的序列并計算它同樣本序列庫集合的相似度。

第一步:設定,,。

第二步:如果,根據(1)式計算;否則,結束序列定義和相似度計算過程。

第三步:如果(即與中的某個序列相同),則,,,,,并返回執行第二步;否則,。

第四步:如果,返回執行第二步;如果,則,,,,,并返回執行第二步。

按照以上方法進行變長序列的定義和相似度計算,可得到按時間順序排列的相似度輸出值序列,其中為中的變長序列個數,,對此序列進行加窗濾噪處理,得到相似度判決值,對此值設定一個門限,若它大于,將被監測用戶判為正常用戶,否則,將其判為異常用戶。采用均值濾噪算法時的相似度判決值為:

(2)

式中表示用戶第個變長序列對應時間點上的相似度判決值(模型在中第個變長序列之后的每個序列對應時間點上都做一次判決),為窗長度,它是一個很重要的參數,決定了從被監測用戶行為發生到檢測系統對其行為做出判斷的最短時間(即檢測時間)。

3.2 模型的分析與比較

我們提出的變長命令序列檢測模型主要有以下幾個特點:

(1)用多種長度不同的命令序列表示正常用戶的行為模式,并針對每種命令序列建立一個樣本序列庫,這可以更好地反映正常用戶的實際行為輪廓。

(2)以長度可變的序列為單位進行相似度賦值,其實質是在被監測用戶命令流中進行行為模式挖掘。行為模式挖掘過程中,以當前命令為起點組成多個長度不同的序列,并按照長度從大到小的順序依次同相應的樣本序列庫進行比較,如果其中一個序列同相應樣本序列庫中的某個序列相同,則認為挖掘到一個行為模式,將此序列提取出來并進行相似度賦值,序列長度越大,所賦的值也越大,如果任何一個序列同相應樣本序列庫中的序列都不相同,則將當前命令提取出來作為長度為1的序列,并將它與樣本序列庫的相似度賦以0值;然后,再以此序列之后的下一個命令為起點組成多個序列繼續進行挖掘和賦值。

Lane T等人的定長序列檢測模型關心的是以當前命令為起點的定長序列與正常用戶各個行為模式之間的最大相似程度,而變長序列檢測模型關心的是以當前命令為起點的多個長度不同的序列是否能夠同正常用戶的某個行為模式完全匹配。

(3)定長序列檢測模型對正常用戶和異常用戶的檢測時間是相同的。變長序列檢測模型則不然,其檢測時間為個變長序列持續時間(不考慮模型的計算時間),設變長序列的平均長度為,則平均檢測時間為個命令持續時間;當被監測用戶是正常用戶時,在其命令流中挖掘到的行為模式會比較多,相對較大,最大可為,當被監測用戶是異常用戶時,在其命令流中只能挖掘到很少的(正常用戶的)行為模式,相對較小(最小可為1);所以,模型對異常用戶的平均檢測時間相對要短。

(4)此模型需要建立多個樣本序列庫,因而對檢測系統數據存儲空間的需求相對較大。

4 實驗結果

我們進行了分組實驗,每組實驗中將一個用戶設為正常用戶,而將其他三個設為異常用戶,分別采用兩種模型進行訓練和測試;正常用戶的前個命令用于模型的訓練(建立樣本序列庫),正常用戶和異常用戶的后個命令用于模型檢測性能的測試。在定長序列檢測模型中,序列長度為;在變長序列檢測模型中,序列長度集合。兩種模型中,每種樣本序列庫均由正常用戶的近個序列中出現概率大于的序列組成,檢測時采用均值濾噪算法計算判決值。

為了在對異常用戶的平均檢測時間相同的情況下比較兩種模型的性能,我們做了四組實驗,四個用戶各在一組實驗中被設為正常用戶。每組實驗中,采用變長序列檢測模型時,用于性能測試的各異常用戶命令流(包含個命令)中的變長序列個數平均約為,因此,我們將變長序列檢測模型的窗長度設為,而將定長序列檢測模型的窗長度設為,以保證兩種模型對異常用戶的平均檢測時間基本相同。實驗中通過調整判決門限可以得到不同虛警概率情況下對三個異常用戶的平均檢測概率。表1給出了USER4被設為正常用戶時的一組實驗結果。

表1 USER4被設為正常用戶時的實驗結果

虛警概率

0.001

0.005

0.010

0.050

定長序列模型的 平均檢測概率

0.67

0.70

0.76

0.79

0.96

變長序列模型的 平均檢測概率

0.83

0.86

0.88

0.92

0.99

根據表1的實驗結果,在虛警概率較低的區間,變長序列檢測模型對應的平均檢測概率相對定長序列檢測模型有明顯的提高。其余三組實驗的結果也證明了這一點,這里不再一一列出。

5 結論

本文提出一種新的基于機器學習的IDS用戶行為異常檢測模型,并利用UNIX用戶的shell命令數據進行了實驗,實驗結果表明,新模型的檢測性能同Lane T等人提出的檢測模型相比有較大改善。由于模型中的學習方法和檢測算法對不同的檢測數據有一定的適應性,因而此模型也可以用于shell命令之外其它數據類型(如系統調用)的IDS,但具體的應用范圍及檢測性能還需要進一步的研究和實驗。

篇6

Statistical and Machine

Learning Approaches for

Network Analysis

2012,344p

Hardcover

ISBN9783527331833

M·德默等編

圖形結構被用于計算機可以識別的結構信息時,對圖形信息進行統計分析就成為可能。生物信息學、分子與系統生物學、理論物理、計算機科學、化學、工程等多個領域都在利用這一特點充分發揮計算機在分析和統計方面的優勢。本書的一個重要特點就是將諸如圖論、機器學習及統計數據分析之類的理論相互結合,形成一個新領域,以交叉學科的方式探索復雜網絡。基因組、蛋白質,信號以及代謝組學數據的大規模生成使得復雜網絡的構建成為可能,它為理解生理學以及病理學狀態的分子基礎提供了一個嶄新的框架。網絡和基于網絡的方法用于生物學中以便表征基因組、遺傳機理以及蛋白質信號。疾病被看作關鍵細胞網絡的異常干擾。如今,在對諸如癌癥、糖尿病等的復雜疾病的干預中,就使用網絡理論來分析。

本書共有11章:1.重構及劃分生物網絡計算方法概論; 2.復雜網絡入門:度量、統計性質及模型; 3.進化中的生物網絡建模; 4.內含動力學的生物網絡的模塊性配置; 5.統計概算機對管理網絡大規模因果推理的影響; 6.加權頻譜分布:網絡結構分析的度量; 7.進化中的隨機二部圖的結構; 8.圖形內核; 9.用于早老性癡呆病的基于網絡的信息協同分析; 10.結構化數據中基于密度的集合枚舉; 11.采用加權圖形內核的下位詞析取。

本書第1主編是奧地利健康與生命大學生物信息學和轉化研究所所長,他在生物信息學、系統生物學和應用離散數學領域130篇。他是Wiley出版的《復雜疾病醫學生物統計學》《復雜網絡分析》和《微陣列數據分析》等書的合作編者。

本書可用作應用離散數學、生物信息學、模式識別、計算機科學專業跨學科研究生課程的補充讀物,對于這些領域的研究人員和專業人員,也是一本有價值的參考書。

胡光華,退休高工

(原中國科學院物理學研究所)

篇7

關鍵詞:域名系統拒絕服務,神經網絡機器學習

 

1 引言

早期的DNS是基于不可靠傳遞的用戶數據報協議(UDP)設計的,而且DNS的安全性在當時并不是大問題,因為早期的設計足以滿足互聯網的需求。現在,DNS已成為互聯網和具有一定規模的專用網絡的運營的一項重要服務,所以有必要確保DNS系統避免任何未經授權的訪問。本文的第一個目標是評估對DNS的不同類型的DoS攻擊。這些攻擊識別模式促使我們通過改變不同的參數模擬不同的攻擊方案來產生所需的數據。

最常見的兩種DNS拒絕服務攻擊是直接DoS攻擊和放大攻擊。首先,攻擊者試圖通過從單個或多個源發送過多流量來擊垮服務器。因此,這將導致目標服務器接收大量查詢數據包。被DoS攻擊淹沒的域名服務器將經受丟失包和不能總是回復所有DNS請求。參考文獻[1]指出DNS數據流的數據包長度小,況且異常數據包相似性使得檢測過程更加困難。

另一方面,攻擊者建立最先進和典型的DoS攻擊類型,稱為放大攻擊,來增強一般DOS攻擊的影響。這種攻擊類型命名為放大是因為攻擊者抓住了小查詢可以產生更大量UDP響應數據包這個事實[2]。現在,DNS協議(RFC2671)被攻擊者用來擴大放大系數。例如,一個60字節的DNS請求可以得到超過4000個字節的回應。這將產生超過60的放大因素。多位研究者研究過放大攻擊的影響。根據他們的分析,這些攻擊模式包含了龐大數量的大于512字節的標準DNS數據包的非標準包[3]。

2 數據集生成仿真模型

訪問流量仿真真實環境較難,所以我們利用了網絡模擬器。據我們所知,可用的DNS的DoS攻擊生成數據集并不存在。因此,我們的實驗用模擬生成所需的數據。我們的模型使用NS-2(版本2.28)的OTcl程序進行模擬,它用于構造DNS不同的DoS攻擊。

我們的模擬網絡拓撲結構包含一臺合法的客戶機、一個攻擊者和兩臺服務器。所有節點都連接到同一個路由器。所有鏈路都是100Mbps和10ms延遲,除了目標服務器和路由器之間鏈路是10Mbps和10ms延遲。我們以落尾排隊策略使用一個100個數據包大小的隊列。網絡中有兩種類型的流量的產生,即合法流量和攻擊流量。我們模擬修改了服務器的應用程序,請求間隔時間固定為10秒。攻擊者期望用過剩的流量淹沒目標域名服務器。DOS流量模擬成恒定比特率(CBR)源。CBR由NS-2中CBR流量生成器生成。我們選取不同的延遲值來確定攻擊開始時間,來應對各種變化。

3 系統結構

本節提出了一種新型DNS的DoS攻擊檢測系統,它使用了一種機器學習引擎來檢測和分類攻擊。該IDS是一個基于IDS(NNIDS)的網絡節點,它可實施在域名服務器上以達到檢測攻擊的目的。圖1用輸入輸出數據類型給出了我們所提出的系統的總體結構。

該系統從收集域名服務器收到的數據包流開始。接下來,預處理器基于一個管理員指定的20秒時間窗口統計分析流量,超過了最大查找延遲。可能標識域名服務器收到的DNS流量的參數,構成了分類器的輸入定義如下:

① 收到的DNS吞吐量需定義為服務器所收到的比特數量。我們測量了指定的時間窗口指標的平均值。

② 服務器在監測時間窗口接收的數據包平均長度。,域名系統拒絕服務。,域名系統拒絕服務。

③ 丟失包定義為由于洪水攻擊流量沒能達到其目標的丟失DNS數據包的數量。,域名系統拒絕服務。,域名系統拒絕服務。

在預處理流量和基于指定特征選擇產生所需數據集后,機器學習引擎得以應用。,域名系統拒絕服務。四種不同的機器學習引擎已為我們的系統所評估,其中三個在神經網絡分類器范疇,最后一個是基于支持向量的典型算法。這些引擎在接下來的章節中將詳細介紹。

圖1 系統框架

3.1 BP神經網絡

本文中,我們嘗試找到優化的BP網絡來有效地檢測和對不同的DNS的DOS攻擊分類。我們的BP神經網絡有三個層次。輸入層的單元數目適合于輸入矢量的特征,即DNS流量的三大特征。輸出層還有三個單元表示正常和DoS攻擊的不同狀態: [0 0 0]表示正常狀態,[0 0 1]表示直接DoS攻擊以及[0 1 0]表示放大攻擊。我們為BP網絡訓練過程做出下列主要假設:時代數= 500,平均方差(MSE)= 0.00001,培訓功能=列文伯格-馬夸爾特法反向傳播(trainlm),激活功能=tan-sigmoid函數。我們的網絡優化結構,發現隱藏神經元的數量從3到13個不等。該系統在隱藏層的最佳精度是7個神經元。

3.2 RBF神經網絡

為了實現一個優化的RBF神經網絡的分類問題,我們需要為隱藏單元和RBF中心和寬度指定激活函數。隱藏層主要使用的激活函數是高斯函數,它已經用于我們的RBF分類器的隱藏單元。質心位置已用K-means聚類算法選擇,接著寬度參數計算公式如下:

由于要求高計算能力,我們初步測試中不可能獲取與BP神經網絡相同的MSE。因此,我們設定MSE值0.001。

3.3 SOM神經網絡

在這個實驗中,三個特征的輸入向量因輸入值的差別很大已被歸一。如果原始數據被直接應用到網絡,那么具有較高值的輸入樣本可能會導致抑制較小值的影響。因此,下面的公式給出標準的規范化:

測試不同數目的神經元,以找到最佳的執行網絡。,域名系統拒絕服務。查看流量數據使用的分類器的輸出,我們得到了同樣的結果,并且注意到所有正常流量在指定范圍內聚集,而可疑流量在顯示可能攻擊群的外面。當我們對結果充滿信心時,受測試數據控制訓練好的網絡得以評估。因此,實施SOM神經網絡的主要假設如下:時代數= 1000,神經元數目= 25,相鄰拓撲= Hextop(六角層拓撲函數),距離函數= Linkdist,預訂階段學習率= 0.9,預訂階段步驟= 1000,調整階段學習率= 0.02,調整階段相鄰距離= 1。

3.4 支持向量機

SVM是最近入侵檢測系統中使用的另一種學習與軟計算技術。基本的SVM算法是為分類對象分為兩類而設計的,但許多現實世界的問題有兩種以上的處理方法。在我們的實驗中,實施一對所有的方案是為解決這個問題的。它構造3位SVM分類器,每個分類器將其中一個類從其余類分開。第i 個SVM是利用第i類正標簽(+1)的訓練集進行訓練,而負標簽(-1)則為其他。最后,我們的測試數據的樣本歸為第i類,它擁有三種分類器之間的最大值。

在訓練階段, 應提供具有相應參數的適當函數。這將是一個耗時的過程,因為訓練的機器使用不同的內核參數,且當中只有一個是測試過程中選為表現最好的。

三個徑向內核分別為1.5、10和5伽馬的支持向量機和最佳正規參數C= 100、1和1000000用來實施三個分類器。徑向基礎內核公式如下:

4 系統評估

為評估我們所提出的系統,定義了下列性能指標:

精度,是指歸為總體數據中準確類型的數據比例。準確的情況是真陽性(TP)和真陰性(TN),而虛假的檢測情況是假陽性(FP)和假陰性(FN)。該系統的精度計算公式如下:

檢測率(DR),是指在所有攻擊中檢測到的攻擊所占的比例。兩種攻擊的指標按下列公式計算:

誤報率(FAR),是指被分類器錯誤分類的網絡流量的百分比。其計算公式如下:

表1:不同分類器的性能比較

表1列出了三個神經網絡分類器以及SVM的性能比較。結果表明,BP神經網絡優于本文實現的其他類型的分類器。它給我們提供了以可接受的誤報率對DNS的拒絕服務的良好的檢測率。

5 結束語

本文介紹了DNS的兩個不同類型的DoS攻擊,直接DoS和放大攻擊。對DNS流量的DoS攻擊的影響的調查使我們發現可疑行為。基于這些模式,分析測量所需的流量數據通過使用最靈活的網絡模擬器NS - 2進行模擬。最后,提出了基于機器學習的系統,通過幾種流量統計來檢測和分類DNS的DoS攻擊。兩種不同的機器學習算法為探測器引擎進行了評估,也即神經網絡分類器和支持向量機。性能比較結果表明,BP神經網絡以對直接DoS攻擊99.55%的檢測率優于其他分類器,97.82%放大攻擊檢測率,99%的準確率,以及0.28%的誤報率。

【參考文獻】

[1]Y. Wang, M. Hu, B. Li and B. Yan, Tracking anomalous behaviors of name serversby mining DNS traffic, LECTURE NOTES IN COMPUTER SCIENCE,p351-357, 2006

[2]R. Vaughn and G. Evron. DNS Amplification Attacks,isotf.org/news/

DNS-Amplification-Attacks.pdf.Accessed,Nov. 2008

篇8

關鍵詞:圖像處理;機器學習;邏輯回歸;梯度下降

中圖分類號:TP391.41

1 背景簡介

現今,人與計算機的交互活動越來越成為人們日常生活的一個重要組成部分。傳統的人機交互存在各種缺陷,如:必須使用鍵盤、鼠標或操縱桿方能完成人機交互。因此,新興的交互方式應運而生,其中動態手勢識別逐漸成為人機交互中最熱門的新興交互方式之一。動態手勢識別采用手指的形態來進行標記和識別,從而操控計算機,在人機交互過程中發揮越來越重要的作用。因此,體感手勢這一課題意義深遠,具有廣闊的實際應用前景。

2 系統功能介紹

2.1 定義人機交互手勢:通過在手指上面套上兩種顏色鮮明的指環,規定控制方向的向上,向下,向左,向右四種手勢,點擊以及縮小,放大等手勢操作。

2.2 在OpenCV平臺上面,利用CamShift算法來獲取多個動態手勢點的位置。

2.3 將多個位置點的視頻流數據利用機器學習中的線性回歸,梯度下降算法,得出相應的手勢操作結果。

2.4 利用手勢操作的結果,利用無線網絡傳輸數據來控制鼠標的移動/利用紅外數據來控制電視機電臺切換以及音量控制,替代遙控器的功能。

3 理論算法

3.1 Camshift算法介紹。Camshift算法是MeanShift算法的改進,稱為連續自適應的MeanShift算法。

Camshift算法可以分為三個部分:(1)計算色彩投影圖:將圖像從RGB顏色空間轉換到HSV顏色空間,對H分量進行直方圖統計,將圖像中每個像素的值用其顏色出現的概率進行替換,由此得到顏色概率分布圖。(2)MeanShift尋優算法:通過不斷迭代計算得到最優搜索窗口的位置和大小。(3)CamShift跟蹤算法:在視頻序列的每一幀當中都運用meanShift,并將上一幀的MeanShift結果作為下一幀的初始值,如此不斷循環迭代,就可以實現目標的跟蹤了。

3.2 邏輯回歸以及梯度下降算法

我們利用邏輯回歸函數可以來實現有監督學習的多分類實現。

4.3 手勢操作的機器實現。通過提取視頻流中動態手勢點的特征信息,通過機器學習的決策分類之后獲得了不同手勢的操作。利用API函數GetCursorPos SetCursorPos mouse_event來操作鼠標的移動/點擊/滾作。

4.4 實驗結果。經過機器學習算法提取的手勢點坐標:

5 結束語

本文提出了基于Camshift算法結合機器學習分類算法實現了手勢多點跟蹤以及簡單的鼠標控制操作。由于Camshift算法對顏色要求比較高,在實際情景中對顏色要求很苛刻。而且為了更好更精準的對鼠標進行操控,該算法需要戴實驗用的指環套,并且手勢類型不夠多樣化。在算法的準確性上面還有待改進。

參考文獻:

[1]Gray Bradski& Adrian Kaebler 著,于仕琪,劉瑞禎,譯.學習OpenCV(中文版)[M].清華大學出版社,2009-10.

[2]于仕琪,劉瑞禎.OpenCV教程(基礎篇)[M].北京:航空大學出版社,2007-6.

[3]斯蒂格 尤里奇 威德曼 著,楊少榮,譯.機器視覺算法與應用[M].清華大學出版社,2008-11.

[4]西剎子.安防天下:智能網絡視頻監控技術詳解與實踐[M].清華大學出版社,2010-2.

[5]汪光華.智能安防:視頻監控全面解析與實例分析[M].機械工業出版社,2012-8.

[6]康威 John Myles White 著,陳開江,劉逸哲,孟曉楠,譯.機器學習:實用案例解析[M].機械工業出版社,2013-4.

作者簡介:高鑫(1992.7.20-),男,浙江寧波人,學生,本科,研究方向:信息安全。

篇9

>> 機器人智能化研究的關鍵技術與發展展望 智能化綠色建筑在辦公園區中的實踐及展望 能效管理在智能化建筑中的應用及發展趨勢 基于車聯網的汽車智能化發展研究 汽車智能化技術的發展趨勢研究 汽車基本構造及智能化的研究 綠色建筑中的智能化技術應用探究 智能化技術在綠色建筑中的應用論述 智能化技術在綠色建筑中的應用分析 遺傳算法在智能機器人行為規劃中的應用研究 智能化、信息化技術在紡織行業中的應用與發展 智能化和信息化在工程機械發展中的應用 智能化噴涂機器人的研究現狀及進展 智能化數字電源的應用與發展研究 國內外智能化建筑的發展動態及展望 電氣自動化在樓宇智能化中的應用研究 智能化技術在電氣工程自動化中的應用價值研究 建筑電氣自動化在樓宇智能化中的應用研究 智能化技術在機械工程自動化中的應用研究 試論固網智能化的應用與展望 常見問題解答 當前所在位置:l.

[8] 王笑京,沈鴻飛,汪林.中國智能交通系統發展戰略研究[J].交通運輸系統工程與信息,2006,6(4):9-12.

[9] 邵恩坡.發展天然氣汽車存在的問題及對策[J].節能技術,2005,23(6):554-556.

[10] WicksM C.Radar the next generation2sensors as robots[C]//. IEEE Radar Conference,Washington,USA.2003:4-18.

[11] 沈,毛建國,李舜酩.單目視覺車道線識別算法及其ARM實現[J].南京航空航天大學學報,2008,40(2):208-212.

[12] Baber J,Kolodko J,Noe T,et al.Intelligent vehicles sharing city roads[J].IEEE Transactions on Robotics & Automation Magazine,2005,12(1):44-49.

[13] Liu Y,Ozguner U,Acarman T.Performance evaluation of intervehicle communication in highway systems and in urban areas[J]. IEEE Intelligent Transport Systems,2006,153 (1) : 63-75.

[14] Chen Q,OzgunerU,Redmill K. Developing acompletely autonomous vehicle[J]. IEEE Intelligence Systems,2004,19(5) : 8-11.

[15] 張新豐,林凱,劉旺,等.汽車語控智能電器系統[J].汽車工程,2007,29 (7):601-605.

[16] 韓玉敏.汽車智能電子節氣門控制系統研究[J].交通科技與經濟,2006,8(2):87-89.

[17] 趙巖,王哈力,等.汽車智能雨刷系統的設計[J].電子科技,2007,2(209): 70-72.

[18] Xin J ianghui,Li Shunming,Liao Qingbin,et al. The application of fuzzy logic in exploration vehicle[C]//.International Conferenceon Fuzzy Systems and Knowledge Discovery.2007:195-203.

[19] 王珊,王會舉,覃雄派,等.架構大數據:挑戰現狀與展望[J].計算機學報,2011(10):1741-1752.

[20] 余凱,賈磊,陳雨強.深度學習:推進人工智能的夢想[J].程序員,2013(6): 22-27.

篇10

【關鍵詞】糧食 種植面積 指標體系

一、引言

糧食種植面積是保證國家糧食供給安全的重要前提,研究糧食種植面積是十分有意義的。國家糧價收購政策、農業從業人員、糧食進出口貿易、農民受教育程度、城鄉收入差距等因素都影響著糧食種植面積,為綜合度量各因素對糧食種植面積的影響程度,下文將建立指標體系進一步分析。考慮到數據的可得性,再參考現有文獻研究成果的基礎上,本文選取投入、產出及可持續發展三個方面的指標建立有關糧食種植面積的指標體系。為了更好的研究它們之間的關系,決定采用多元線性回歸模型、Bagging、m-Boosting回歸模型、支持向量機回歸、決策樹、神經網絡等方法分別對其進行分析,以期得到最有效的結論。

二、方法介B

在研究變量對變量的影響或變量之間的關系時,人們最先想到的是回歸,而線性回歸模型的前提假設較多且要求較高,所以現實數據是很難滿足這些條件,即使是滿足,還要受到其他因素的影響,近年來,隨著專家學者們對建模認識的逐漸深入,再加上計算機技術的快速發展,出現了諸如決策樹、m-boosting等機器學習算法,這些算法模型在建模之前對數據沒有做出任何假定,使用的是諸如一致性、無偏性等概念進行建模,能夠很好的解決多元線性回歸的不足,預測精度高,所以本文在建模中引入機器學習方法對糧食種植面積進行研究。

決策樹(Decision Tree)是在已知概率的基礎上,通過計算預期的凈現值大于或者等于零的概率來評價某一項目運行的風險。隨機森林是用隨機的方式建立一個“森林”,森林里面有很多的決策樹組成。Bagging與m-Boosting算法類似,區別在于Bagging訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而m-Boosting訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有關。神經網絡本質上是人腦處理信息方式的簡化模型。支持向量機(SVM,Support Vector Machines)有兩種功能,一是對數據進行分類,二是對數據進行回歸,目前主要用于對小樣本、非線性及高維數據進行分類和回歸。

三、實證分析

糧食種植面積指標體系的建立是從投入、產出及可持續發展三個角度出發的,投入是指種植糧食的成本,產出是指通過種植糧食獲得的收入,可持續發展是綜合考慮影響糧食種植面積的其他因素。具體的指標選擇如下表:

其中:自然災害成災率=成災面積/受災面積;人力資本:受教育程度初中及以上勞動力

比重;農業勞動力比重:鄉村就業人數占鄉村總人口的比重;農業增加值比重=農業增

加值/國內生產總值。

數據來源于《中國統計年鑒2015》與《中國農村統計年鑒2015》,時間維度為1990~2014年。糧食最低收購價格用稻谷、小麥和玉米的平均價格計算。由于我國糧食最低收購價格政策是從2005年開始實施的,故糧食的最低收購價格只有2005年之后數據,2004年及之前的糧食最低收購價格用當年糧食的最低收購價格代替。

在建模之前為了消除數量級和單位對模型精確性的影響,對數據進行標準化處理,利用標準化之后的數據進行建模,可以得出各種機器學習回歸方法關于訓練集和測試集的錯判率,具體如下表2:

由上表可知,利用隨機森林建模所得的訓練集與測試集的錯判率最低,分別為0.084與0.729,故選擇隨機森林回歸模型作為最終回歸模型。通過隨機森林回歸模型可以得到每個變量的對糧食種植面積的重要性排名,結果顯示農業勞動力比重、農業機械總動力、農用化肥施用量、農村居民家庭人均純收入和農業增加值比重對糧食種植面積的影響排在前五位,其中前三名分別為勞動力投入、機械投入和資本投入,可以看到糧食種植的投入對種植面積的影響很大,排名第四和第五的指標屬于地區經濟發展水平,顯然地區經濟發展水平對種植面積的影響也是非常大的。

四、研究結論

為了保障糧食安全,我國需要將增加農民收入放在糧食保護政策的第一位。本文從投入、產出及可持續發展三個角度出發建立了糧食種植面積的指標體系,并利用多元線性、Bagging、m-Boosting回歸模型、支持向量機、決策樹、隨機森林、神經網絡等回歸模型分別對糧食種植面積的影響因素進行了分析,分析表明,使用隨機森林建模方法隨機森林準確度最高。對影響因素的重要性進行度量可以發現,排名前五位的為農業勞動力比重、農業機械總動力、農用化肥施用量、農村居民家庭人均純收入和農業增加值比重,可以得到糧食最低收購價對糧食種植面積有一定的影響,但其影響力低于農業勞動力比重與農村居民家庭人均純收入。

參考文獻

[1]王雙英,王群偉,曹澤.多指標面板數據聚類方法及應用――以行業一次能源消費面板數據為例[J].數理統計與管理,2014,01:42-49.

[2]蘭錄平.中國糧食最低收購價政策研究[D].湖南農業大學,2013.