人工神經(jīng)網(wǎng)絡(luò)優(yōu)缺點范文
時間:2024-04-08 18:04:43
導(dǎo)語:如何才能寫好一篇人工神經(jīng)網(wǎng)絡(luò)優(yōu)缺點,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
1.1人工神經(jīng)網(wǎng)絡(luò)研究簡況
1943年,生理學(xué)家W.S.McCulloch和數(shù)學(xué)家W.A.Pitts首次提出二值神經(jīng)元模型。半個世紀(jì)以來人們對神經(jīng)網(wǎng)絡(luò)的研究經(jīng)歷了五六十年代的第一次熱潮,跌人了70年代的低谷;80年代后期迎來了第二次研究熱潮,至今迭起,不亞于二戰(zhàn)期間對原子彈研究的狂熱。
人工神經(jīng)網(wǎng)絡(luò)是模仿生物腦結(jié)構(gòu)與功能的一種信息處理系統(tǒng)。作為一門新興的交叉學(xué)科,人工神經(jīng)網(wǎng)絡(luò)以其大規(guī)模并行結(jié)構(gòu)、信息的分布式存儲和并行處理,具有良好的自適應(yīng)性、自組織性和容錯性,具有較強(qiáng)的學(xué)習(xí)、記憶、聯(lián)想、識別功能氣引起眾多領(lǐng)域科學(xué)家的廣泛關(guān)注,成為目前國際上非常活躍的前沿領(lǐng)域之一。
1.2人工神經(jīng)網(wǎng)絡(luò)的基本模型及其實現(xiàn)
1.2.1人工神經(jīng)網(wǎng)絡(luò)的基本模型人工神經(jīng)網(wǎng)絡(luò)的基本模型見表1?
1.2.2以誤差逆?zhèn)鞑ツP驼f明人工神經(jīng)網(wǎng)絡(luò)的實現(xiàn)人工神經(jīng)網(wǎng)絡(luò)中應(yīng)用最多的是誤差逆?zhèn)鞑?ErrorBack-Propagation)網(wǎng)絡(luò),簡稱BP網(wǎng)絡(luò),從結(jié)構(gòu)講’BP網(wǎng)絡(luò)是典型的多層網(wǎng)絡(luò),分為輸入層、隱含層和輸出層3層,層與層的神經(jīng)元之間多采用全互連方式,而同層各神經(jīng)元之間無連接,見圖1。BP網(wǎng)絡(luò)的基本處理單元(輸入層單元除外)為非線性輸人-輸出關(guān)系,一般選用S型作用函數(shù)f(x)=l/(1+e-當(dāng)給定網(wǎng)絡(luò)一個輸人模式時,它由輸人層單元傳到隱含層單元,經(jīng)隱含層單元逐層處理后再送到輸出層單元,由輸出層單元處理后產(chǎn)生一個輸出模式。這是一個逐層狀態(tài)更新的過程,稱為前向傳播。如果期望輸出與實際輸出之間的誤差不滿足要求,那么就轉(zhuǎn)人誤差反向傳播,將誤差值沿通路逐層傳送并修正各層連接權(quán)值(w1,W2),這是一個逐層權(quán)值更新的過程,稱為誤差反向傳播過程。隨著2個過程的反復(fù)進(jìn)行,誤差逐漸減小,直至滿足要求為止。
2常用人工神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用分析
當(dāng)前,人工神經(jīng)網(wǎng)絡(luò)方法主要應(yīng)用于有機(jī)有毒化合物毒性的分類及定量預(yù)測、對不同污染物生物降解性能的預(yù)測、單要素環(huán)境質(zhì)量評價、環(huán)境質(zhì)量綜合評價、環(huán)境預(yù)測、環(huán)境綜合決策等方面。
2.1預(yù)測性能的分析
以BP網(wǎng)絡(luò)為例,就近兩年來應(yīng)用BP網(wǎng)絡(luò)進(jìn)行預(yù)測的成功研究來看,人工神經(jīng)網(wǎng)絡(luò)的預(yù)測性能得到了充分的肯定。
1997年,劉國東等141應(yīng)用BP網(wǎng)絡(luò)建立的雅礱江和嘉陵江流域氣溫、降水和徑流之間關(guān)系的網(wǎng)絡(luò)模型,具有較高的擬合精度和預(yù)報精度,并具有精度可控制的優(yōu)點。計算結(jié)果同國內(nèi)外研究成果的一致性表明,用BP網(wǎng)絡(luò)分析、研究氣候變化對一個地區(qū)(或流域)水資源環(huán)境的影響是一種新穎、有效的方法。
王瑛等w指出,當(dāng)外界環(huán)境和系統(tǒng)本身性質(zhì)發(fā)生劇烈變化時,BP網(wǎng)絡(luò)能提供一種有效的方法來更新模型,實現(xiàn)新舊模型之間的轉(zhuǎn)換。他們利用最近12年(1981~1992年)的環(huán)境經(jīng)濟(jì)數(shù)據(jù)對2000年環(huán)境指標(biāo)進(jìn)行了預(yù)測,并根據(jù)預(yù)測結(jié)果對未來的環(huán)境對策進(jìn)行了分析。這為解決環(huán)境預(yù)測的模型問題提供了一條新思路。
張愛茜等用人工神經(jīng)網(wǎng)絡(luò)預(yù)測含硫芳香族化合物好氧生物降解速率常數(shù)和孫唏等⑺對胺類有機(jī)物急性毒性的分類及定量預(yù)測的結(jié)果都說明了,人工神經(jīng)網(wǎng)絡(luò)作為一種非線性模型預(yù)測能力大大優(yōu)于多兀線性回歸模型。
2.2 評價性能的分析
人們在環(huán)境評價中主要應(yīng)用了BP網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)等模型,并不斷地改進(jìn)應(yīng)用方法,對其在環(huán)境評價中的性能進(jìn)行比較研究》李祚泳的研究結(jié)果表明BP網(wǎng)絡(luò)用于水質(zhì)評價具有客觀性和實用性。劉國東等?改進(jìn)了BP網(wǎng)絡(luò)的應(yīng)用kf法,并比較了BP網(wǎng)絡(luò)與Hopfield網(wǎng)絡(luò)在水質(zhì)綜合評價中的性能。他們指出Hopfield網(wǎng)絡(luò)采用模式(圖象)聯(lián)想或匹配,既適用于定量指標(biāo)的水質(zhì)參數(shù)又適用于定性指標(biāo)的水質(zhì)參數(shù),而且使水質(zhì)評價形象化,因此更優(yōu)于BP網(wǎng)絡(luò).郭宗樓等將徑向基函數(shù)人工神經(jīng)網(wǎng)絡(luò)(RBF—ANN)模型應(yīng)用于城市環(huán)境綜合評價,結(jié)果-表明RBF網(wǎng)絡(luò)不僅具有良好的推廣能力,而且避免了反向傳播那樣繁瑣、冗長的計算,其學(xué)習(xí)速度是常用的BP網(wǎng)絡(luò)無法比擬的。郭宗樓等[|11又以三峽工程為背景,把該模型應(yīng)用于水利水電工程環(huán)境影響綜合評價的人工神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)中,與分級加權(quán)評價法相比較具有更高的推理效率。
環(huán)境科學(xué)研究的問題,如環(huán)境污染、生態(tài)破壞、自然災(zāi)害、資源耗竭、人口過量等等,無一不是在某種程度上損傷或破壞了人——環(huán)境的和謂。人——環(huán)境關(guān)系有著自身的變化規(guī)律,是可以進(jìn)行科學(xué)量度的。顯然這一M?度是多方位、多因素的非線性評價問題,至今尚未建立起一種適當(dāng)?shù)脑u價模型,我們是否可以借鑒人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用優(yōu)點,考慮建立基于人工神經(jīng)網(wǎng)絡(luò)方法的評價模型。
篇2
信用評分模型作為信用風(fēng)險管理的基礎(chǔ)和核心,無論是對于建立社會征信體系還是對于金融機(jī)構(gòu)的信貸資產(chǎn)管理,都有著不可替代的作用。其主要目的,在于盡量將能夠預(yù)測借款人未來行為的指標(biāo)加以整合,并統(tǒng)一成可以比較的單一指標(biāo),以顯示借款人在未來特定時間內(nèi)違約的可能性,所有的信用評分模型,無論采用什么理論或方法,其最終目的都是將貸款申請者的信用級別分類。為達(dá)到分類目的。當(dāng)前,對個人信用評分模型的定義有多種,較為權(quán)威的種觀點認(rèn)為:“信用評分是預(yù)測貸款申請人或現(xiàn)有借款人違約可能性的一種統(tǒng)計方法。”這一觀點指出了信用評分的作用和目的,不過隨著信用評分模型的不斷發(fā)展,信用評分已不僅是一種統(tǒng)計方法,也包含了運籌學(xué),如數(shù)學(xué)規(guī)劃法、非線性模糊數(shù)學(xué)(如神經(jīng)網(wǎng)絡(luò)方法)等。此外,信用評分的實際操作應(yīng)用也與決策原則緊密相關(guān),決策原則事實上決定了信用評分模型實現(xiàn)其目的和作用的程度。因此,對個人信用評分模型這一數(shù)學(xué)工具在金融和銀行業(yè)中的應(yīng)用來說,較為全面和恰當(dāng)?shù)亩x應(yīng)是,“信用評分是運用數(shù)學(xué)優(yōu)化理論(包括統(tǒng)計方法、運籌方法等),依照即定原則或策略(損失最小原則或風(fēng)險溢價原則),在數(shù)據(jù)分析決策階段區(qū)分不同違約率水平客戶的方法。
二、各類信用評分模型概述
1.判別分析模型
判別分析法是對研究對象所屬類別進(jìn)行判別的一種統(tǒng)計分析方法。進(jìn)行判別分析必須已知觀測對象的分類和若干表明觀測對象特征的變量值。判別分析就是要從中篩選出能提供較多信息變量并建立判別函數(shù),使推導(dǎo)出的判別函數(shù)對觀測樣本分類時的錯判率最小。這種方法的理論基礎(chǔ)是樣本由兩個分布有顯著差異的子樣本組成,并且它們擁有共同的屬性。它起源于1936年Fisher引進(jìn)的線性判別函數(shù),這個函數(shù)的目的是尋找一個變量的組合,把兩個擁有一些共同特征的組區(qū)分開來。
判別分析方法的優(yōu)點:適用于二元或多元性目標(biāo)變量,能夠判斷,區(qū)分個體應(yīng)該屬于多個不同小組中的哪一組。自身也存在不可避免的缺點:該模型假設(shè)前提是自變量的分布都是正態(tài)分布的,而實踐中的數(shù)據(jù)往往不是完全的正態(tài)分布,從而導(dǎo)致統(tǒng)計結(jié)果的不可靠性。
2.決策樹方法
決策樹模型是對總體進(jìn)行連續(xù)的分割,以預(yù)測一定目標(biāo)變量的結(jié)果的統(tǒng)計技術(shù)。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉或多叉樹。構(gòu)造決策樹的方法是采用自上而下的遞歸構(gòu)造。在實際中,為進(jìn)行個人信用分析,選取個人信用作為目標(biāo)屬性,其他屬性作為獨立變量。所有客戶被劃分為兩類,即好客戶的和壞客戶,將客戶信用狀況轉(zhuǎn)換為“是否好客戶”(值為1或0),而后利用數(shù)據(jù)集合來生成一個完整的決策樹。在生成的決策樹中可以建立一個規(guī)則基。一個規(guī)則基包含一組規(guī)則,每一條規(guī)則對應(yīng)決策樹的一條不同路徑,這條路徑代表它經(jīng)過節(jié)點所表示的條件的一條鏈接。通過創(chuàng)立一個對原始祥本進(jìn)行最佳分類判別的決策樹,采用遞歸分割方法使期望誤判損失達(dá)到最小。
決策樹模型的優(yōu)點:淺層的決策樹視覺上非常直觀,容易解釋;對數(shù)據(jù)的結(jié)構(gòu)和分布不需做任何假設(shè);可以容易地轉(zhuǎn)化成商業(yè)規(guī)則。它的缺點在于:深層的決策樹視覺上和解釋上都比較困難;決策樹對樣本量的需求比較大;決策樹容易過分微調(diào)于樣本數(shù)據(jù)而失去穩(wěn)定性和抗震蕩性。
3.回歸分析法
回歸分析法是目前為止應(yīng)用最為廣泛的一種信用評分模型,這其中以著名的logistic回歸為代表。除此之外,線性回歸分析、probit回歸等方法亦屬于此類。最早使用回歸分析的Orgler,他采用線性回歸模型制定了一個類似于信用卡的評分卡,他的研究表明消費者行為特征比申請表資料更能夠預(yù)測未來違約可能性的大小。同數(shù)學(xué)規(guī)劃方法中一樣,假設(shè)已經(jīng)通過一定的方法從樣本變量中提取出了若干指標(biāo)作為特征向量,回歸分析的思想就是將這些指標(biāo)變量擬合成為一個可以預(yù)測申請者違約率的被解釋變量,自然就是違約率p,回歸分析中應(yīng)用最廣泛的模型當(dāng)屬線性回歸模型,它是對大量的數(shù)據(jù)點中表現(xiàn)出來的數(shù)量關(guān)系模擬出一條直線,回歸分析的目標(biāo)就是使目標(biāo)變量值和實際的目標(biāo)變量值之間的誤差最小。因此最早將回歸方法應(yīng)用于信用評分研究的模型,就是簡單的線性回歸模型,目前基于logistic回歸的信用評分系統(tǒng)應(yīng)用最為普遍。
回歸模型的優(yōu)點:容易解釋和使用;自變量可以是連續(xù)性的,也可以是類別性的;許多直觀的統(tǒng)計指標(biāo)來衡量模型的擬合度。缺點:不能有效處理缺失值,必須通過一定的數(shù)據(jù)加工和信息轉(zhuǎn)換才能處理;模型往往呈線形關(guān)系,比較難把握數(shù)據(jù)中的非線形關(guān)系和變量間的互動關(guān)系,而且模型假定變量呈正態(tài)分布;模型受樣本極端值的影響往往比較大。
4.人工神經(jīng)網(wǎng)絡(luò)法
近些年來,隨著信用評分領(lǐng)域的研究深入,有學(xué)者將人工智能領(lǐng)域的一些模型算法引入到了信用評分研究中,人工神經(jīng)網(wǎng)絡(luò)模型為典型代表。人工神經(jīng)網(wǎng)絡(luò)是由大量簡單的基本元件——神經(jīng)元相互連接而成的自適應(yīng)非線性動態(tài)系統(tǒng),是一種把各種投入要素通過復(fù)雜的網(wǎng)絡(luò)轉(zhuǎn)換成產(chǎn)出的信息加工結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)模型本質(zhì)上所解決的問題仍是分類或者說模式識別問題,但其原理卻與其做方法迥然相異。人工神經(jīng)網(wǎng)絡(luò)有多種模型,比如BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)等。BP神經(jīng)網(wǎng)絡(luò)為目前研究最為成熟、算法最為穩(wěn)定同時應(yīng)用也最為廣泛的一種神經(jīng)網(wǎng)絡(luò)模型。
神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點:有效地捕捉數(shù)據(jù)中非線性,非可加性的數(shù)量關(guān)系;適用于二元性,多元性和連續(xù)性的目標(biāo)變量;能處理連續(xù)性和類別性的預(yù)測變量。缺點:基本上是一個黑箱方案,難以理解;如果不經(jīng)過仔細(xì)控制,容易微調(diào)于樣本數(shù)據(jù),從而不具備充分的抗震蕩性和穩(wěn)定性。
三、結(jié)語
信用評分作為一種嚴(yán)謹(jǐn)?shù)幕诮y(tǒng)計學(xué)等理論的決策手段,正在逐漸被我國商業(yè)銀行重視。信用評分系統(tǒng)的建設(shè)在我國屬于起步階段,應(yīng)逐步建設(shè)適合我國特色的、高水平的信貸決策支持制度不但需要借鑒國外已有的理論研究成果和實踐方案,更需要我國學(xué)界的創(chuàng)新或結(jié)合我國本土數(shù)據(jù)的實證研究。
參考文獻(xiàn):
[1]陳建:信用評分模型技術(shù)與應(yīng)用.中國財政經(jīng)濟(jì)出版社,2005
[2]郭敏華:信用評級.中國人民出版社,2004
[3]孫薇:淺析信用風(fēng)險評價方法.沿海企業(yè)與科技,2005
篇3
關(guān)鍵詞:供應(yīng)鏈績效;評價方法;層次分析法;模糊評價
1 序言
供應(yīng)鏈績效評價是供應(yīng)鏈管理的關(guān)鍵內(nèi)容,它聯(lián)結(jié)著供應(yīng)鏈仿真與供應(yīng)鏈構(gòu)造,供應(yīng)鏈運行與供應(yīng)鏈優(yōu)化。決策者只有通過持續(xù)不間斷的供應(yīng)鏈績效評價,才能對供應(yīng)鏈運行狀況進(jìn)行準(zhǔn)確的把握,進(jìn)而對供應(yīng)鏈進(jìn)行持續(xù)優(yōu)化,這也是供應(yīng)鏈管理最基本的內(nèi)容。
供應(yīng)鏈效績評價方法是供應(yīng)鏈績效評價的具體手段。主要是將各具體指標(biāo)的評價值經(jīng)過適當(dāng)?shù)挠嬎悖贸鲎罱K目標(biāo)評價值,最后再與評價標(biāo)準(zhǔn)比較,得出評價結(jié)論。沒有科學(xué)的評價方法對評價指標(biāo)的運用,就不可能得出正確的結(jié)論。下面將對主流的評價方法進(jìn)行介紹,并對其優(yōu)勢和劣勢做出評價。
2 供應(yīng)鏈評價方法
2.1 層次分析法
層次分析法(Analytic Hierarchy Process,AHP)是一種定性與定量結(jié)合的多目標(biāo)決策分析方法,由saaty于20世紀(jì)70年代首先提出,并用于分析復(fù)雜系統(tǒng)[1]。其主要思想是:首先分析復(fù)雜系統(tǒng)的要素構(gòu)成及其相互間的關(guān)系,據(jù)此構(gòu)造出一個有序的遞階層次結(jié)構(gòu);然后通過兩兩比較的方式確定層次中各個要素的相對重要性,在每一個層次上建立判斷矩陣,計算該層要素的相對權(quán)重;最后計算出各要素相對于總目標(biāo)的權(quán)重。
層次分析法能夠同時從定性和定量兩個角度來分析問題,特別適合用于解決復(fù)雜系統(tǒng)的評價問題,這是因為針對復(fù)雜問題建立精確的數(shù)學(xué)模型往往是很困難的,某些時候必須依靠人的定性判斷。與此同時,層次分析法也存在很多的不足之處,如:層次分析法在很大程度上依靠的是人的經(jīng)驗,無法排除個人偏好造成的片面性;比較和判斷的過程較為粗糙,只能用于解決精度要求不高的問題;當(dāng)影響因素數(shù)量較多時,比較判斷的工作量會迅速增加。
2.2 模糊綜合評價
模糊綜合評價(Fuzzy Comprehensive Evaluation,F(xiàn)CE)是在模糊數(shù)學(xué)理論的基礎(chǔ)上發(fā)展起來的。模糊數(shù)學(xué)理論由zadeh于20世紀(jì)60年代首先提出,它采用精確的數(shù)學(xué)方法來描述模糊性現(xiàn)象[2]。模糊綜合評價借助模糊數(shù)學(xué),將邊界不清晰、不易量化的因素定量化,然后計算各個因素與評價對象的隸屬度,根據(jù)隸屬等級狀況進(jìn)行綜合評價。
供應(yīng)鏈績效評價的指標(biāo)之間存在著復(fù)雜的因果關(guān)系,有些關(guān)系是模糊的、不確定的,而且有些指標(biāo)無法實現(xiàn)精確定量化,應(yīng)用模糊綜合評價就能夠很好的解決這些模糊性問題,這也是該方法的最大優(yōu)勢。其劣勢在于:(1)計算復(fù)雜;(2)指標(biāo)權(quán)重的設(shè)定具有較強(qiáng)的人為主觀性;(3)當(dāng)指標(biāo)數(shù)量較多時,容易出現(xiàn)/超模糊現(xiàn)象。
2.3 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)簡稱神經(jīng)網(wǎng)絡(luò),是人工智能領(lǐng)域的重要分支,它是對人腦進(jìn)行抽象、簡化而建立起來的計算模型,目的是為了模擬實現(xiàn)大腦的某些功能 [3]。
目前有上百種模型問世,其中比較著名的有BP神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、競爭學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)、Hopfield神經(jīng)網(wǎng)絡(luò)和Boltzmann神經(jīng)網(wǎng)絡(luò),其中BP神經(jīng)網(wǎng)絡(luò)的影響和應(yīng)用最為廣泛。神經(jīng)網(wǎng)絡(luò)的主要優(yōu)點是能夠自適應(yīng)樣本數(shù)據(jù),當(dāng)數(shù)據(jù)中有噪聲和非線性時,也能夠正常工作,另外,聯(lián)想推理、高速并行處理也是其優(yōu)點。經(jīng)過科學(xué)的訓(xùn)練和學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)能夠找出輸入和輸出之間的非線性映射關(guān)系,從而實現(xiàn)智能推理和預(yù)測。神經(jīng)網(wǎng)絡(luò)的劣勢在于學(xué)習(xí)效率低,容易陷入局部極值,以及當(dāng)樣本數(shù)據(jù)多時收斂速度慢。葉春明等人研究了BP神經(jīng)網(wǎng)絡(luò)在供應(yīng)鏈管理績效指標(biāo)評價中的應(yīng)用。
2.4 數(shù)據(jù)包絡(luò)分析
數(shù)據(jù)包絡(luò)分析(Data Envelopment Analysis,DEA)是Charnes等學(xué)者于1978年提出的評價相對有效性的方法。DEA使用數(shù)學(xué)規(guī)劃模型來比較不同決策單元之間的相對效率,通過綜合分析決策單元的輸入和輸出數(shù)據(jù),可以得出每個決策單元的綜合效率指標(biāo),并且以定量化的形式表示出來。DEA還能判斷各決策單元的投入規(guī)模是否恰當(dāng),如果不恰當(dāng),可以向什么方向、以何種程度調(diào)整投入規(guī)模以此給部門主管提供有用的決策信息[4]。
數(shù)據(jù)包絡(luò)分析適合用于多輸入、多輸出的復(fù)雜系統(tǒng)評價,它將輸入和輸出權(quán)重設(shè)置為變量,無需人為主觀設(shè)定。它可以處理不同量綱的數(shù)據(jù),將系統(tǒng)的內(nèi)部過程視為“黑箱”,因此避免了對輸入和輸出之間的定量關(guān)系進(jìn)行描述。數(shù)據(jù)包絡(luò)分析的主要缺點在于該方法對指標(biāo)數(shù)目要求比較嚴(yán)格,當(dāng)指標(biāo)數(shù)目相對于決策單元的數(shù)目太多時,多數(shù)決策單元會被判定為有效,從而無法取得有效的信息。
2.5 支持向量機(jī)
支持向量機(jī)(Support vector Maehines, SVM)是vapnik于1995年提出的一種機(jī)器學(xué)習(xí)算法。其基本思想是:將在低維空間線性不可分的樣本通過核函數(shù)的非線性變換,映射到高維特征空間,在高維特征空間構(gòu)造出最優(yōu)超平面和決策函數(shù),據(jù)此可以推斷出任意一個輸入x對應(yīng)的輸出y[5]。
支持向量機(jī)在解決小樣本、非線性和高維度問題時具有很大的優(yōu)勢,然而當(dāng)樣本數(shù)量較大時,SVM就無能為力了,必須求助于改進(jìn)的SVM模型。
3 供應(yīng)鏈績效評價方法的融合趨勢
供應(yīng)鏈?zhǔn)且粋€典型的復(fù)雜、自適應(yīng)和動態(tài)的系統(tǒng),具有模糊性、不確定性、非線性、系統(tǒng)延遲、網(wǎng)絡(luò)反饋回路以及多層次、多輸入、多輸出等特點,針對這樣一種系統(tǒng),任何單一的評價方法都無法對其績效做出客觀的評價。一些學(xué)者已經(jīng)在方法融合上首先做出了嘗試,比如2010年,李艷研究了基于遺傳算法和支持向量機(jī)的供應(yīng)鏈績效評價問題。初穎利用基于密度的聚類挖掘技術(shù)(改進(jìn)的K-均值聚類方法)進(jìn)行供應(yīng)鏈績效特征的采集和分析,解決了供應(yīng)鏈績效評價的標(biāo)桿選擇問題。評價方法之間的融合是供應(yīng)鏈績效評價方法發(fā)展的一個趨勢, 具體來說,只有結(jié)合各種方法的長處,構(gòu)建集成的評價模型,才能更好的對績效做出客觀的評價。
參考文獻(xiàn)
1 Saaty, T. L. How to make a decision: the analytic hierarehy Proeess[J]. European Journal of Operational Researeh,1990(48)
2 Zadeh, L. A. Fuzzy Sets[J].Information and Control,1965(3)
3 葉春明,馬慧民,李丹,柳毅.BP神經(jīng)網(wǎng)絡(luò)在供應(yīng)鏈管理績效指標(biāo)評價中的應(yīng)用研究[J].工業(yè)工程與管理,2005(5)
篇4
關(guān)鍵詞:沉降預(yù)測;曲線擬合;灰色預(yù)測;神經(jīng)網(wǎng)路.
1 引言
高速公路軟土地基路段的建設(shè)過程中,軟土地基的復(fù)雜性,為了控制施工進(jìn)度,指導(dǎo)后期的施工組織與安排,如何利用沉降觀測資料較為準(zhǔn)確地推算后期沉降(包括最終沉降)顯得至關(guān)重要。本文研究了曲線擬合法、灰色系統(tǒng)法、人工神經(jīng)網(wǎng)絡(luò)法、遺傳算法等多種沉降預(yù)測方法的原理及應(yīng)用,為準(zhǔn)確預(yù)測高速公路軟土路基的沉降提供一定的參考。
2沉降預(yù)測方法
此法采用與沉降曲線相似的曲線對沉降過程進(jìn)行擬合,再外延推求最終沉降量。包括雙曲線法、星野法、泊松曲線法及Asaoka法等。
2.1 雙曲線法
雙曲線法[1]假定沉降量S與時間t按“沉降平均速度呈雙曲線遞減”的規(guī)律變化,其表達(dá)式為:
(1)
由上式看出,α和β分別為(t- t0) /(st-s0)―(t-t0)關(guān)系圖中的截距和斜率,可用圖解法求出。將得到的α、β和S0、t0代入式(1),則可求得任意時刻t的預(yù)估沉降量S(t)。最終沉降量為:
(2)
基于太沙基一維固結(jié)理論,U與T之間應(yīng)該是指數(shù)關(guān)系,而雙曲線法簡化了此關(guān)系,且可用圖解法簡單易行,適合工程人員用。但此法只能推算地基最終沉降量,難以反映地基固結(jié)參數(shù),已有的工程實例表明預(yù)測結(jié)果比實測值偏大。
2.2對數(shù)拋物線擬合法
文獻(xiàn)[2]在路基完建后的沉降-對數(shù)坐標(biāo)系上看出沉降大致由兩部分組成:第一部分可用拋物線擬合;第二(即次固結(jié))部分可由直線擬合。實踐證明,除有機(jī)質(zhì)含量高的土體外,沉降量主要集中在第一部分,表達(dá)式為:
(3)
式中A、B、C可用優(yōu)化法求得。
該法僅需掌握短期觀測資料,便可求得滿足要求的工后沉降量及鋪設(shè)路面時的沉降速率。
2.3泊松曲線法
泊松曲線[4]法,亦稱邏輯斯蒂(Logistic)曲線。此曲線開始增長緩慢,中間段增長快,尾端增長趨勢越來越小,這符合飽和粘土的沉降-時間發(fā)展關(guān)系。表達(dá)式為:
(4)
式中:yt―t時刻對應(yīng)的預(yù)測值(長度單位);
t―時間;
a―待定參數(shù)且為正,無量綱;
b―待定參數(shù)且為正,單位為時間的倒數(shù);
k―待定參數(shù)且為正,單位與yt相同。
利用時間序列求出上3個參數(shù)即可建立泊松方程,從而可對今后的yt進(jìn)行預(yù)測。
該法能很好地反映全過程的沉降量與時間的“S”形關(guān)系,且能通過觀測過程中的點(包括施工過程和運營過程)不斷的進(jìn)行預(yù)測和調(diào)整預(yù)測。
2.4 Asaoka法
Asaoka法亦稱圖解法[3],以一維豎向固結(jié)理論為基礎(chǔ),簡化預(yù)測方程為:
(5)
式中:S―固結(jié)沉降量;
a、b―取決固結(jié)系數(shù)和土層邊界的常數(shù)。固定邊界條件下上式的解為:
(6)
此法可計算固結(jié)系數(shù)及最終沉降,當(dāng)固結(jié)度達(dá)到60%后,用短期內(nèi)觀測資料就可得到可靠的沉降推算值。其是過分依賴于時間間隔的劃分。
除了上述常用模型之外,還有指數(shù)曲線法(三點法)[1] 、沉降速率法[3] 與星野法[3]等,限于篇幅,筆者在此不再贅述。
2.5 灰色模型
沉降過程難以作精確描述,通過觀測得到的較少信息,運用灰色系統(tǒng)理論,把路基沉降過程看成一個灰色系統(tǒng),建立所需微分方程的動態(tài)模型,以此來分析路堤沉降的發(fā)展變化[1]。以GM(1,1)為例,前一個“1”表示階數(shù),后一個“1”表示變量個數(shù),在路基沉降為時間。已知等距時間序列數(shù)據(jù):
(7)
式中, ,將式(7)作一次累加(即1-AGO)后,得到序列:
(8)
式中,對S(1)建立白化形式的微分方程:
(9)
方程的解為:
(10)
式中 a,b為待定參數(shù),可通過最小二乘法得到:
(11)
GM(1,1)模型不太適合于對數(shù)據(jù)序列的長期預(yù)測,因此還有改進(jìn)方法:短期預(yù)測宜采用連續(xù)型直接數(shù)據(jù)GM(1,1)模型;沉降中長期預(yù)測,宜采用等維新息GM(1,1)模型。此法需要原始數(shù)據(jù)少,計算簡單,無需因素數(shù)據(jù),但其僅限于用時間序列預(yù)測,不能反映預(yù)測對象在各個發(fā)展階段的特征或趨勢。
2.6神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)算法常用BP網(wǎng)絡(luò),即誤差反向傳播算法的學(xué)習(xí)過程。BP神經(jīng)網(wǎng)絡(luò)模型是所建模型中精度較高的一種,由于其自身良好的學(xué)習(xí)功能,可通過前饋和反饋的動態(tài)連接,對大量的測量樣本進(jìn)行自我訓(xùn)練,使得模型具有一定的人工智能水平。BP算法訓(xùn)練網(wǎng)絡(luò)權(quán)值,其本質(zhì)上是一種梯度下降的最小化方法,但有學(xué)者研究證明基于梯度下降的BP算法依賴于初始權(quán)值的選擇,收斂速度慢且容易陷入局部最優(yōu)[5]。
實例中:杭甬高速公路,用前250 d 的沉降數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),再用網(wǎng)絡(luò)來預(yù)測后期沉降;金山油庫,用前69 d 的沉降數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),再用網(wǎng)絡(luò)來預(yù)測后期沉降,可以發(fā)現(xiàn):用前期數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),再用訓(xùn)練好的網(wǎng)絡(luò)來預(yù)測后期沉降,預(yù)測值與實測值吻合較好,可以達(dá)到預(yù)期效果[6]。
3.結(jié)論
篇5
【關(guān)鍵詞】 數(shù)據(jù)挖掘 信用風(fēng)險 決策樹 支持向量機(jī)
一、引言
我國上市公司是整個國民經(jīng)濟(jì)整體的一個有機(jī)組成部分,甚至可以說是整個國民經(jīng)濟(jì)的核心所在。至2008年底,滬深兩市的股票總市值在縮水62.9%的情況下仍達(dá)到12.13萬億,占GDP的48.6%。從這些數(shù)據(jù)可以看出,上市公司在我國經(jīng)濟(jì)中占有主體地位,因此,上市公司的優(yōu)劣存亡將關(guān)系到整個國民經(jīng)濟(jì)的發(fā)展。然而,我國上市公司所積累的信用風(fēng)險已經(jīng)非常巨大,在深交所的誠信檔案里僅主板市場就列出了20頁的違規(guī)通報批評和處分決定。就國有企業(yè)而言,信用危機(jī)依然存在,突出的表現(xiàn)就是惡意拖欠逃債現(xiàn)象。企業(yè)信用風(fēng)險狀況直接關(guān)系到我國金融市場的健康發(fā)展和國民經(jīng)濟(jì)的持續(xù)穩(wěn)定。可見,對上市公司信用風(fēng)險的管理是非常必要和迫在眉睫的,而上市公司信用風(fēng)險評估模型的建立是防范信用風(fēng)險的重要手段。因此,研究上市公司信用風(fēng)險評估這一課題,已經(jīng)成為我國目前經(jīng)濟(jì)生活中亟待解決的一個重要問題。
目前許多定量技術(shù)和支持工具、軟件已付諸商業(yè)應(yīng)用,繼傳統(tǒng)的比例分析之后,統(tǒng)計方法得到了廣泛的應(yīng)用,如判別分析和Logistic回歸等。信用等級評估是通過對企業(yè)或個人的某些單一財務(wù)指標(biāo)進(jìn)行加權(quán)平均確定的,該方法最大的缺陷在于指標(biāo)和加權(quán)值的確定帶有很大的主觀性,使得評估結(jié)果和實際狀況有很大的出入。因此,需要引入科學(xué)方法來確定有效評估指標(biāo),并建立準(zhǔn)確的定量模型來解決信用等級評估的問題。近年來,信息技術(shù)得到了迅速發(fā)展,如數(shù)據(jù)挖掘技術(shù)等能從海量數(shù)據(jù)中智能發(fā)現(xiàn)有用的規(guī)則和知識,再加上我國上市公司信息披露制度的不斷完善,使得我們的研究能夠得到的數(shù)據(jù)資料也不斷的增多,這些有利條件的出現(xiàn)使得我們對基于數(shù)據(jù)挖掘的上市公司信用風(fēng)險評估模型的研究有了數(shù)據(jù)基礎(chǔ)和技術(shù)基礎(chǔ)。
二、基于數(shù)據(jù)挖掘的信用風(fēng)險評估模型比較綜述
1、決策樹
決策樹方法于20世紀(jì)60年代起源于對概念學(xué)習(xí)建模;20世紀(jì)70年代后期Quinlan發(fā)明用信息增益作為啟發(fā)策略的ID3算法,從樣本中學(xué)習(xí)構(gòu)造專家系統(tǒng);1993年Quinlan在ID3算法基礎(chǔ)上研究出了改進(jìn)的決策樹歸納包(C4.5),這是目前被普遍采用的數(shù)據(jù)分類方法。其思想是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部結(jié)點表示在一個屬性熵的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點代表類或類分布。決策樹通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類,樹上每個節(jié)點說明了對實例的某個屬性的測試,節(jié)點的每個后繼分支對應(yīng)于該屬性的一個可能值。決策樹分類模型之所以被廣泛應(yīng)用于信用風(fēng)險評估,主要是因為決策樹具有以下優(yōu)點:(1)與神經(jīng)網(wǎng)絡(luò)或貝葉斯分類等其他分類模型相比,決策樹的分類原理簡單易懂,很容易被使用人員理解和接受。在決策樹分類過程中,一般不需要人為設(shè)定參數(shù),更適合于知識發(fā)現(xiàn)的要求;(2)決策樹的學(xué)習(xí)算法具有建立速度快、計算量相對不是很大、可以處理連續(xù)值和離散值屬性;(3)決策樹能使用信息原理對大量樣本的屬性進(jìn)行信息量分析,計算各屬性的信息量,找出反映類別的重要屬性(可以清晰的顯示哪些屬性對分類比較重要);(4)決策樹分類方法與其他分類模型相比,易于生成可理解的規(guī)則。決策樹方法對記錄數(shù)越大的數(shù)據(jù)庫,它的效果越明顯,這就是它顯著的優(yōu)點。
研究表明,一般情況下,樹越小則樹的預(yù)測能力越強(qiáng)。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)屬性。而屬性選擇依賴于各種對例子子集的不純度度量方法。其中,基于數(shù)據(jù)挖掘中決策樹C4.5算法的分析框架建立的上市公司信用風(fēng)險評估模型,對數(shù)據(jù)分布無任何要求,應(yīng)用于上市公司信用風(fēng)險評估的效果比較好,因此具有良好的發(fā)展前景,值得我們深入研究。
2、神經(jīng)網(wǎng)絡(luò)
BP網(wǎng)是面向映射變換的神經(jīng)網(wǎng)絡(luò)中應(yīng)用最廣泛的一種,其結(jié)構(gòu)如圖1所示。典型的BP網(wǎng)有三個層次:輸入層、隱含層和輸出層,相鄰層次神經(jīng)元間采用全互連形式,同層神經(jīng)元間則不相連。其思路是:當(dāng)給網(wǎng)絡(luò)提供一個輸入模式時,該模式由輸入層傳到隱含,經(jīng)隱含層神經(jīng)元作用函數(shù)處理后傳送到輸出層,再經(jīng)由輸出層神經(jīng)元作用函數(shù)處理后產(chǎn)生一個輸出模式。如果輸出模式與期望的輸出模式有誤差,就從輸出層反向?qū)⒄`差逐層傳送到輸入層,把誤差“分?jǐn)偂苯o各神經(jīng)元并修改連接權(quán),使網(wǎng)絡(luò)實現(xiàn)從輸入模式到輸出模式的正確映射。對于一組訓(xùn)練模式,可以逐個用訓(xùn)練模式作為輸入,反復(fù)進(jìn)行誤差檢測和反向傳播過程,直到不出現(xiàn)誤差為止。這時,BP網(wǎng)完成了學(xué)習(xí)階段,具備所需的模式分類(識別)能力。
20世紀(jì)80年代末,西方發(fā)達(dá)國家將人工智能引入銀行業(yè),協(xié)助銀行進(jìn)行貸款決策,這其中,尤其以人工神經(jīng)網(wǎng)絡(luò)最為突出,其在企業(yè)財務(wù)分析中顯示了巨大的優(yōu)勢和潛力。而在我國,無論是用統(tǒng)計方法還是用神經(jīng)網(wǎng)絡(luò)技術(shù)來研究信用風(fēng)險,目前都尚處于起步階段。王春峰等(1999)用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行商業(yè)銀行信用風(fēng)險評估;郝麗萍等(2001)研究了商業(yè)銀行信貸風(fēng)險分析的人工神經(jīng)網(wǎng)絡(luò)模型;柳炳祥、盛昭翰(2003)利用粗神經(jīng)網(wǎng)絡(luò)對企業(yè)財務(wù)危機(jī)進(jìn)行了分析;龐素琳等(2003)利用BP算法對我國某商業(yè)銀行2001年120家貸款企業(yè)進(jìn)行3類模式(“信用好”、“信用一般”、“信用差”)分類,分類準(zhǔn)確率達(dá)到83.34%;張德棟、張強(qiáng)(2004)建立了基于BP神經(jīng)網(wǎng)絡(luò)的企業(yè)信用3層神經(jīng)網(wǎng)絡(luò)評估模型,實驗結(jié)果證明,該模型用于企業(yè)信用評估,減少了企業(yè)信用評估傳統(tǒng)的定性方法中權(quán)重確定的人為因素,評估正確率達(dá)到了92.12%;王凱、黃世祥(2007)建立起基于BP神經(jīng)網(wǎng)絡(luò)的行業(yè)間信用評估模型,并代入2003年度全國農(nóng)業(yè)和工業(yè)的部分行業(yè)數(shù)據(jù)進(jìn)行實證。
神經(jīng)網(wǎng)絡(luò)由于其自身優(yōu)勢已經(jīng)在各個領(lǐng)域得到了廣泛的應(yīng)用,近幾年來,經(jīng)濟(jì)學(xué)和管理學(xué)方面的學(xué)者將其運用到經(jīng)濟(jì)領(lǐng)域,特別是在信用風(fēng)險評估方面取得了很好的成效。尤其BP神經(jīng)網(wǎng)絡(luò)在商業(yè)銀行信用風(fēng)險評估上應(yīng)用的可行性,其優(yōu)點主要體現(xiàn)在:(1)BP神經(jīng)網(wǎng)絡(luò)模型具有高速信息處理能力。信用風(fēng)險評價是一個非常復(fù)雜的系統(tǒng),簡單的信用風(fēng)險打分模型不能很好地表述這種關(guān)系,同時結(jié)果與實際也有較大的差別。而神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元廣泛互連而成的系統(tǒng),并行處理能力很強(qiáng),得到的模型能對實際作出很好的預(yù)測。(2)BP神經(jīng)網(wǎng)絡(luò)模型具有很強(qiáng)的不確定性信息處理能力。由于神經(jīng)網(wǎng)絡(luò)中神經(jīng)元個數(shù)眾多以及整個網(wǎng)絡(luò)存儲信息容量巨大,使得它具有很強(qiáng)的對不確定性信息的處理能力。而信用風(fēng)險本身就有一種不確定性,信用風(fēng)險評價指標(biāo)體系涉及指標(biāo)眾多,這些變量本身就具有一種動態(tài)性和不穩(wěn)定性。運用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測可以很好地解決這種不確定性。(3)BP神經(jīng)網(wǎng)絡(luò)模型是一個具有高度非線性的系統(tǒng)。神經(jīng)網(wǎng)絡(luò)同現(xiàn)行的計算機(jī)不同,它是一種非線性的處理單元,因此神經(jīng)網(wǎng)絡(luò)是一種具有高度非線性的系統(tǒng)。在信用風(fēng)險評估運用上,它突破了傳統(tǒng)信用風(fēng)險評估方法以線性處理為基礎(chǔ)的局限性,能更有效、更精確地處理復(fù)雜信息。但是,神經(jīng)網(wǎng)絡(luò)也存在明顯的不足。首先,當(dāng)神經(jīng)網(wǎng)絡(luò)的輸入維數(shù)高時,隱含規(guī)則呈幾何級數(shù)增加,致使網(wǎng)絡(luò)結(jié)構(gòu)龐大,同時神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速率固定,存在局部最小點問題,因此網(wǎng)絡(luò)收斂速度慢,需要很長的訓(xùn)練時間,甚至可能發(fā)生網(wǎng)絡(luò)癱瘓;其次,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,導(dǎo)致網(wǎng)絡(luò)的輸入節(jié)點單元數(shù)、隱含層數(shù)的確定缺乏理論依據(jù)。盡管存在一些遺憾,神經(jīng)網(wǎng)絡(luò)方法作為一門嶄新的信息處理科學(xué)方法仍然吸引著眾多領(lǐng)域的研究者。
3、支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是根據(jù)統(tǒng)計學(xué)習(xí)理論得出的一種新的機(jī)器學(xué)習(xí)算法,它用結(jié)構(gòu)風(fēng)險最小化原則替代經(jīng)驗風(fēng)險最小化原則,較好地解決了小樣本學(xué)習(xí)問題,是一種通用的前饋網(wǎng)絡(luò)類型。支持向量機(jī)的實現(xiàn)是通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個高維特征空間,在這個空間中構(gòu)造最優(yōu)分類超平面。使用SVM進(jìn)行數(shù)據(jù)集分類工作的過程首先是通過預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間,它使得在高維屬性空間中有可能對訓(xùn)練數(shù)據(jù)實現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線性曲面分割計算。SVM數(shù)據(jù)集形成的分類函數(shù)具有這樣的性質(zhì):它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合,因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān),而獨立于空間的維度。
隨著機(jī)器學(xué)習(xí)理論的不斷發(fā)展,支持向量機(jī)作為一種專門針對小樣本學(xué)習(xí)的算法被引入到了信用風(fēng)險評估中。在我國,張秋水、羅林開等(2006)通過SVM與傳統(tǒng)的多元線性回歸(Multi Linear Regression,MLR)和Logit分析(Logit Analysis,LA)的實證對比和模型分析,得出SVM在20組測試樣本集上的平均誤判率是最低的,顯著優(yōu)于MLR,也優(yōu)于LA。吳沖等(2009)建立了基于模糊積分的支持向量機(jī)集成方法,該方法綜合考慮了子支持向量機(jī)的輸出重要性并與單個支持向量機(jī)和最多投票原則的支持向量機(jī)集成進(jìn)行比較,實證結(jié)果表明,該方法具有更高的分類精度。與BP神經(jīng)網(wǎng)絡(luò)相比,SVM方法的優(yōu)缺點是:(1)模型的準(zhǔn)確率。SVM是通過解一個凸二次規(guī)劃來得出結(jié)果的,因此找到的解是全局最優(yōu)解,且精度高,利用支持向量機(jī)進(jìn)行上市公司信用風(fēng)險評估,根據(jù)有限的訓(xùn)練樣本,建立了非線性映射關(guān)系,解決了維數(shù)問題,這種算法具有簡單、準(zhǔn)確率高的優(yōu)點,很適合推廣。(2)泛化能力。SVM通過結(jié)構(gòu)風(fēng)險最小化原則實現(xiàn)了經(jīng)驗風(fēng)險和置信范圍的良好折衷,避免了過擬合現(xiàn)象,而人工神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗風(fēng)險最小化原理。(3)模型的適用性。SVM方法通過對不同的核函數(shù)和參數(shù)的選擇,可以優(yōu)化評估結(jié)果,不同的核函數(shù)可以滿足不同的需求,模型的適用范圍更廣。(4)對數(shù)據(jù)要求。SVM可以避免小樣本和“維數(shù)災(zāi)難”問題,對有限數(shù)量和維數(shù)較高的樣本評估精度較高;而BP神經(jīng)網(wǎng)絡(luò)模型由于數(shù)據(jù)較少,易產(chǎn)生過擬合現(xiàn)象,因而使用范圍受限制。(5)核函數(shù)也需要人為的確定,尚未有理論證明決定應(yīng)選擇的核函數(shù)。
三、結(jié)束語
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘方法被廣泛應(yīng)用于金融、經(jīng)濟(jì)領(lǐng)域,在信用風(fēng)險方面也受到越來越多的重視。在我國,對上市企業(yè)的信用風(fēng)險評估還是一個很具有挑戰(zhàn)性的領(lǐng)域,不僅體現(xiàn)在其信用風(fēng)險變化的復(fù)雜性,還在于評估所面臨的巨大工作量。上市企業(yè)的信用狀況是構(gòu)成整個社會體系不可缺少的重要部分,因此,解決其信用風(fēng)險評估問題的首要任務(wù)是要建立簡單可操作的模型,并充分發(fā)揮計算機(jī)處理信息等的優(yōu)勢作用。
(注:本文系華東交通大學(xué)校立科研基金資助課題《基于數(shù)據(jù)挖掘的上市公司信用風(fēng)險評估模型研究》的部分研究成果,課題編號:09GD02。)
【參考文獻(xiàn)】
[1] Qualian JR,C4.5: Programs for Machine Learning [J],San Mateo, CA:Morgan Kaufmann Publishers,1993.
[2] Virongrong Tesprasit,Paisarn Charoenpornsawat ,Virach Sornlertlamvanich,A Context-Sensitive Homograph Disambiguation in Thai Text-to-Speech Synthesis,Proceedings ofHuman Language Technology Conference,2003.
[3] 周松林、吳銘:滬深兩市總市值全年縮水62.9%[J].金融界,2009(1).
[4] 王春峰、萬海暉、張維:基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險評估[J].系統(tǒng)工程理論與實踐,1999(9).
[5] 郝麗萍、胡欣悅、李麗:商業(yè)銀行信貸風(fēng)險分析的人工神經(jīng)網(wǎng)絡(luò)模型研究[J].系統(tǒng)工程理論與實踐,2001(5).
[6] 柳炳祥、盛昭翰:基于粗神經(jīng)網(wǎng)絡(luò)的企業(yè)危機(jī)預(yù)警系統(tǒng)設(shè)計[J].信息與控制,2003(1).
[7] 龐素琳、王燕鳴、黎榮舟:基于BP算法的信用風(fēng)險評價模型研究[J].數(shù)學(xué)的實踐與認(rèn)識,2003(8).
[8] 張德棟、張強(qiáng),基于神經(jīng)網(wǎng)絡(luò)的企業(yè)信用評估模型[J].北京理工大學(xué)學(xué)報,2004(11).
[9] 王凱、黃世祥:基于BP神經(jīng)網(wǎng)絡(luò)的行業(yè)間中小企業(yè)信用評估模型及應(yīng)用[J].數(shù)學(xué)的實踐與認(rèn)識,2007(24).
篇6
關(guān)鍵詞:模糊控制;滑模控制;復(fù)雜系統(tǒng)
中圖分類號:G632 文獻(xiàn)標(biāo)識碼:B 文章編號:1002-7661(2014)14-094-01
隨著控制理論實踐的不斷深入,被控對象的結(jié)構(gòu)及數(shù)學(xué)模型也越來越復(fù)雜,呈現(xiàn)出時變性、多輸入多輸出、高度復(fù)雜性、非線性、不確定性等特點。面對這些復(fù)雜特征,傳統(tǒng)的基于精確數(shù)學(xué)模型的控制理論的局限性日趨明顯,于是出現(xiàn)了諸如變結(jié)構(gòu)控制、自適應(yīng)控制、模糊控制、神經(jīng)網(wǎng)絡(luò)控制以及智能控制等新的控制手段。本文就模糊滑模控制的產(chǎn)生及發(fā)展現(xiàn)狀做簡單介紹。
滑模控制因其獨特的優(yōu)勢在伺服機(jī)構(gòu)、飛行器控制等領(lǐng)域有著廣闊的發(fā)展前景。但是,實際系統(tǒng)由于切換裝置不可避免地存在慣性,變結(jié)構(gòu)控制在不同的控制邏輯中來回切換,會導(dǎo)致實際滑模運動不是準(zhǔn)確地發(fā)生在切換面上,容易引起系統(tǒng)的劇烈抖動。這一缺點使其在實際應(yīng)用中受到了很大的限制。抖動不僅影響控制的精確性,增加能量消耗,而且系統(tǒng)中的高頻未建模動態(tài)很容易被激發(fā)起來,破壞系統(tǒng)性能,甚至使系統(tǒng)產(chǎn)生振蕩或失穩(wěn),損壞控制器部件。而將模糊控制與滑模變結(jié)構(gòu)控制結(jié)合應(yīng)用來克服變結(jié)構(gòu)控制所帶來的抖動便成為很多專家學(xué)者的研究重點。
一、常規(guī)模糊滑模控制
模糊控制和滑模變結(jié)構(gòu)控制各有優(yōu)缺點,有某種相似之處,又有互補(bǔ)之處。90年代以后專家學(xué)者把二者結(jié)合,構(gòu)成模糊滑模控制,實現(xiàn)兩者之間的取長補(bǔ)短。同時還可在一定程度上削弱或克服滑模變結(jié)構(gòu)控制的抖動現(xiàn)象。目前,模糊控制與滑模變結(jié)構(gòu)控制的結(jié)合運用主要有以下三種方式[1]。
1、通過模糊控制規(guī)則自適應(yīng)地調(diào)節(jié)符號函數(shù)項的值,可以在保證趨近速度和減小抖動的前提下較好地選擇和 。
2、通過模糊控制規(guī)則直接確定滑模控制量,即直接把切換函數(shù)及其微分 作為輸入量,通過模糊推理獲得滑模控制的控制量。
3、變結(jié)構(gòu)控制、模糊控制的復(fù)合控制策略。在大偏差時采用滑模變結(jié)構(gòu)控制,在小偏差時采用模糊控制的運行方式。
二、自適應(yīng)模糊滑模控制
普通的模糊滑模控制的設(shè)計仍然是基于經(jīng)驗的。由于模糊規(guī)則的選取有很大的任意性,在很多情況下有效經(jīng)驗的獲取并不是容易的事。為了達(dá)到一定精度,選擇的模糊規(guī)則可能非常復(fù)雜[2,3],且系統(tǒng)參數(shù)在控制過程中也沒有自適應(yīng)和自學(xué)習(xí)能力。為使系統(tǒng)在不確定性以及對象出現(xiàn)參數(shù)和結(jié)構(gòu)變化的情況下保證不變性,自適應(yīng)模糊滑模控制應(yīng)運而生,并成為非線性系統(tǒng)自適應(yīng)控制方法研究的主流[4]。
三、基于模糊神經(jīng)網(wǎng)絡(luò)的滑模控制
人工神經(jīng)網(wǎng)絡(luò)同樣具有自學(xué)習(xí)和自適應(yīng)的能力。它和模糊系統(tǒng)的結(jié)合有助于擴(kuò)大二者在滑模控制領(lǐng)域內(nèi)的應(yīng)用。模糊神經(jīng)網(wǎng)絡(luò)(Fuzzy Neural Networks, FNN)結(jié)合了模糊控制與神經(jīng)網(wǎng)絡(luò)控制兩者的優(yōu)勢,不僅具有神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)和快速處理的能力,而且具有模糊控制系統(tǒng)能夠充分利用先驗知識、以較少的規(guī)則數(shù)來表達(dá)知識的優(yōu)勢,避免了神經(jīng)網(wǎng)絡(luò)不能很好地利用已有經(jīng)驗知識,往往將初始權(quán)值取為零或隨機(jī)數(shù)使網(wǎng)絡(luò)訓(xùn)練時間變長或者陷入非要求的局部極值的缺點,也避免了模糊控制由于缺乏自學(xué)習(xí)和自適應(yīng)能力,給控制器參數(shù)的學(xué)習(xí)和調(diào)整帶來的困難。模糊神經(jīng)網(wǎng)絡(luò)與滑模控制的結(jié)合應(yīng)用可以通過以下幾種方式:一、用T-S模糊神經(jīng)網(wǎng)絡(luò)等價系統(tǒng)不確定的動態(tài)特性 和 ,再按一般滑模控制的方法形成控制律。控制過程中FNN 的參數(shù)根據(jù)實際系統(tǒng)的輸入輸出數(shù)據(jù)在線自學(xué)習(xí)。或者以 為輸入的標(biāo)準(zhǔn)模糊神經(jīng)網(wǎng)絡(luò)實時估計系統(tǒng)動態(tài)不確定性的上界,以此與狀態(tài)反饋相結(jié)合構(gòu)造滑模控制。也可用結(jié)構(gòu)自組織的廣義參數(shù)學(xué)習(xí)的模糊徑向基函數(shù)網(wǎng)絡(luò)完成系統(tǒng)動態(tài)不確定性的等價,在此基礎(chǔ)上構(gòu)造系統(tǒng)的滑模控制律。這幾種方式均是通過模糊神經(jīng)網(wǎng)絡(luò)來等效系統(tǒng)不確定項的,也可直接采用模糊神經(jīng)網(wǎng)絡(luò)構(gòu)造滑模控制率,如:L in等[8]直接用以 為輸入的標(biāo)準(zhǔn)模糊神經(jīng)網(wǎng)絡(luò)構(gòu)造滑模控制律,基于 最小化用梯度下降方法完成FNN的參數(shù)自適應(yīng);為了保證滑模產(chǎn)生條件存在,還構(gòu)造了帶符號函數(shù)的監(jiān)督控制律。當(dāng)與系統(tǒng)狀態(tài)相關(guān)的李亞普洛夫函數(shù)值進(jìn)入零的一個鄰域時,監(jiān)督律作用撤消。于是從總體上保證了滑模產(chǎn)生條件的滿足和穩(wěn)態(tài)時的無抖振。
四、模糊滑模控制與其它策略的結(jié)合
除了以上所描述的問題之外,關(guān)于模糊滑模控制和其它策略相結(jié)合還有其他諸多方面的內(nèi)容,它們體現(xiàn)了控制理論的交叉融合。遺傳算法作為一種優(yōu)化算法,在模糊滑模控制中亦得到較多應(yīng)用。可以采用遺傳算法對控制器增益參數(shù)、模糊規(guī)則、隸屬函數(shù)進(jìn)行優(yōu)化,有效減小或消除抖振。當(dāng)然還有其他算法與模糊滑模控制的結(jié)合應(yīng)用,在此就不在累述。
參考文獻(xiàn):
[1] 王翠紅 自適應(yīng)模糊滑模控制的設(shè)計與分析[D] 西南交通大學(xué) 2002
[2] Yoo B, Ham W. Adaptive fuzzy sliding mode control of nonlinear system [J]. IEEE Trans. Fuzzy Syst., 1998, 6(2): 315-321
[3] Yu X, Man Z, Wu B. Design of fuzzy sliding-mode control systems [J], Fuzzy Sets and Systems, 1998, 95:295-306
[4] Kaynak O, Erbatur K, Ertugrul M. The fusion of computationally intelligent methodologies and sliding mode control-a survey [J]. IEEE Trans. Industrial Electronics, 2001, 48(1): 4-17
[5] Lu Y S, Chen J S. A self-organizing fuzzy sliding mode controller design for a class of nonlinear servo system [J]. IEEE Trans. on Industrial Electronic, 1994, 41(5): 492-502
[6] Lin S C, Chen Y Y. Design of adaptive fuzzy sliding mode for nonlinear system control[C]. Proc.of IEEE Int. Conf. on Fuzzy Systems, 1994, (1):35-39
篇7
【關(guān)鍵詞】綠色施工地鐵工程評價方法BP神經(jīng)網(wǎng)絡(luò)
1前言
地鐵作為“城市的生命線”具有運能大、準(zhǔn)點、速度快、舒適、安全等優(yōu)點,是國際上公認(rèn)的解決城市交通問題的首選。近年來,中國正通過大力興建地鐵,實現(xiàn)“綠色交通”。由于施工階段對環(huán)境的影響最直接、最嚴(yán)重,地鐵要成為可持續(xù)發(fā)展的環(huán)保交通,地鐵工程的綠色建造則是“綠色地鐵”的具體要求。
2綠色施工概念及地鐵工程施工特點
2.1綠色施工的概念
依據(jù)《綠色施工導(dǎo)則》中給定的綠色施工的定義可以將其本質(zhì)含義歸結(jié)為:綠色施工是以綠色施工技術(shù)和綠色施工管理相結(jié)合為實踐途徑,以可持續(xù)發(fā)展理論為指導(dǎo)思想,以減量化、再利用、再循環(huán)為原則,最終實現(xiàn)最大限度的節(jié)約資源、保護(hù)環(huán)境并貫穿于從施工策劃階段開始直到竣工驗收的施工全過程。
2.2地鐵施工的特點
地鐵工程施工內(nèi)容繁多、工序復(fù)雜。由于建設(shè)規(guī)模、建設(shè)環(huán)境以及施工技術(shù)的不同,地鐵工程的施工主要有以下幾個特點:(1)線路長、工點多。一般地鐵線路的長度都在數(shù)公里到幾十公里,且地鐵工程包括車站、出入口、車站風(fēng)道、風(fēng)井、區(qū)間隧道等工程,每一個車站或區(qū)間即一個施工工點。(2)工程施工工期緊。由于交通以及其他各種原因,導(dǎo)致地鐵工程的施工工期相當(dāng)緊張,甚至不能達(dá)到工期的合理要求,無論對施工組織,還是對施工技術(shù)均提出了嚴(yán)峻的挑戰(zhàn)。(3)施工周邊環(huán)境復(fù)雜。地鐵工程多屬于地下工程,且一般要穿越城區(qū),使其往往面臨著施工場地狹小、地下管線密集、道路交通繁忙、重點建筑保護(hù)等問題,地鐵施工的環(huán)境保護(hù)要求高,施工技術(shù)難度大。
3地鐵工程綠色評價指標(biāo)體系的建立
評價指標(biāo)體系的構(gòu)建應(yīng)遵循簡明性、代表性、可量可比性、整體性、科學(xué)性的原則。基于英國BREEAM[1]、美國LEED[2]等綠色建筑評價理論,結(jié)合我國頒布的《綠色施工導(dǎo)則》以及《建筑工程綠色施工評價標(biāo)準(zhǔn)》,初步以某一地鐵工程從管理與綠色施工實施中建立相對科學(xué)的綠色施工指標(biāo)體系。管理屬性即指管理的規(guī)范性,包括綠色施工的組織管理、環(huán)境投資建設(shè)、項目優(yōu)化、員工培訓(xùn)、以及綠色施工科研開發(fā)和綠色建材的使用。操作屬性即指實施的有效性則包括空氣污染控制、噪聲污染控制、水體污染控制、固體廢棄物的處理、施工設(shè)備維護(hù)、能源消耗節(jié)約、以及施工對周圍環(huán)境負(fù)荷值降低。
4地鐵綠色施工評價方法的探究
由于地鐵綠色施工評價是一個涉及多目標(biāo)、多屬性、多層次的復(fù)雜問題,因而簡單的定性或定量方法并不能實現(xiàn)對綠色施工的有效評價。為了探索出一套合乎地鐵工程特點的綠色施工評價模型,本文在對目前綠色施工綜合評價方法研究的基礎(chǔ)上找出如下幾種進(jìn)行比較分析。
(1)灰色關(guān)聯(lián)度分析法作為一種多因素分析方法,是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,作為衡量因素間關(guān)聯(lián)程度的一種方法[3]。此方法的優(yōu)點在于利用“灰色系統(tǒng)理論”避免了以往回歸分析的弊端,在很大程度上減少由于信息不對稱帶來的損失,適用于發(fā)展態(tài)勢的量化比較分析;其主要缺點在于需要現(xiàn)行確定各項指標(biāo)的最優(yōu)值,然而在地鐵工程綠色施工評價指標(biāo)體系中大部分指標(biāo)本身具有一定的模糊性,部分指標(biāo)最優(yōu)值難以確定。
(2)模糊物元評價法,其要點是將事物用“事物、特征、量值”這三要素組成有序三元組的物元來研究事物變化規(guī)律[4]。此方法用于綠色施工評價的優(yōu)點在于能較好的解決模糊不相容的多因子綜合評價問題,但其主要的缺點在于需要由“等級標(biāo)準(zhǔn)、評價指標(biāo)、實測值”組成一個模糊物元,而目前關(guān)于地鐵施工的綠色施工及其評價理論的研究尚少,不同專家的評價思想和標(biāo)準(zhǔn)往往存在一定的差異,所以此評價方法的結(jié)果可能有失客觀。
(3)BP人工神經(jīng)網(wǎng)絡(luò)評價法作為一種聚類預(yù)測分析方法,是一種利用能學(xué)習(xí)和存貯大量的輸入和輸出模式的映射關(guān)系的特點,通過大量樣本按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。經(jīng)過學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò)能有效吸收專家的專業(yè)知識和經(jīng)驗,并進(jìn)行模擬評價。然而其不足之處在于如果增加了學(xué)習(xí)樣本,訓(xùn)練好的網(wǎng)絡(luò)就需要從頭開始訓(xùn)練,對于以前的權(quán)值和閾值往往沒有記憶。但是可以將預(yù)測、分類或聚類做的比較好的權(quán)值保存。綜上所述,在綠色施工評價中以上幾種評價方法都有各自的優(yōu)點、缺點,因此根據(jù)評價對象的特點選擇恰當(dāng)?shù)脑u價方法對評價結(jié)果非常重要。本文結(jié)合地鐵綠色施工的概念及特點,選擇BP神經(jīng)網(wǎng)絡(luò)法主要原因如下:①綠色施工評價作為一個各種因素相互聯(lián)系、相互影響、復(fù)雜多變的綜合性問題,建立多個指標(biāo)層的網(wǎng)絡(luò)神經(jīng)能夠客觀的得出指標(biāo)間的非線性關(guān)系。由于地鐵施工的特點,每一個車站作為一個施工工點,可將具有代表性的工點作為訓(xùn)練樣本,足夠數(shù)量的樣本訓(xùn)練是BP神經(jīng)網(wǎng)絡(luò)的自我學(xué)習(xí)的關(guān)鍵環(huán)節(jié)。通過周而復(fù)始的信息正向傳播和誤差反向傳播過程,全面反映出各個指標(biāo)間隱含的關(guān)系。②由于綠色施工評價的理論研究還沒有相對成熟,針對地鐵工程而言,其評價的復(fù)雜性更高,不同的專家對各式各樣的地鐵車站,在不同角度上其評價思想和標(biāo)準(zhǔn)有所差異。如何對原始數(shù)據(jù)進(jìn)行科學(xué)處理,從不同專家的思想中提取其精華部分,BP神經(jīng)網(wǎng)絡(luò)較強(qiáng)的容錯能力使這一問題迎刃而解。
5結(jié)語
本文研究了在評價體系建立方面常用的幾種評價方法,通過不同評價方法的研究,分析不同評價方法的優(yōu)缺點,結(jié)合地鐵工程特點,找出適合地鐵工程綠色施工評價模型。利用BP神經(jīng)網(wǎng)絡(luò)的自學(xué)功能,借以輔助MATLAB軟件工具箱中所具有的神經(jīng)網(wǎng)絡(luò)函數(shù)功能,選取足夠數(shù)量具有代表性的工點作為地鐵工程綠色施工評價樣本,進(jìn)行學(xué)習(xí)訓(xùn)練,建立模擬專家評價的BP神經(jīng)網(wǎng)絡(luò),為解決此類綜合評價問題提供了新途徑。因此在綠色施工評價體系的研究中,結(jié)合評價對象的特點,利用共性與個性相結(jié)合的思想,并找出最佳的方案與思路,從而建立切實可行有效的評價體系。
參考文獻(xiàn):
[1]UKBREEAMBREEAM98foroffices-anervironmentalassessmentmethodforoffecebuilding,BuildingResearchEstab-lishment(BRE),Garston,Walford,2000.
[2]USGreenBuildingCouncilLeadershipinEnergyandEnvi-ronmentalDesignRatingSystemVersion2.0(LEED2.0)June2001.
[3]李惠玲,李軍,鐘欣.基于灰色聚類法的綠色施工評價[J].沈陽建筑大學(xué)工程管理學(xué)報,2012,26(02):19-22.
篇8
關(guān)鍵字:計算機(jī)視覺;作物病害診斷;進(jìn)展;模式識別
中圖分類號:TP311 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)02-
The Research Development of Computer Vision in the Plant Disease Diagnosis
PU Yongxian
(Computer Science Dept .Dehong Teachers'college, Dehong Yunnan 678400, China)
Abstract: according to the statistics, crop yield loss caused by disease in more than 12% on average, disease occurs not only affect the production, also decreased the quality of the product. Research by computer vision technology realizes fast and accurate diagnosis of crop disease, and provides scientific basis for disease prevention and control, which is the urgent demand of agricultural informatization development. Articles on computer vision technology is applied to the crop disease diagnosis has carried on the detailed analysis and research, in order to get these new technologies in the current situation of crop disease diagnosis each link, points out the shortages of computer vision in the diagnosis of crop diseases and research direction. The study on the development of crop disease intelligent detection technology will play an important role.
Key words:Computer Vision; Crop Disease Diagnosis; Progress; Pattern Recognition
0引言
在作物生產(chǎn)中,病害是制約作物質(zhì)與量的重要因素。病害發(fā)生,往往致使作物的使用價值降低,甚至還會導(dǎo)致大面積減產(chǎn),乃至絕收,造成巨大的經(jīng)濟(jì)損失。因此,在作物生長過程中,病害防治是個關(guān)鍵的問題之一。因各種原因植保人員匱乏,而種植戶個體素質(zhì)差異及受一些主觀人為因素的影響,對作物病害診斷存在主觀性、局限性、模糊性等,不能對作物病害的類型及受害程度做出客觀、定量的分析與判斷,結(jié)果要么是藥量不對、要么是藥不對癥,嚴(yán)重影響了作物的質(zhì)與量。
計算機(jī)視覺也稱為機(jī)器視覺,是研究如何用計算機(jī)來模擬和再現(xiàn)人類視覺功能的科學(xué),也被稱為圖像理解和圖像分析,是人工智能領(lǐng)域的一個重要分支。隨著計算機(jī)技術(shù)、圖像處理和人工智能等學(xué)科的發(fā)展,以及數(shù)碼相機(jī)、手機(jī)等攝像工具像素的提高,將機(jī)器視覺用于作物病害診斷,實現(xiàn)作物病害的無損檢測、快速診斷提供了新的途徑和方法[1]。報道最早的是在1989年穗波信雄等人[2]對采集的缺乏鈣、鐵、鎂營養(yǎng)元素的茨菇葉片圖像進(jìn)行研究,在RGB模型中,利用直方圖分析了正常和病態(tài)的顏色特征。為適應(yīng)農(nóng)業(yè)信息化的迫切需求,國內(nèi)外學(xué)者對機(jī)器視覺用于作物病害診斷進(jìn)行了研究和實踐,而取得進(jìn)展主要集中在近10年,涉及的作物有水稻、玉米、小麥、葡萄、黃瓜、甘蔗、蔬菜等病害[3-14],這些研究針對不同作物,從不同側(cè)面為作物病害實現(xiàn)自動化診斷提供了理論和實踐基礎(chǔ)。因機(jī)器視覺比人眼能更早發(fā)現(xiàn)作物因病蟲危害所表現(xiàn)的顏色、紋理、形狀等細(xì)微變化,所以利用這種技術(shù)病害病害與人工方式相比,提高了診斷的效率和精準(zhǔn)度,為作物保護(hù)智能化、變量噴藥等提供了科學(xué)依據(jù)。
本文綜述和歸納了機(jī)器視覺診斷作物病害的主要技術(shù):病害圖像采集、增強(qiáng)處理、病斑分割、特征提取、特征優(yōu)化、病害識別等各環(huán)節(jié)的方法及現(xiàn)狀,指出了機(jī)器視覺診斷作物病害存在的不足和研究方向。該研究對實現(xiàn)作物病害的機(jī)器視覺診斷技術(shù)的發(fā)展將起到重要的推動作用。
1機(jī)器視覺識別作物病害的技術(shù)路線與進(jìn)展
作物病害因其病原物種類不同會產(chǎn)生形狀、顏色、紋理等不同的病斑,通常專業(yè)植保技術(shù)人員就是根據(jù)這些特征判斷病害的。機(jī)器視覺診斷作物病害是通過無損采集病害圖像,利用圖像處理技術(shù)對圖像增強(qiáng)處理、分割病斑,提取病斑特征、優(yōu)化特征,用模式識別技術(shù)診斷病害類別及危害程度,從而為病害的防治提供科學(xué)依據(jù)。圖1為機(jī)器視覺診斷作物病害的技術(shù)路線圖。
圖1機(jī)器視覺識別作物病害技術(shù)路線圖
Fig 1 Technology roadmap of machine vision recognition crop diseases
1.1病害圖像采集與增強(qiáng)處理
(1)病害圖像采集方法。圖像采集是病害識別的第一步,采集的質(zhì)量會直接影響識別結(jié)果。常用采集設(shè)備有數(shù)碼攝像機(jī)、掃描儀、數(shù)碼相機(jī)、手機(jī)等。其中,數(shù)碼相機(jī)便于攜帶,能滿足圖像清晰度要求,符合野外作業(yè)等特點,因此病害圖像采集中用得較多。依據(jù)采集環(huán)境氛圍分為室內(nèi)采集和室外(田間)采集兩種。室內(nèi)采集是將田間采摘到的病害標(biāo)本經(jīng)密封保濕后使用CCD攝像機(jī)或數(shù)碼相機(jī)在室內(nèi)攝取病害的標(biāo)本圖像。在田間采集圖像中,有學(xué)者為了采集到高質(zhì)量的圖像,采取了一系列措施以減少外界因素的影響。如陳佳娟[5]采用便攜式掃描儀采集圖像,以減少自然光照對圖像質(zhì)量的影響。徐貴力等人[6]設(shè)計了活體采光箱,使照射光變成反射光,從而避免了陰影,以減少誤差。這種規(guī)范圖像采集方式雖簡化了后期圖像處理和識別的難度,但基層生產(chǎn)單位可能缺乏配套的技術(shù)設(shè)備,且會使病害識別過度依賴圖像。為擴(kuò)展應(yīng)用范圍和通用性,有學(xué)者對在田間自然光照射下直接獲取的病害圖像,用圖像處理和模式識別技術(shù)診斷病害進(jìn)行了研究,如李宗儒[7]用手機(jī)拍攝了蘋果的圓斑病、花葉病等5種病害圖像,對病害圖像增強(qiáng)處理、分割病斑,提取病斑特征,用BP神經(jīng)網(wǎng)絡(luò)識別病害,獲得了較好效果。姜武[8]用Canon EOS 50D相機(jī)在陽光充足的早晨拍攝山茶葉片圖像,進(jìn)行顏色分形和RGB強(qiáng)度值提取,用支持向量機(jī)對山茶分類識別,取得了較好效果。
(2)圖像增強(qiáng)方法。在采集圖像過程中,因受設(shè)備、環(huán)境等因素影響,往往使采集到的圖像含有噪聲,若不對其增強(qiáng)處理會影響到病害的正確識別率。病害圖像增強(qiáng)是為病斑分割,特征提取做準(zhǔn)備,所以應(yīng)確保在去除噪聲的同時,保證病斑邊緣不模糊。圖像增強(qiáng)處理根據(jù)其處理的空間不同,分為空域法和頻域法。空域法是對圖像本身直接進(jìn)行濾波操作,而頻域法是對圖像進(jìn)行轉(zhuǎn)化,將其轉(zhuǎn)化到頻率域中去噪處理,之后再還原到圖像的空間域。圖像增強(qiáng)處理常用方法有:直方圖均衡化、對比度增強(qiáng)、均值濾波、中值濾波、高斯濾波、銳化等。王靜[9]利用數(shù)碼相機(jī)采集了赤星病與野火病兩種病害圖像80幅,采用灰度圖像直方圖均衡化及中值濾波兩種方法對圖像增強(qiáng)處理,實驗表明,中值濾波去噪效果最好,在保留圖像病斑邊緣信息的同時,使病斑輪廓與細(xì)節(jié)更加清晰,便于后期病斑分割及特征提取。劉芝京[10]采集黃瓜早、中、晚期的角斑病病害圖像,分別用均值濾波、中值濾波、高斯濾波等對圖像處理,實驗表明這些去噪方法中,高斯濾波效果最好。
1.2病斑特征獲取
(1)病斑分割
計算機(jī)視覺主要是依據(jù)病斑的特征信息診斷病害類別及危害程度的。因此,彩色病斑的準(zhǔn)確分割,是后期提取病斑特征,病害類別的客觀、準(zhǔn)確診斷的關(guān)鍵環(huán)節(jié)之一。當(dāng)前針對作物病害圖像分割算法有閾值分割、空間聚類、區(qū)域分割、邊緣檢測分割、計算智能方法等。由于作物病害圖像存在背景復(fù)雜、病斑區(qū)域排列無序、顏色、紋理分布不均、病斑邊界模糊、葉片表面紋理噪聲等干擾,因此尚無一種魯棒性好,且簡單適用的通用方法,也還沒有一種判斷分割是否成功的客觀標(biāo)準(zhǔn)。近年來學(xué)者們對作物病害圖像的分割進(jìn)行了大量研究,試圖尋找一種更具潛力的分割算法,以期獲得更完美,通用的分割方法。趙進(jìn)輝等人[11]分析了甘蔗病害圖像的顏色與形狀特征,采用面積閾值及鏈碼分割赤腐病和環(huán)斑病病斑,收到了較好的效果。管澤鑫等人[12]提取水稻病斑與斑點外輪廓顏色,用最大類間方差法(Otsu[13])分割病斑,取得了較好的效果。邵慶等人[14]以小麥條銹病為例,對獲取的小麥病害圖像采用迭代閾值分割和微分邊緣檢測分割病斑。溫長吉等人[15].用改進(jìn)蜂群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)實現(xiàn)玉米病害圖像分割。祁廣云等[16]采用改進(jìn)的遺傳算法及BP神經(jīng)網(wǎng)絡(luò)對大豆葉片病斑分割,能有效提取病斑區(qū)域。毛罕平等人[17-18]利用模糊C均值聚類對棉花、玉米病害圖像的病斑進(jìn)行分割。張飛云[19]采用K-means硬聚類算法對玉米葉部病害圖像分割,得到彩色病斑。張芳、仁玉剛[20-21]用采分水嶺算法分割黃瓜病害圖像,正確率均在90%以上。劉立波[22]對水稻葉部病害圖像的分割進(jìn)行研究,結(jié)果證明,模糊C均值聚類法的分割效果較好,但速度欠佳,Otsu法分割效果略差,但速度較快。濮永仙[23]利用支持向量機(jī)檢測煙草病斑邊緣,以分割彩色病斑。石鳳梅等人[24]利用支持向量機(jī)分割水稻稻瘟病彩色圖像病斑,其分割效果優(yōu)于Otsu法。
(2)病斑特征提取
計算機(jī)視覺識別作物病害用到的特征主要有顏色、紋理、形狀等特征。顏色是區(qū)分病害類別的重要特征,有RGB、HSI、Lab、YUV等7種顏色空間模型,可得到顏色特征值和顏色特征差異,而模型的選擇會影響到病害識別效果。紋理是指圖像中反復(fù)出現(xiàn)的局部模式及排列規(guī)則。作物病害圖像正常與病變部分的紋理在粗細(xì)、走向上有較大差異。紋理特征有基于灰度直方圖的統(tǒng)計測度,基于灰度共生矩陣的紋理特征和基于游程的紋理描述特征。提取紋理特征的方法有分形維數(shù)、小波變換、Gabor小波變換、局域二值模式,以及Gabor分塊局域二值模式方法等。形狀常與目標(biāo)聯(lián)系在一起,形狀特征可以看作是比顏色和紋理更高層的特征,它能直觀描述目標(biāo)和背景之間的區(qū)別,不同病害的病斑在尺寸大小、似圓性、長短軸等方面有不同特性,對旋轉(zhuǎn)、平移有很強(qiáng)的穩(wěn)定性。提取病斑形狀特征的方法有弗里曼鏈碼法,傅里葉描述子,多尺度曲率空間方法等。王美麗等人[25] 在HSV顏色空間提取小麥白粉病和銹病病害圖像的顏色和形狀特征,對病害進(jìn)行識別,識別率達(dá)96%以上。蔡清等人[26]對蟲食菜葉圖像處理后,提取其形狀的圓形度、復(fù)雜度、球形度等7個特征,用BP神經(jīng)網(wǎng)絡(luò)識別病害。王克如[27]提取玉米病害圖像中紋理特征的能量、熵及慣性矩作為識別病害的特征,實驗得出,以單個特征識別正確識別率達(dá)90%,綜合應(yīng)用三個紋理特征,識別率達(dá)100%。田有文等人[28]提取葡萄葉部病斑的顏色、紋理、形狀特征,用支持向量機(jī)識別,實驗表明,綜合應(yīng)用三種特征的識別率比只用單一特征的識別高。李旺[29]以黃瓜葉部3種常見病害圖像為研究對象,提取病斑顏色、紋理和形態(tài)特征總共14個特征,用支持向量機(jī)識別,實驗表明,分別以顏色、紋理、形狀特征識別,識別率分別為72.23%、90.70%、90.24%,綜合3種特征識別率為96.00%。
(3)特征優(yōu)化
特征優(yōu)化是指在特征提取完成后,將特征因子中對識別病害貢獻(xiàn)低的因子丟棄,以確保在降低特征維度的同時,能提高病害的識別率。常用的特征優(yōu)化方法有:逐步判別法、主成分分析法、遺傳算法等。實踐證明,優(yōu)化后的特征能更好的表征病害,能在特征減少的情況下提高診斷的正確率。管澤鑫等人[12]提取水稻3種常見病害圖像的形態(tài)、顏色、紋理共63個特征,用逐步判別法對特征優(yōu)化,用貝葉斯判別法識別病害,可使特征數(shù)減少到原來的35.2%,而病害準(zhǔn)確識別率達(dá)97.2%。柴洋等人[30]提取了番茄早疫病、晚疫病等4種葉部病害圖像的顏色、紋理和形狀共18個特征,用逐步判別法優(yōu)化,最終選取12個特征,用主成分優(yōu)化后綜合成2個新變量,分別用貝葉斯判別法和用費歇爾判別函數(shù)識別病害,均取得了較好的效果。陳麗等人[31]提取了玉米5種葉部病害圖像病斑特征,用遺傳算法優(yōu)化特征,用概率神經(jīng)網(wǎng)絡(luò)識別病害,識別率為90.4%。彭占武[32]提取了黃瓜6種常見病害圖像的顏色、紋理、形狀特征14個,用遺傳算法優(yōu)化得到8個特征,用模糊識別模式識別病害,其識別率達(dá)93.3%。濮永仙[33]提取了煙草常見病害圖像的顏色、紋理及形態(tài)共26個特征,用雙編碼遺傳算法與支持向量機(jī)結(jié)合優(yōu)化特征,最后得到16個特征,該方法與沒有采用遺傳算法的支持向量機(jī)識別相比,在同等條件下,特征向量減少了38%,正確率提高了6.29%。所謂雙編碼遺傳算法,即二進(jìn)制編碼和實數(shù)編碼結(jié)合,支持向量機(jī)作為底層分類器,分類精度作為遺傳算法的適應(yīng)度對個體進(jìn)行評估,在去除冗余特征的同時為保留的特征賦予權(quán)重,如圖2所示。韓瑞珍[34]提取了害蟲的顏色、紋理特征共35個,用蟻群算法對特征優(yōu)化,將35個特征降低到29個,識別準(zhǔn)確率從87.4%提高到89.5%。
圖2雙編碼遺傳算法中的個體
Fig 2 Individual in the double coding genetic algorithm
1.3病害模式識別
模式識別也叫模式分類,指依據(jù)輸入的原始數(shù)據(jù),判斷其類別并采取相應(yīng)的行為[35]。病害模式識別的任務(wù)是依據(jù)特征數(shù)據(jù)由分類器完成分類的,分類器設(shè)計和特征描述共同決定了模式識別系統(tǒng)的性能。用于病害識別的模式可分為統(tǒng)計模式、句法結(jié)構(gòu)模式、模糊模式和機(jī)器學(xué)習(xí)方法四類。其中,統(tǒng)計模式識別是用概率統(tǒng)計原理,獲取滿足某種已知分布的特征向量,然后通過決策函數(shù)來分類,不同的決策函數(shù)能夠產(chǎn)生不同的分類方法。常見的統(tǒng)計模式識別方法有兩種:一是由Neyman決策和貝葉斯決策等構(gòu)成的基于似然函數(shù)的分類方法,另一種是基于距離函數(shù)的分類識別方法。模糊模式識別是基于模糊理論利用模糊信息進(jìn)行模糊分類的,主要方法有最大隸屬原則識別法、接近原則識別法和模糊聚類分析法三種。機(jī)器學(xué)習(xí)指計算機(jī)模擬或者實現(xiàn)人類的某些行為,它的應(yīng)用已涉及很多領(lǐng)域。目前常用于作物病害識別的機(jī)器學(xué)習(xí)方法有人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)、移動中心超球分類器等。其中,支持向量機(jī)分類器是目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點之一,它能夠較好地解決小樣本、非線性、高維數(shù)的分類問題,且具有良好的推廣和泛化能力。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗風(fēng)險最小化原則,以訓(xùn)練誤差最小化為優(yōu)化目標(biāo),而SVM以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍最小化為優(yōu)化目標(biāo),所以SVM的解具有唯一性,也是全局最優(yōu)[36]。移動中心超球分類器是近年來新提出的一種分類器,它是一種對參考樣本進(jìn)行壓縮的方法,可以節(jié)省空間,但其識別率不如人工神經(jīng)網(wǎng)絡(luò)高。以下是在作物病害診斷中較成功的幾種識別模式及技術(shù)進(jìn)展。
1.3.1 貝葉斯判斷法
貝葉斯判別法是一種典型的基于統(tǒng)計方法的分類器。它的基本原理是將代表模式的特征向量X分到m個類別(C1,C2,…,Cm)中的某一類。操作步驟為:
(1)設(shè)樣本有n個屬性(W1,W2,…Wn),每個樣本可看作是n維空間的一個點X=(x1,x2,…,xn);
(2)設(shè)有m個不同的類(C1,C2,…,Cm),X是一個未知類別的樣本,預(yù)測X的類別為后驗概率最大的那個類別;3)用貝葉斯后驗概率公式計算,并進(jìn)行比較,依據(jù)后驗概率可將樣本X歸到Ci類中,當(dāng)且僅當(dāng)>,成立。貝葉斯分類器因其結(jié)構(gòu)簡單、易于擴(kuò)展等特點,被廣泛用于作物病害診斷。楊昕薇等人[37]對3種寒地水稻常見病害圖像處理、提取特征,用貝葉斯判別法識別病害,其識別率達(dá)97.5%。趙玉霞等人[38]提取玉米銹病、灰斑病等5種病斑圖像的特征,利用樸素貝葉斯分類器識別,其識別精度在83%以上。柴阿麗等人[39]提取了番茄早疫病、晚疫病等4種葉部病害圖像病斑的顏色、紋理和形狀特征,優(yōu)化特征后,用貝葉斯判別法識別病害,其識別率達(dá)94.71%。
1.3.2 人工神經(jīng)網(wǎng)絡(luò)識別法
神經(jīng)網(wǎng)絡(luò)技術(shù)是目前廣泛使用的一種機(jī)器學(xué)習(xí)方法,其研究工作始于19世紀(jì)末20世紀(jì)初[40],因具有并行處理、非線性映射、自適應(yīng)學(xué)習(xí)、魯棒容錯性等優(yōu)點,以及采用數(shù)據(jù)驅(qū)動模式,故在模式識別領(lǐng)域得到廣泛應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)診斷作物病害的基本步驟是:構(gòu)建神經(jīng)網(wǎng)絡(luò)識別模型,將已提取并優(yōu)化好的病害圖像特征數(shù)據(jù)作為分類器的輸入特征矢量對模型訓(xùn)練,經(jīng)過訓(xùn)練后的模型可實現(xiàn)作物病害的分類識別。目前應(yīng)用于作物病害識別的人工神經(jīng)網(wǎng)絡(luò)主要有:BP神經(jīng)網(wǎng)絡(luò)、概率神經(jīng)網(wǎng)絡(luò)、自組織特征映射網(wǎng)絡(luò),并衍生出模糊神經(jīng)網(wǎng)絡(luò)、量子神經(jīng)網(wǎng)絡(luò)等。BP神經(jīng)網(wǎng)絡(luò)具有較好的自學(xué)習(xí)性、自適應(yīng)性、魯棒性和泛化性。概率神經(jīng)網(wǎng)絡(luò)是徑向基網(wǎng)絡(luò)的一個重要分支,其分類器是一種有監(jiān)督的網(wǎng)絡(luò)分類器,在識別過程中隨著訓(xùn)練病害種類的增加[41],其運算速度會減慢。自組織特征映射網(wǎng)絡(luò)分類器是于1981年提出的一種由全連接的神經(jīng)元陣列組成的自組織自學(xué)習(xí)網(wǎng)絡(luò)[42],可以直接或間接地完成數(shù)據(jù)壓縮、概念表示和分類的任務(wù),多項實驗表明它的病害圖像識別率都在90%以上。模糊神經(jīng)網(wǎng)絡(luò)是模糊理論同神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它匯集了神經(jīng)網(wǎng)絡(luò)與模糊理論的優(yōu)點,集學(xué)習(xí)、聯(lián)想、識別、信息處理于一體。量子神經(jīng)網(wǎng)絡(luò)是量子計算理論和人工神經(jīng)網(wǎng)絡(luò)結(jié)合的產(chǎn)物,并集成了兩者的優(yōu)點。王軍英[43]以葡萄發(fā)病部位、病斑形狀、病斑顏色和主要癥狀為特征,用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)識別病害,識別率達(dá)95.36%。譚克竹等人[44]用BP神經(jīng)網(wǎng)絡(luò)識別大豆的灰斑病、霜霉病和斑點病的特征與病害的關(guān)系,其輕度病害的識別精度為87.19%,中度病害的識別精度為90.31%,重度病害的識別精度為93.13%。魏清鳳等人[45]利用模糊神經(jīng)網(wǎng)絡(luò)診斷模型以診斷蔬菜病害,其病害識別率達(dá)85.5%。張飛云[19]提取了玉米灰斑病、銹病和小斑病病害圖像的顏色、紋理、形狀特征,用量子神經(jīng)網(wǎng)絡(luò)進(jìn)行病害識別,其平均識別率達(dá)94.5%。陳麗等人[31]對田間采集的玉米葉部病害圖像,對圖像分割、特征提取,利用概率神經(jīng)網(wǎng)絡(luò)識別病害,其識別率為90.4%,同樣條件下高于BP神經(jīng)網(wǎng)絡(luò)。
1.3.3 支持向量機(jī)識別法
支持向量機(jī)[46](Support Vector Machine,簡稱SVM)是Vapnik等人提出的一款新型的機(jī)器學(xué)習(xí)方法。SVM有線性可分和線性不可分兩種情況,采用不同的核函數(shù)會有不同的SVM 算法。常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)等。SVM在基于數(shù)據(jù)的機(jī)器學(xué)習(xí)領(lǐng)域,它兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性、高維數(shù)、局部極小值等模式識別問題中表現(xiàn)出許多特有的優(yōu)勢[47-48],在基于圖像診斷作物病害領(lǐng)域應(yīng)用越來越多。宋凱等人[49]提取了玉米葉部病害圖像特征,選擇基于SVM的不同的核函數(shù)識別病害,其中徑向基核函數(shù)的正確識別率為89.6%,多項式核函數(shù)為79.2%,Sigmoid核函數(shù)的識別性能最差。劉鵬[50]提取甜柿病害圖像的紋理特征和顏色特征采用SVM識別病害,結(jié)果表明,當(dāng)SVM類型為nu-SVR,核函數(shù)為Sigmoid,參數(shù)C=26、ξ=24時識別效果最好。田有文等人[51]用支持向量機(jī)識別黃瓜病害,實驗表明,SVM方法在處理小樣本問題中具有良好的分類效果,線性核函數(shù)和徑向基核函數(shù)的SVM分類方法在黃瓜病害的識別方面優(yōu)于其他類型核函數(shù)的SVM。越鮮梅[52]提取了向日葵葉部的葉斑病、黑斑病、霜霉病3種病害圖像的顏色矩、紋理特征共9個特征,采用一對一投票決策的SVM多分類模型識別病害,取得了較好的效果。劉立波[22]提取了水稻常見葉部病害圖像的顏色、紋理、形狀等特征,對特征優(yōu)化后,分別用最近鄰域、BP神經(jīng)網(wǎng)絡(luò)和SVM方法識別病害,其中識別率最高的是SVM,BP神經(jīng)網(wǎng)絡(luò)居中,最近鄰域法最差,BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度最慢。
2機(jī)器視覺識別作物病害存在的問題與進(jìn)一步研究重點
將計算機(jī)視覺用于作物病害診斷,以改變傳統(tǒng)的診斷方式,為種植戶準(zhǔn)確診斷病害,以及變量施藥提供了決策支持。目前,計算機(jī)視覺診斷作物病害雖然取得了一定的進(jìn)展,但從研究的深度、應(yīng)用的范圍和實用化角度看,還存在許多不足,還需進(jìn)一步深入研究。
2.1機(jī)器視覺診斷作物病害存在的問題
筆者查閱了大量文獻(xiàn),對目前常用的機(jī)器視覺識別作物病害的技術(shù)進(jìn)行了研讀,目前機(jī)器視覺識別作物病害的技術(shù)還不夠成熟,存在以下問題:
(1)在實驗室條件下計算機(jī)視覺診斷作物病害正確率高,但應(yīng)用到田間,難度較大,主要原因是大多研究是在簡單背景下、對少數(shù)幾種病害圖像診斷,而對大田復(fù)雜背景下診斷多種病害的研究還比較少。
(2)病害圖像分割背景簡單,對于自然狀態(tài)和復(fù)雜背景下的病害圖像分割有待進(jìn)一步的研究。
(3)因作物病斑的大小、顏色等圖像特征在不同時期有差異,對于某一發(fā)病時期建立的作物病害診斷系統(tǒng),用于不同發(fā)病時期診斷識別率會有所不同。
(4)許多分類算法和分類器都存在各自的優(yōu)缺點,不能適合所有作物病害識別,沒有統(tǒng)一的評價標(biāo)準(zhǔn),難以實現(xiàn)各診斷系統(tǒng)之間的客觀比較。
(5)不同研究者使用的病害圖像各不相同,難以比較不同。
(6)機(jī)器視覺診斷作物病還是少數(shù)專家對某類作物在局部范圍內(nèi)的研究,很難滿足現(xiàn)實生產(chǎn)的多種作物、不同區(qū)域同時診斷的要求。
2.2進(jìn)一步研究重點
根據(jù)以上存在的問題,今后的研究方向和重點為:
(1)機(jī)器視覺識別作物病害技術(shù)從實驗室向大田擴(kuò)展時,需綜合考慮所提取的病害圖像特征在復(fù)雜背景下的可獲取性、穩(wěn)定性、可操作性等。
(2)機(jī)器視覺診斷作物病害系統(tǒng)應(yīng)充分考慮不同發(fā)病時期,識別特征的變化規(guī)律。
(3)研究適合多種作物在復(fù)雜背景下實現(xiàn)病斑分割、特征提取等高效的圖像處理算法,在模式識別方面要側(cè)重于模糊數(shù)學(xué)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、組合優(yōu)化等理論與技術(shù)的研究。
(4)建立規(guī)范統(tǒng)一的作物病害圖像數(shù)據(jù)庫,圖像可普遍獲取,建立合理完善的病害分割、特征提取、病害種類識別等系統(tǒng),以及病害評價標(biāo)準(zhǔn)。
(5)模式識別病害中的算法需進(jìn)一步發(fā)展和優(yōu)化,建立統(tǒng)一的評判標(biāo)準(zhǔn),評價方法適合所有的識別算法和各應(yīng)用領(lǐng)域,采用定量和客觀評價準(zhǔn)則,可精確描述算法性能,評判應(yīng)擺脫人為因素。
參考文獻(xiàn):
[1]GEORGIEVA K, GEORGIEVA Y, DASKALOV D.Theoretical substantiation of model of system for evaluation a state of vine plants and taking a decision for plant protection activities[J]. Trakia Journal of Sciences (Series Social Sciences),2003,1:30-32.
[2]穗波信雄.圖像處理在植物生長信息提取中的應(yīng)用[R].日本:農(nóng)業(yè)機(jī)械學(xué)會關(guān)西支部研究會資,1992:63-46.
[3]SASAKI Y , OKAMOTO T. Automatic diagnosis of plantdisease-recognition between healthy and diseased leaf[J]. Journal of the Japanese Society of Agricultural Machinery,1999,61(2):119-126.
[4]陳佳娟,紀(jì)壽文,李娟,等.采用計算機(jī)視覺進(jìn)行棉花蟲害程度的自動測定[J].農(nóng)業(yè)工程學(xué)報,2001,17(2):157-160.
[5]賈浩.基于計算機(jī)視覺的玉米葉部病害識別技術(shù)研究[D]. 泰安:山東農(nóng)業(yè)大學(xué),2013.
[6]徐貴力,毛罕平,李萍萍,等.差分百分率直方圖法提取缺素葉片紋理特征[J].農(nóng)業(yè)機(jī)械學(xué)報,2003,34(2):76-79.
[7]李宗儒.基于圖像分析的蘋果病害識別技術(shù)研究[D].楊凌:西北農(nóng)林科技大學(xué),2010.
[8]姜武.模式識別技術(shù)在山茶屬植物數(shù)值分類學(xué)和葉綠素含量預(yù)測中的應(yīng)用研究[D]. 金華:浙江師范大學(xué),2013.
[9]王靜.基于圖像處理技術(shù)的煙葉病害自動識別研究[D]. 昆明:昆明理工大學(xué),2009.
[10]劉芝京.基于圖像處理的黃瓜細(xì)菌性角斑病的識別研究[D]. 成都:西華大學(xué).2012.
[11]趙進(jìn)輝,羅錫文,周志艷.基于顏色與形狀特征的甘蔗病害圖像分割方法[J].農(nóng)業(yè)機(jī)械學(xué)報,2008,39(9).
[12]管澤鑫,唐健,楊保軍,等.基于圖像的水稻病害識別方法研究[J].中國水稻科學(xué),2010,24(5):497~502.
[13]OTSU N A. Threshold selection method from gray-level histo-gram[J]. IEEE Trans Syst Man Cybenet, 1979, 15: 652-655.
[14]邵慶,張楠,路陽.小麥病害圖像識別處理及形狀特征提取研究[J].農(nóng)機(jī)化研究,2013,35(8):35-37.
[15]溫長吉,王生生,于合龍,等.基于改進(jìn)蜂群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的玉米病害圖像分割[J].農(nóng)業(yè)工程學(xué)報,2013,29(13):142-147.
[16]祁廣云,馬曉丹,關(guān)海鷗.采用改進(jìn)的遺傳算法提取大豆葉片病斑圖像[J].農(nóng)業(yè)工程學(xué)報.2009,25(5).
[17]毛罕平,張艷誠,胡波.基于模糊C均值聚類的作物病害葉片圖像分割方法研究[J].農(nóng)業(yè)工程學(xué)報.2008,24.
[18]張柏毅,朱景福,劉勇.基于模糊C-均值聚類的作物葉部病斑圖像分割[J].智能計算機(jī)與應(yīng)用.2011,3(10).
[19]張云飛.基于量子神經(jīng)網(wǎng)絡(luò)和組合特征參數(shù)的玉米葉部病害識別[J].南方農(nóng)業(yè)學(xué)報,2013,44(8):1286-1290.
[20]張芳.復(fù)雜背景下黃瓜葉部病害識別方法研究[D]. 沈陽:沈陽農(nóng)業(yè)大學(xué),2014.
[21]任玉剛,張建,李淼,等.基于分水嶺算法的作物病害葉片圖像分割方法[J].計算機(jī)應(yīng)用,2012,32(3):752-755.
[22]劉立波.基于圖像的水稻葉部病害診斷技術(shù)研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2010.
[23]濮永仙.基于支持向量機(jī)與多特征選擇的作物彩色病斑邊緣檢測[J].計算機(jī)應(yīng)用系統(tǒng),2014,9(23):118-123.
[24]石鳳梅,趙開才,孟慶林,等.基于支持向量機(jī)的水稻稻瘟病圖像分割研究[J].東北農(nóng)業(yè)大學(xué)學(xué)報,44(2):128-135.
[25]王美麗,牛曉靜,張宏鳴,等.小麥葉部常見病害特征提取及識別技術(shù)研究[J].計算機(jī)工程與應(yīng)用, 2014,50(7):154-157.
[26]蔡清,何東健.基于圖像分析的蔬菜食葉害蟲識別技術(shù)[J].計算機(jī)應(yīng)用, 2010,7(30):1870-1872.
[27]王克如.基于圖像識別的作物病蟲草害診斷研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2005.
[28]田有文,李天來,李成華,等.基于支持向量機(jī)的葡萄病害圖像識別方法[J].農(nóng)業(yè)工程學(xué)報,2007,23(6):175-179.
[29]李旺.基于圖像處理的黃瓜葉部病害識別研究[D]. 長沙:湖南農(nóng)業(yè)大學(xué),2013.
[30]柴洋,王向東.基于圖像處理的溫室大棚中番茄的病害識別[J].模式識別與仿真,2013,32(9):83-88.
[31]陳麗,王蘭英.概率神經(jīng)網(wǎng)絡(luò)在玉米葉部病害識別中的應(yīng)用[J].農(nóng)機(jī)化研究,2011,(6):145-148.
[32]彭占武.基于圖像處理和模式識別技術(shù)的黃瓜病害識別研究[D].長春:吉林農(nóng)業(yè)大學(xué),2007.
[33]濮永仙,余翠蘭.基于雙編碼遺傳算法的支持向量機(jī)作物病害圖像識別方法[J].貴州農(nóng)業(yè)科學(xué),2013,7(41)187-191.
[34]韓瑞珍.基于機(jī)器視覺的農(nóng)田害蟲快速槍測與識別研究[D].杭州:浙江大學(xué),2014.
[35]邊肇祺,張學(xué)工.模式識別[M].北京:清華大學(xué)出版社,2002:284-304.
[36]奉國和.基于聚類的大樣本支持向量研究[J].計算機(jī)科學(xué),2006,33(4):145-147.
[37]楊昕薇,譚峰.基于貝葉斯分類器的水稻病害識別處理的研究[J].黑龍江八一農(nóng)墾大學(xué)學(xué)報,2012,24(3):64-67.
[38]趙玉霞,王克如,白中英等.基于圖像識別的玉米葉部病害診斷研究[J].中國農(nóng)業(yè)科學(xué) 2007,40(4):698-703
[39]柴阿麗,李寶聚等.基于計算機(jī)視覺技術(shù)的番茄葉部病害識別[J].園藝學(xué)報,2010,37(9):1423-1430.
[40]Han Jiawei,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].第二版. 范明,孟小峰,譯.北京:機(jī)械工業(yè)出社,2007:251-306.
[41]賀鵬,黃林.植物葉片特征提取及識別[J].農(nóng)機(jī)化研究,2008(6):168-170.
[42]楊占華,楊燕.SOM神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展[J].計算機(jī)工程,2006,32(16):201-228.
[43]王軍英.基于BP神經(jīng)網(wǎng)絡(luò)的葡萄病害診斷系統(tǒng)研究[J].農(nóng)業(yè)信息網(wǎng),2013,8:30-33.
[44]譚克竹,沈維政.基于BP神經(jīng)網(wǎng)絡(luò)的大豆葉片病害診斷模型的研究[J].控制理論與應(yīng)用,2013,32(12):5-7.
[45]魏清鳳,羅長壽,曹承忠,等.基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害診斷模型研究[J].河南農(nóng)業(yè)科學(xué),2013,(9):4224-4227.
[46]BURGOS-ARTIST X P, RIBERA A, TELLAECHE A, et al. Improving weed pressure assessment using digital images from an experience-based reasoning approach [J]. Computers and Electronics in Agriculture, 2009, 65(2): 176-185.
[47] BURGES C J C. A tutorial on support vector machines for pattern recognition [J].Data Mining and Knowledge Discovery, 1998, 2(2):121-169.
[48]Steve R Gunn. Support vector machines for classification and regression [R].Southampton: University of Southampton, 1998:1-28.
[49]宋凱,孫曉艷,紀(jì)建偉.基于支持向量機(jī)的玉米葉部病害識別[J].農(nóng)業(yè)工程學(xué)報,2007,23(1):155-157.
[50]劉鵬,屠康,徐洪蕊,等.基于支持向量機(jī)的甜柿表面病害識別[J].現(xiàn)代食品科技,2011,27(3):349-353.
[51]田有文,牛妍.支持向量機(jī)在黃瓜病害識別中的應(yīng)用研究[J].農(nóng)機(jī)化研究,2009,(3):36-38.
[52]越鮮梅.基于圖像識別的向日葵葉部病害診斷技術(shù)研究[D].呼和浩特:內(nèi)蒙古工業(yè)大學(xué),2013.
1 項目基金:云南省科學(xué)研究基金子課題(2013Y571)。
作者簡介:濮永仙( 1976-),女,云南騰沖人,碩士,副教授,主要研究方向:機(jī)器視覺診斷作物病害,智能農(nóng)業(yè)方面的研究。
??
??
篇9
【關(guān)鍵詞】故障定位;差異分析;算法選擇
在日常生活中,電網(wǎng)的規(guī)模、容量及覆蓋范圍越大,由此導(dǎo)致的頻繁的故障停電現(xiàn)象就會給社會生產(chǎn)及人類生活帶來嚴(yán)重的經(jīng)濟(jì)損失。確保電力系統(tǒng)的安全、可靠、經(jīng)濟(jì)性, 避免事故的發(fā)生,是供電和用戶共同的愿望 。然而,只有通過準(zhǔn)確的定位故障, 才可阻隔并消除故障, 保證用戶供電安全。算法決定了故障定位的速度,鑒于輸電線路和配電網(wǎng)絡(luò)的結(jié)構(gòu)不一樣,選用的定位算法也會有所不同,實際工作中,要細(xì)分網(wǎng)絡(luò)自身的特點, 才能選擇科學(xué)的具體定位方法。
1 比較輸電線路和配電網(wǎng)路的特點
1.1 輸電網(wǎng)的結(jié)構(gòu)特點
輸電系統(tǒng)包括電壓等級為110kV 以上的高壓和超高壓輸電線路兩部分, 地充電電容對其影響明顯, 在實際中也要考慮這一因素。輸電線路中有導(dǎo)線換位,三相參數(shù)對應(yīng), 三相不平衡電流不會受影響。輸電線路與配電網(wǎng)絡(luò)相比, 它的拓?fù)浣Y(jié)構(gòu)更簡單,易于分析。輸電線路運用的是中性點直接接地方式, 發(fā)生單相接地故障時,可較快的測量出零序電流。
1.2 輸電網(wǎng)絡(luò)的故障特點
輸電網(wǎng)絡(luò)發(fā)生故障的概率不大。高壓輸電線路上以暫時性故障為主,巡線不容易找到故障位置。以前出現(xiàn)過暫時性故障的區(qū)域.復(fù)發(fā)故障的機(jī)會比較大, 可還可能發(fā)展為永久性故障。高壓輸電線路故障以桿塔處為頻發(fā)地點, 所以定位精度可以兩桿塔的間距為準(zhǔn)。
1.3 配電網(wǎng)的結(jié)構(gòu)特點
配電網(wǎng)電壓等級在110kV 及以下,對于配網(wǎng)架空線路來說,對地充電電容較小, 通常情況下不予考慮地電容電流。不過對于地下配電電纜來說,電容電流卻是重要因素。配電網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)較為復(fù)雜,分支線、子分支線多,中間還存在負(fù)荷, 負(fù)荷性質(zhì)也有所不同 ,這使得合理定位配網(wǎng)的故障的任務(wù)更加艱難。配電網(wǎng)電壓等級不同,其中性點接地方式也會不一樣, 改變接地方式會對定位的影響也會更明顯。
1.4 配電網(wǎng)的故障特點
配電網(wǎng)發(fā)生故障的比輸電網(wǎng)要大的多, 超過95%的用戶出現(xiàn)停電現(xiàn)象的原因都是因為配網(wǎng)故障。配電網(wǎng)設(shè)備分布不夠集中, 信號采集難度大,信號傳輸過程中,由于距離遠(yuǎn)而畸變的概率增大。配電網(wǎng)的故障及操作頻率均比較高,其運行方式和網(wǎng)絡(luò)拓?fù)涫冀K處于變化狀態(tài); 此外, 配電網(wǎng)采用閉環(huán)設(shè)計開環(huán)運行方式, 一旦設(shè)備出現(xiàn)短暫的閉環(huán)運行,故障定位就會更加困難。
2 故障定位技術(shù)在輸電網(wǎng)和配電網(wǎng)中的應(yīng)用
科技水平不斷提高的狀態(tài)下,電網(wǎng)也趨向于智能化發(fā)展,其對電力系統(tǒng)故障定位也提出了更高的要求。如電力系統(tǒng)發(fā)生故障, 就必須故障區(qū)段進(jìn)行迅速定位, 隔離并切除故障, 使供電恢復(fù)正常,同時降低了事故帶來的影響。科研人員一直在研究電力系統(tǒng)故障定位方法,但輸電網(wǎng)絡(luò)和配電網(wǎng)兩者間存在差異,定位算法也不同, 在實際工作中,網(wǎng)絡(luò)的特點也是值得考慮的因素之一。
2.1 基于阻抗法的故障定位
阻抗法以基波電氣量為基礎(chǔ),通過建立電壓平衡方程, 利用數(shù)值分析的方法獲得故障點到測量的阻抗, 再通過該阻抗找出故障點。阻抗法主要包括單端和雙端兩種, 單端法精度較低。配電網(wǎng)網(wǎng)絡(luò)拓?fù)漭^亂,沿線還存在中間負(fù)荷, 因此用這種方法進(jìn)行定位時,難度會比較大, 另外單端法通常以當(dāng)個或多個假設(shè)為基礎(chǔ), 比較容易脫離實際,受過度電阻、負(fù)荷電流等影響程度也較大,誤差也就在所難免;阻抗法主要用于定位輸電網(wǎng)的故障,在綜合分支線及負(fù)荷電流變化等因素對該定位算法加以修正, 其定位就會更加準(zhǔn)確。
2.2 基于行波法的故障定位
行波法所采取的方式主要為:分析故障行波中包含的故障點的信息,來確定故障發(fā)生地。行波法可分為單端法和雙端法兩種,雙端法定位精度更為準(zhǔn)確,在測距時用的比較多。行波法排除了故障類型和過渡電阻的干擾,定位速度及精度都比較高。輸電網(wǎng)線路的結(jié)構(gòu)較為簡單, 采集也更好采集, 這給行波定位帶來了方便。阻抗法近端測距準(zhǔn)確度較高, 所以在實際工作中,輸電線路通常會將兩者進(jìn)行結(jié)合和互補(bǔ)來定位故障。
2.3 基于智能算法的故障定位法
智能理論一直都在發(fā)展和成熟中,這種算法在定位電力系統(tǒng)的故障時也有了一定的運用。
2.3.1 基于專家系統(tǒng)的故障定位
專家系統(tǒng)也是故障定位的重要方法。它主要包括知識庫、用戶界面、推理機(jī)等組成部分。其中推理機(jī)是專家系統(tǒng)模型的中心部分。這種方式是將獲得的故障信息與知識庫中的信息來做比較, 運用推理機(jī)進(jìn)行推理, 最終確定發(fā)生故障的位置。盡管專家系統(tǒng)可以像故障診斷專家那樣,實現(xiàn)故障定位目的, 但針對該系統(tǒng)中沒有的故障類型就無法做出定位。
2.3.2 基于人工神經(jīng)的故障定位
人工神經(jīng)網(wǎng)絡(luò)有個很明顯的特點:利用人工神經(jīng)元及其鏈接秘密性解決問題, 具備學(xué)習(xí)及容錯能力,其執(zhí)行效率較高。鑒于人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢所在,國內(nèi)外不少學(xué)者用這種方法來深入研究和定位配電網(wǎng)故障。不過這種還是存在其不足, 針對不同的拓?fù)浣Y(jié)構(gòu), 神經(jīng)網(wǎng)絡(luò)所要求的學(xué)習(xí)算法也是不同的, 這就需要對其加強(qiáng)訓(xùn)練。
2.3.3 基于其他智能算法的故障定位
以上兩種智能算法是常見方法,除此以外,遺傳算法和模糊算法也是電網(wǎng)故障定位中較為實用的方法。以遺傳算法為基礎(chǔ)的電網(wǎng)故障定位主要運用自動化系統(tǒng)來供應(yīng)實時信息, 對電網(wǎng)發(fā)生故障的區(qū)域?qū)嵭卸ㄎ弧T摲椒ㄖ饕玫降氖沁m應(yīng)度函數(shù), 通過計算適應(yīng)度來獲得答案。這種方法在電力系統(tǒng)中用的比較多, 發(fā)展前景也是可觀的。模糊理論是以類乎推理的模糊邏輯為基礎(chǔ), 擁有一套完整的推理體系。通過建立設(shè)備隸屬度函數(shù), 找到適當(dāng)?shù)拈_斷設(shè)備, 最終定位故障區(qū)域。
3 結(jié)語
總之,盡管定位方法較多,但各有其優(yōu)缺點,在科技不斷進(jìn)步的同時, 定位算法中出現(xiàn)的問題也要適時解決, 才能為電力系統(tǒng)故障定位打下基礎(chǔ)。在實際工作中,要根據(jù)輸電網(wǎng)和配電網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)和特點, 各自來選擇適當(dāng)?shù)亩ㄎ凰惴ǎ苟ㄎ唤Y(jié)果更為科學(xué)。
參考文獻(xiàn):
[1]徐青山.電力系統(tǒng)故障診斷及故障恢復(fù)[M].北京:中國電力出版社,2007.
[2]王東舉,周浩.高壓輸電線路故障定位綜述[J].電氣應(yīng)用,2007, 26(4) .
篇10
[關(guān)鍵詞]搜索引擎 主題爬行 爬行策略 爬行算法
[分類號]TP391
搜索引擎技術(shù)自誕生之日起就成為互聯(lián)網(wǎng)中最吸引人的技術(shù)之一,各種商業(yè)化的搜索引擎已經(jīng)成了人們使用互聯(lián)網(wǎng)時不可缺少的工具。傳統(tǒng)搜索引擎的工作原理是服務(wù)提供商利用網(wǎng)絡(luò)爬蟲(Web crawler,也被稱作網(wǎng)絡(luò)蜘蛛(Web spider)或網(wǎng)絡(luò)機(jī)器人(robot),通過一些種子站點按照深度優(yōu)先或者廣度優(yōu)先的搜索策略對可以爬行到的資源進(jìn)行掃描、下載,并將下載的信息以快照或全文方式存儲在數(shù)據(jù)庫中,建立相關(guān)索引,當(dāng)用戶在搜索引擎的用戶界面中輸入搜索關(guān)鍵字后,搜索引擎訪問數(shù)據(jù)庫,返回數(shù)據(jù)庫中與搜索關(guān)鍵字匹配的紀(jì)錄。隨著互聯(lián)網(wǎng)中網(wǎng)頁資源的快速增長,傳統(tǒng)的搜索引擎在某些方面的缺陷也越來越明顯:①搜索結(jié)果不夠全面。傳統(tǒng)搜索引擎希望鏡像整個Web世界,搜索引擎追求的是盡量多的處理及存儲網(wǎng)絡(luò)爬蟲爬回的網(wǎng)頁,但不同的搜索引擎由于受到服務(wù)器位置、網(wǎng)絡(luò)帶寬、爬行算法、服務(wù)器容量等因素的影響,服務(wù)器中存儲的資源是有限的,任何一個搜索引擎不可能存儲并索引網(wǎng)絡(luò)上所有的網(wǎng)頁信息。即使是全球最大的搜索引擎Google,其索引的頁面數(shù)量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實效性。隨著Web資源的快速增長,傳統(tǒng)搜索引擎網(wǎng)絡(luò)爬蟲的爬行周期不斷增加,數(shù)據(jù)庫更新時間越來越長。每一個網(wǎng)頁都有自己的生命周期,網(wǎng)頁的更新速度可能會快于搜索引擎數(shù)據(jù)庫的更新速度,當(dāng)搜索引擎把數(shù)據(jù)庫中已經(jīng)過期的信息反饋給用戶時,用戶可能根本無法打開相關(guān)鏈接或者打開的是過期的網(wǎng)頁。③搜索結(jié)果的針對性不強(qiáng)。用戶輸入一個關(guān)鍵字后返回很多結(jié)果,但存在大量重復(fù),很多結(jié)果并不是用戶需要的。通過對歐洲和美國9個主要的搜索引擎日志的統(tǒng)計分析,認(rèn)為用戶對于搜索結(jié)果的查看呈減少趨勢。普通用戶僅僅會察看搜索引擎返回的前若干條數(shù)據(jù),對于其他搜索結(jié)果,很多用戶沒有耐性全部看完。不同專業(yè)背景的人,對于同一個關(guān)鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產(chǎn)品。
鑒于傳統(tǒng)搜索引擎的這些缺陷,一些學(xué)者提出了垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁面為目標(biāo),僅僅在互聯(lián)網(wǎng)中快速爬行某一部分Web頁面并存儲,這樣的搜索引擎既可以節(jié)約網(wǎng)絡(luò)帶寬資源,又可以縮短搜索引擎數(shù)據(jù)庫的更新周期,使搜索引擎得到實時性更好的網(wǎng)頁。De Bra等最先提出的主題爬行(topic crawling)搜索引擎通過限定爬行主題,提高了搜索精度,成為垂直式搜索引擎的代表。主題爬行技術(shù)的核心是爬行策略與算法,本文從主題爬行技術(shù)的基本原理出發(fā),對其策略進(jìn)行分類,沿著爬行策略及算法的改進(jìn),分析了主題爬行策略與算法的研究熱點,為主題爬行技術(shù)的進(jìn)一步研究提供參考。
1 主題爬行原理
主題爬行是在傳統(tǒng)網(wǎng)絡(luò)爬行技術(shù)基礎(chǔ)上,加入文本分類、聚類以及Web挖掘等相關(guān)技術(shù)用于捕獲特定主題的Web信息。主題爬行技術(shù)的應(yīng)用可以提高搜索精度,降低搜索引擎對網(wǎng)絡(luò)資源的占用,縮短搜索引擎數(shù)據(jù)庫的更新周期。基于主題爬行技術(shù)的搜索引擎與傳統(tǒng)搜索引擎最大的區(qū)別在于:該搜索引擎的網(wǎng)絡(luò)爬蟲是面向主題的。傳統(tǒng)搜索引擎的網(wǎng)絡(luò)爬蟲在爬行過程中采用的是“通吃”策略,不分類別、不分內(nèi)容全部爬行并下載;基于主題的網(wǎng)絡(luò)爬蟲在爬行前或者爬行過程中根據(jù)已經(jīng)爬行的結(jié)果有選擇性的進(jìn)行預(yù)測下一步爬行并下載。
主題爬行過程通常由三部分構(gòu)成:①分類器(clas―sifter),主要對已抓取網(wǎng)頁的元素進(jìn)行計算,判斷其主題相關(guān)度,確定是否對該網(wǎng)頁中所包含的超級鏈接進(jìn)一步抓取;②提取器(distilIer),該模塊存儲待下載隊列,并確定待下載隊列的優(yōu)先級;③爬行器(crawler),該模塊在分類器和提取器的指導(dǎo)下,執(zhí)行網(wǎng)頁抓取工作。主題爬蟲的爬行過程為爬行器根據(jù)不同的爬行策略執(zhí)行爬行操作,抓取網(wǎng)頁送人分類器中,分類器對已經(jīng)抓取的網(wǎng)頁進(jìn)行處理,根據(jù)設(shè)定主題及其域值判斷該網(wǎng)頁的主題相關(guān)性,結(jié)合其他參數(shù),確定是否對該網(wǎng)頁包含的超級鏈接進(jìn)一步爬行。如果爬行,則送入提取器中的隊列,由提取器根據(jù)隊列規(guī)則確定其爬行優(yōu)先極。Chakrabarti等人 1999年正式提出了個性化主題搜索引擎的概念,該搜索引擎不以傳統(tǒng)的關(guān)鍵詞作為搜索內(nèi)容,而是在某一限定范圍內(nèi),通過計算Web頁面內(nèi)容與主題的相關(guān)性,決定主題爬蟲是否值得進(jìn)一步搜索。其中,主題是由一些范例文檔來確定的,該主題爬蟲實時查找與文檔詞典有相關(guān)性的網(wǎng)頁,保證了搜索頁面的時效性與針對性。
2 主題爬行基本爬行策略與算法
主題爬行技術(shù)的核心是爬行的策略與算法,由于主題爬蟲與傳統(tǒng)網(wǎng)絡(luò)爬蟲在爬行目標(biāo)上有很大差別,因此,除了采用傳統(tǒng)網(wǎng)絡(luò)爬蟲的爬行策略之外,主題爬蟲在爬行過程中還要采用有效爬行策略與算法盡快爬到并抓取與主題相關(guān)的網(wǎng)頁。Sotiris Batsakis等人將主題爬行策略分成三類:經(jīng)典主題爬行策略、改進(jìn)的主題爬行策略、基于語義的主題爬行策略。經(jīng)典爬行策略主要指主題爬行的“魚群搜索策略”(fish search),改進(jìn)的主題爬行策略主要指“鯊魚搜索策略”(sharksearch)、“最優(yōu)最先(best first)搜索策略”等。
魚群搜索策略是以“魚群搜索算法”(fish algo―rithm)為基礎(chǔ)的主題爬行策略,魚群搜索算法是一種基于群體動物行為的智能優(yōu)化算法,該算法模仿魚群在覓食和繁殖時的表現(xiàn),動態(tài)調(diào)整種群的個數(shù)。在魚群搜索策略中,每個網(wǎng)頁相當(dāng)于一條魚,如果遇到滿足給定條件的相關(guān)網(wǎng)頁,則該魚繁殖小魚,并對該網(wǎng)頁發(fā)出的鏈接進(jìn)一步探索;否則食物減少,如果一條魚的食物減為零,則該魚將停止尋食并放棄對該鏈接的爬行。魚群搜索策略中某一超級鏈接是否放人提取器中待下載,取決于該鏈接的父鏈接與主題的相關(guān)性。關(guān)于待下載鏈接與主題的相關(guān)性,De Bra L”提出了通過比較已下載網(wǎng)頁內(nèi)容與主題關(guān)鍵字是否匹配,引入二元分類方法(1代表相關(guān),O代表不相關(guān))來計量相關(guān)性。
改進(jìn)的主題爬行策略是基于魚群搜索策略基礎(chǔ)的改進(jìn),Hersoviei M”。提出采用向量空間模型(vectorspace model)來計量相關(guān)性,向量空間模型不以整數(shù)0、1來計量相關(guān)性,而是通過多個參數(shù)比較,采用O一1之間的實數(shù)來計量。該方法除了用已下載網(wǎng)頁內(nèi)容和主題關(guān)鍵詞是否簡單匹配來判斷相關(guān)性,還通過計算
錨文本(anchor)等其他參數(shù)與主題的相關(guān)性來計量。這種改進(jìn)的搜索策略比魚群搜索策略在爬行的準(zhǔn)確率(precision rate)和召回率(recall rate)上有很大的進(jìn)步,該搜索策略被稱之為“鯊魚搜索策略”(shark search)。在“鯊魚搜索策略”中,已下載網(wǎng)頁中頁面內(nèi)容、錨文本內(nèi)容、鏈接內(nèi)容(URL)及父頁(指向包含鏈接頁面的Web頁)的相關(guān)性等都作為主要參數(shù)用來計量待下載網(wǎng)頁與主題的相關(guān)性,通過計算確定待下載網(wǎng)頁是否進(jìn)人提取器隊列中。關(guān)于參數(shù)向量的選擇,Cho J等提出了重要度向量,該重要度向量由幾個部分構(gòu)成:①已下載頁面逆文獻(xiàn)頻率法(inverse document frequency,IDF)的關(guān)鍵詞相關(guān)度;②已下載Web頁的重要鏈接指向個數(shù)(backlink count);③已下載頁面指向鏈接的重要度值(pagerank);⑧URL位置矩陣(10cation metrics)等四個參數(shù)作為衡量相關(guān)性的向量。
隨著研究的不斷深入,“鯊魚搜索策略”也不斷完善,該方法中向量空間模型的參數(shù)越多,相關(guān)性計量越準(zhǔn)確,但參數(shù)增加使計算量也隨之增加,因此,過多的參數(shù)對爬行速度有一定影響。但Zhumin Chen等”。對各種主題爬蟲的運行時間進(jìn)行了實驗分析比較,該學(xué)者認(rèn)為,相對于網(wǎng)絡(luò)中的下載等待時間來說,相關(guān)性計算的時間很少,有時甚至不到下載時間的十分之一,因此頁面相關(guān)性的計算對爬行速度的影響是可以忽略的。在“鯊魚搜索策略”的基礎(chǔ)上,Menczer F等提出了“最優(yōu)最先”(best first)搜索策略,這一策略通過計算向量空間的相關(guān)性,把相關(guān)性“最好”的頁面放入最優(yōu)先下載的隊列,另外,“最優(yōu)最先”搜索策略采用了術(shù)語頻度(TF)值計算文本相似度,減少了部分計算量。根據(jù)文獻(xiàn),由于只選擇與主題相關(guān)性很大的鏈接,而忽略某些當(dāng)前相關(guān)性不高但下級鏈接中包含很高相關(guān)性鏈接的網(wǎng)頁,最優(yōu)最先算法具有很大的貪婪性,該算法只能找到局部范圍內(nèi)的最優(yōu)解,難以得到全局范圍內(nèi)的最優(yōu)解。因此,該搜索策略只適用于小范圍內(nèi)的主題爬行,對于大范圍的主題爬行,容易過早地陷入Web空間中局部最優(yōu)子空間的陷阱。
作為一種有效表現(xiàn)概念層次結(jié)構(gòu)和語義的模型,本體論(ontology)被廣泛地應(yīng)用到計算機(jī)科學(xué)的眾多領(lǐng)域。美國斯坦福大學(xué)的知識系統(tǒng)實驗室學(xué)者TomGruber提出了本體是概念化的顯式表示,Studer在Gruber的基礎(chǔ)上擴(kuò)展了本體的概念,提出本體是共享概念模型的明確形式化規(guī)范說明。本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,可以解決信息源之間結(jié)構(gòu)和語義的異構(gòu),W3C在2004年提出了Web本體語言(Web ontology language,OWL)的標(biāo)準(zhǔn)。基于本體的網(wǎng)絡(luò)爬蟲認(rèn)為概念上使用相似術(shù)語的頁面應(yīng)具有一定的相關(guān)性。M.Ehrig等學(xué)者將本體應(yīng)用于主題爬蟲的分離器中,首先通過定義術(shù)語的相關(guān)性,建立本體術(shù)語集合,通過對已下載網(wǎng)頁處理并對本體庫的比較分析,計算其相關(guān)性,確定是否將待下載鏈接放入分離器,提高了主題爬行的準(zhǔn)確度與召回率。Jason J.Jung提出基于語義主題爬行的開放式?jīng)Q策支持系統(tǒng),該開放系統(tǒng)主要包括基于上下文語義的主題爬蟲通過域內(nèi)鏈接進(jìn)行區(qū)域內(nèi)知識發(fā)現(xiàn)及知識的處理,為開放式?jīng)Q策支持系統(tǒng)迅速提供知識。基于語義的主題爬行技術(shù)中,本體庫的構(gòu)建及完善是一項復(fù)雜的工作,因此應(yīng)用范圍有限。
3 爬行策略與爬行算法的改進(jìn)
雖然魚群搜索策略、鯊魚搜索策略、最優(yōu)最先搜索策略是主題爬蟲常用的搜索策略,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)的多樣性及復(fù)雜性,很多學(xué)者在主題爬行算法中嘗試采用其他的搜索算法實現(xiàn)較高準(zhǔn)確率與召回率。相繼提出了采用模糊算法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集理論等方法指導(dǎo)主題爬蟲的爬行過程。
作為最優(yōu)最先搜索策略的改進(jìn),李學(xué)勇等采用模擬退火算法作為爬行的啟發(fā)式搜索算法,與爬行中的“隧道技術(shù)”結(jié)合改進(jìn)主題爬蟲。模擬退火算法從某一較高初溫出發(fā),伴隨溫度參數(shù)的不斷下降,結(jié)合概率突跳特性在解空間中隨機(jī)尋找目標(biāo)函數(shù)的全局最優(yōu)解。該算法在選擇優(yōu)化解方面具有非貪婪性,在爬蟲搜索過程中,每次除了選擇評價值最優(yōu)的鏈接,還以一定概率有限度地接收評價值次優(yōu)的鏈接,確保有一定價值的鏈接有機(jī)會被選中。“隧道技術(shù)”使爬蟲有機(jī)會穿過相關(guān)性低的區(qū)域進(jìn)入相關(guān)性高的區(qū)域,當(dāng)頁面內(nèi)容的相關(guān)度低于設(shè)定的閾值時,通過擴(kuò)大主題范圍,使更多的相關(guān)鏈接加入到鏈接優(yōu)先級隊列,提高相關(guān)網(wǎng)頁的召回率。模擬退火算法是一種隨機(jī)算法,雖然可以比較快地找到問題的近似最優(yōu)解,但不一定能找到全局的最優(yōu)解。因此,將模擬退火算法應(yīng)用于最優(yōu)最先搜索策略并不能完全保證主題爬行的魯棒性。
遺傳算法(genetic algorithm)是模擬生物進(jìn)化論與遺傳學(xué)結(jié)合的計算模型,在最優(yōu)解搜索領(lǐng)域具有一定優(yōu)勢,自從密西根大學(xué)的Holland教授提出該算法后,由于其魯棒性、自組織性強(qiáng)等優(yōu)點,在很多方面有廣泛的應(yīng)用。Jialun Qin等學(xué)者采用遺傳算法實現(xiàn)主題爬蟲在特定域內(nèi)的爬行,通過初始化、內(nèi)容分析選擇、鏈接分析雜交、變異等幾個步驟實現(xiàn)主題爬蟲在特定域內(nèi)的爬行。根據(jù)文獻(xiàn),該算法的應(yīng)用在某些Web頁的主題爬行中具有較好的準(zhǔn)確率與召回率。遺傳算法應(yīng)用于主題爬行技術(shù)中存在編碼方式的確定、適應(yīng)性函數(shù)的確定等問題,由于網(wǎng)站結(jié)構(gòu)、網(wǎng)頁類型的不同需要采取不同的標(biāo)準(zhǔn)。遺傳算法也存在局部最優(yōu)陷阱問題,單純使用遺傳算法進(jìn)行主題爬行時也會存在無法穿越隧道的問題。
隱馬爾柯夫模型(HMM)作為一種統(tǒng)計分析模型,在信號識別等領(lǐng)域有廣泛的應(yīng)用,隱馬爾柯夫鏈在相關(guān)性評估應(yīng)用中具有一定優(yōu)勢。Hongyu Liu等提出基于隱馬爾柯夫模型的算法來評估待下載頁面與主題之間的相關(guān)性。該系統(tǒng)包括三個步驟:①進(jìn)行數(shù)據(jù)收集;②依據(jù)相關(guān)性模式建模;③根據(jù)模型對待下載頁面評估并進(jìn)行主題爬行。該算法的應(yīng)用可以提高主題爬蟲在分離器中的處理精度,但由于計算量的增加,會降低處理效率。
人工神經(jīng)網(wǎng)絡(luò)近來日益受到人們的關(guān)注,因為它特有的非線性、自適應(yīng)性、自學(xué)習(xí)性為解決復(fù)雜問題提供了一種相對比較有效的簡單方法。Hai-Tao Zhengr提出采用基于本體的人工神經(jīng)網(wǎng)絡(luò)(ANN)實現(xiàn)自學(xué)習(xí)爬行,系統(tǒng)框架分為三個步驟:①進(jìn)行數(shù)據(jù)準(zhǔn)備;②通過現(xiàn)有的數(shù)據(jù)集對人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)l練;③將訓(xùn)練過的主題爬蟲應(yīng)用于實際爬行,取得較高的準(zhǔn)確率與召回率。人工神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練時間長、學(xué)習(xí)算法的通用性低等缺點,所以,將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于主題爬行中,也存在樣本學(xué)習(xí)時間長,學(xué)習(xí)算法不具有通用性等缺點。因此,人工神經(jīng)網(wǎng)絡(luò)僅僅適用于小范圍的主題爬行。
除以上算法的改進(jìn),很多學(xué)者還嘗試采用其他計
算方法改善主題爬蟲的搜索性能,Suman Saha等。應(yīng)用粗集理論對未下載的Web頁面進(jìn)行預(yù)測,判斷其與主題相關(guān)性,該方法提高了爬行頁面的準(zhǔn)確率,降低了噪聲。Huaxiang Zhang等提出利用Q學(xué)習(xí)及在線半監(jiān)督學(xué)習(xí)理論在待訪問的URL列表中選擇與主題最相關(guān)的URL,相關(guān)值的計算基于模糊理論及Q值理論。
雖然很多學(xué)者嘗試通過不同的軟計算方法改進(jìn)主題爬蟲,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)與網(wǎng)站內(nèi)容多樣復(fù)雜,這些算法往往應(yīng)用于某些網(wǎng)站時具有較高的準(zhǔn)確率與召回率,但是應(yīng)用于另一些網(wǎng)站時準(zhǔn)確率與召回率會下降。主題爬蟲的準(zhǔn)確率與召回率除了受網(wǎng)站結(jié)構(gòu)、主題爬蟲的爬行策略與算法等因素的影響,還受爬行入口位置、Web服務(wù)器性能等其他相關(guān)因素影響。
4 主題爬行策略與算法的研究熱點
鑒于主題爬行技術(shù)的不斷發(fā)展,主題爬行策略及算法也在不斷完善。目前關(guān)于主題爬行策略與算法的研究主要集中于以下幾個方面:①爬行策略與爬行算法的通用性研究。互聯(lián)網(wǎng)中不同類型網(wǎng)站的網(wǎng)頁間組織形式相差很大,如何從已經(jīng)下載的網(wǎng)頁中高效、準(zhǔn)確地判斷待下載頁面與主題的相關(guān)性,并根據(jù)相關(guān)性修改下載隊列,是主題爬行技術(shù)能否成功的關(guān)鍵。目前主要通過修改爬行策略及利用各種軟計算方法來實現(xiàn),但很多時候?qū)τ谀承┚W(wǎng)站具有很高的召回率和準(zhǔn)確率的方法,對于另一些網(wǎng)站可能并不適用。主題爬行的準(zhǔn)確率與召回率有時候與種子URL的起始位置等其他相關(guān)因素有很大關(guān)系。②“隧道技術(shù)”的研究。很多時候主題爬蟲需要穿過若干個與爬行主題相關(guān)性很低的頁面后才會發(fā)現(xiàn)一組與主題相關(guān)性很高的頁面群,穿越中間相關(guān)性很低的頁面需要隧道技術(shù),如何實現(xiàn)隧道穿越、提高主題爬行準(zhǔn)確度是目前很多學(xué)者研究的內(nèi)容。③對于深度Web(deep Web)資源爬行策略的研究。許多深度Web資源存放在數(shù)據(jù)庫中,這些數(shù)據(jù)庫的訪問需要用戶名、密碼等信息,目前常采用半人工輔助方法使主題爬蟲訪問數(shù)據(jù)庫,如何快速、自動地發(fā)現(xiàn)這些數(shù)據(jù)庫并訪問這些深度Web資源,也是當(dāng)前主題爬行技術(shù)的研究熱點。
熱門標(biāo)簽
人工智能論文 人工智能技術(shù) 人工智能專業(yè) 人工智能 人工智能課程 人工智培訓(xùn) 人工流產(chǎn) 人工智能教育 人工授精 人工神經(jīng)網(wǎng)絡(luò) 心理培訓(xùn) 人文科學(xué)概論