移動(dòng)通信預(yù)警算法和系統(tǒng)研究

時(shí)間:2022-01-15 03:40:26

導(dǎo)語:移動(dòng)通信預(yù)警算法和系統(tǒng)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

移動(dòng)通信預(yù)警算法和系統(tǒng)研究

1概述

在設(shè)備網(wǎng)管沒有告警產(chǎn)生,故障點(diǎn)往往比較隱蔽而難以定位,在這種情況下,核查相關(guān)的統(tǒng)計(jì)指標(biāo)和數(shù)據(jù),分析指標(biāo)的變化,是故障定位的重要手段。

2詳細(xì)技術(shù)內(nèi)容

2.1算法詳細(xì)說明

軟件異常通常只產(chǎn)生的系統(tǒng)內(nèi)部,由此導(dǎo)致的嚴(yán)重故障,通常不會(huì)在系統(tǒng)表面狀態(tài)上有所體現(xiàn)。但是網(wǎng)元運(yùn)行時(shí)的任何情況,總會(huì)反映在其內(nèi)部的一些指標(biāo)中。通過分析這些指標(biāo)的異動(dòng),任何隱性故障都難逃監(jiān)控。因此,其關(guān)鍵就在于指標(biāo)的選取和門限值的設(shè)定。移動(dòng)通信話音核心網(wǎng)的指標(biāo)體系,最能夠體現(xiàn)設(shè)備運(yùn)行異常的指標(biāo)有以下兩類:試呼次數(shù)、話務(wù)量,這些數(shù)量累積類的指標(biāo)。(1)話務(wù)量,這個(gè)指標(biāo)最直觀反映了設(shè)備處理業(yè)務(wù)的情況。當(dāng)設(shè)備工作在異常情況下,它處理的話務(wù)量肯定是偏低的。(2)試呼次數(shù),當(dāng)設(shè)備運(yùn)行異常時(shí),相應(yīng)的其中一個(gè)或者幾個(gè)類型對于的試呼次數(shù)就會(huì)發(fā)生突變。比如說,某節(jié)點(diǎn)發(fā)生異常影響呼叫接續(xù)時(shí),導(dǎo)致大量用戶反復(fù)撥打手機(jī),此時(shí)這個(gè)指標(biāo)就會(huì)發(fā)生激增。絕大多數(shù)的軟件故障都會(huì)出現(xiàn)這種情況。不同層次網(wǎng)元的試呼次數(shù)可以聯(lián)合分析,比如MSCSERVER和BSC試呼次數(shù),能夠更加精準(zhǔn)的定位到故障是出在接入層網(wǎng)元還是在核心網(wǎng)元。成功率等指標(biāo):最典型的各個(gè)接口信令連接建立的成功率。比如所VOIP的核心網(wǎng),MGW的Nb口建立成功率。Nb口建立連接,是呼叫建立的最后一步。MGW上所發(fā)生影響呼叫接續(xù)的任何異常,在這個(gè)指標(biāo)都能夠有所體現(xiàn)。Mc和Nc接口SCTP重傳率,反應(yīng)了軟交換網(wǎng)絡(luò)IP通道傳輸質(zhì)量。當(dāng)成功率偏低時(shí),表示IP接口板或者承載網(wǎng)本身出了問題。位置更新、尋呼成功率,反應(yīng)了應(yīng)用層協(xié)議的狀況。網(wǎng)元運(yùn)行時(shí)產(chǎn)生任何較嚴(yán)重的異常,在這些監(jiān)控對象中都會(huì)得到清晰的體現(xiàn)。而且,不考慮一般故障,也使得該監(jiān)控體系內(nèi)容比較精簡。它能大幅度減少信息采集的數(shù)量,間接縮短了后臺(tái)程序的分析數(shù)據(jù)時(shí)間,因此實(shí)時(shí)性更加好。為了快速設(shè)備故障,還引入了運(yùn)行狀態(tài)預(yù)警。所選取的對象,應(yīng)該能夠準(zhǔn)確反映網(wǎng)元運(yùn)行的情況;同時(shí)為了效率,提高算法的實(shí)時(shí)性,監(jiān)測對象不應(yīng)該包含那些不太重要的狀態(tài)。監(jiān)測對象包括:計(jì)費(fèi)指針、負(fù)荷、軟件錯(cuò)誤記錄、連接狀態(tài)、路由擁塞、重要事件、Mc接口狀態(tài)、A口路由設(shè)備占用、SC-CP與MTP信令狀態(tài)等等。這些狀態(tài)不但體現(xiàn)了網(wǎng)元本身處理業(yè)務(wù)的關(guān)鍵能力,而且還反映了設(shè)備與其它網(wǎng)元通信的情況。任何一個(gè)狀態(tài)的不正常,都將可能會(huì)使業(yè)務(wù)受到影響。分析算法按照各個(gè)狀態(tài)的重要程度,按照如下順序進(jìn)行分析:軟件錯(cuò)誤恢復(fù)記錄->計(jì)費(fèi)情況->Mc接口狀態(tài)->M3UA信令鏈狀態(tài)->IP和MAC層協(xié)議狀態(tài)->SCCP與MTP信令狀態(tài)->A口路由設(shè)備占用->負(fù)荷->路由擁塞狀況->重要事件。雖然有先后次序,但程序仍然會(huì)以整體性的視角來,歸納各個(gè)狀態(tài)分析后的結(jié)果,找出其共性、內(nèi)在聯(lián)系,準(zhǔn)確的對網(wǎng)絡(luò)異常作出預(yù)警。

2.2系統(tǒng)架構(gòu)

系統(tǒng)采用典型的三層結(jié)構(gòu),采集層、服務(wù)層、應(yīng)用層。(1)采集層負(fù)責(zé)通過定制OPS任務(wù),連接網(wǎng)元采集數(shù)據(jù);獲取存放在OSS服務(wù)器上網(wǎng)元性能統(tǒng)計(jì)文件。(2)服務(wù)層有兩個(gè)主要功能;解析采集的數(shù)據(jù),生成原始告警;進(jìn)行告警聚類劃分;使用智能預(yù)警算法,智能定位到故障源網(wǎng)元、故障主節(jié)點(diǎn),生成預(yù)警信息。(3)應(yīng)用層主要實(shí)現(xiàn)預(yù)警信息的短信推送,同時(shí)也提供歷史告警查詢、短信發(fā)送名單定制等功能。系統(tǒng)可以預(yù)警的故障類型:系統(tǒng)運(yùn)行時(shí),能夠準(zhǔn)確、及時(shí)的預(yù)警出各種硬件、軟件、局?jǐn)?shù)據(jù)故障,以及用戶行為導(dǎo)致的網(wǎng)絡(luò)異常。(1)硬件類:包括各種影響業(yè)務(wù)的嚴(yán)重故障。(2)軟件類:包括各種軟件原因引起的,導(dǎo)致網(wǎng)元不能正常處理話務(wù)的故障。比如說處理呼叫接續(xù)模塊異常、重要資源吊死、任務(wù)隊(duì)列溢出、內(nèi)存擁塞、負(fù)責(zé)建立承載的模塊異常、主備板不能倒換等等。(3)局?jǐn)?shù)據(jù)類:包括各種參數(shù)配置不當(dāng)引起的錯(cuò)誤,導(dǎo)致業(yè)務(wù)受到影響的情況。比如說MTP/SCCP緩沖區(qū)設(shè)置得太小,導(dǎo)致信令擁塞。用戶行為導(dǎo)致的網(wǎng)絡(luò)異常:這里的異常主要指高負(fù)荷。比如說,重大節(jié)假日因業(yè)務(wù)量激增而導(dǎo)致的限呼、擁塞等等。

2.3應(yīng)用案例

接到客服反映,2012年某天,廣東某區(qū)域移動(dòng)用戶投訴說無法使用GPRS困難。投訴數(shù)量不斷增多,而且當(dāng)時(shí)是業(yè)務(wù)較繁忙的時(shí)期,故障非常緊急。經(jīng)檢查,覆蓋該區(qū)域的網(wǎng)絡(luò)設(shè)備上都沒有相關(guān)告警??头答亖淼耐对V信息,用戶的分布也比較零散。這都給故障定位造成很大的困難。根據(jù)“故障預(yù)警系統(tǒng)”監(jiān)測每15分鐘網(wǎng)元的統(tǒng)計(jì)指標(biāo),發(fā)現(xiàn)某BSC的數(shù)據(jù)業(yè)務(wù)流量異常,與上15分鐘相比突然下降了近50%。系統(tǒng)把預(yù)警結(jié)果及時(shí)發(fā)給維護(hù)人員,根據(jù)預(yù)警消息,判斷是該BSC有問題。事后廠家給出的分析報(bào)告,也判斷故障的原因是該BSC軟件吊死吊死。再次證實(shí)了預(yù)警的準(zhǔn)確性。

嚴(yán)重影響業(yè)務(wù)的故障,其處理得及時(shí)與否,直接關(guān)系到用戶的感知。其關(guān)鍵在于盡早發(fā)展網(wǎng)絡(luò)異常。為做到先于用戶發(fā)現(xiàn)網(wǎng)絡(luò)問題,以贏得搶通業(yè)務(wù)的先機(jī),本文提出了一直基于性能的移動(dòng)通信VOIP網(wǎng)絡(luò)故障預(yù)警方法,并且以系統(tǒng)的形式實(shí)現(xiàn)。該方法設(shè)計(jì)目的明確,專門針對嚴(yán)重影響業(yè)務(wù)的重大故障。通過實(shí)時(shí)的采集,全面且深入對網(wǎng)元運(yùn)行狀態(tài)、關(guān)鍵性能指標(biāo)進(jìn)行分析,從而及時(shí)、精準(zhǔn)對重大故障作出預(yù)警。

本文作者:呂品謝永基工作單位:中國移動(dòng)通信集團(tuán)廣東有限公司佛山分公司