網絡輿情監測方法范文
時間:2024-03-07 17:46:17
導語:如何才能寫好一篇網絡輿情監測方法,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
以主流媒體為主的網絡輿情監測機構是我國目前最成熟的監測機構,也是最主要的監測方式。如人民網輿情監測室、新華網網絡輿情監測分析中心等,一些地方主流媒體所屬的監測機構也是區域網絡輿情監測的主力軍,如大眾網大眾輿情、大江網大江輿情等。這類監測機構依托媒介資源,聚合軟件開發、統計學、傳播學、社會學、公共管理學、經濟學等多學科專業人員,符合輿情監測需要多學科融合的特點。這些監測機構開展網絡輿情監測理論研究,點評網絡熱點輿情,總結其中得失,提升公眾輿情素養,并通過這些開展公共網絡輿情服務;同時應用其開展公共網絡輿情服務的影響及成果對政府部門、企事業單位等提供有償服務,取得了社會效益及經濟效益的雙豐收。這類監測機構最具代表的是人民網輿情監測室。該監測室成立于2008年7月,在網絡信息搜集上,人民網輿情監測室重視搜索技術的應用,依托人民網輿情監測平臺、中文報刊監測系統,輔以公眾搜索引擎,在搜索引擎解決不了的區域補充人工監測,形成了網絡信息收集的有效模式。人民網輿情監測室率先開通了輿情頻道,設立輿情會商室,刊登熱點輿情報告,各種輿情排行榜。通過這些方式,就網絡輿論情況、網絡熱點事件的成因及規律,進行分析和總結。這些公共輿情服務,提升了公眾的輿情素養,增加了自身的影響力,取得了很好的社會效益。同時,人民網輿情監測室根據不同的客戶提供有針對性的輿情監測服務,推廣其輿情監測平臺,提供輿情分析報告和突發事件咨詢顧問服務,指導輿情應對,還編輯發行《網絡輿情》雜志,發行價為每年3000多元,被稱為史上最貴雜志,目前已發行近20000份。此外還開展培訓服務,取得了很好的經濟效益。
二、以研究部門為主的監測機構
以高校和研究機構為主的監測機構,如中國人民大學輿論研究所、中國傳媒大學網絡輿情(口碑)研究所、上海交通大學輿情研究實驗室,這些機構兼顧學術研究與輿情監測服務,在數據分析的基礎上加以學理分析。如中國人民大學輿論研究所的《中國社會輿情年度報告》、上海交通大學輿情研究實驗室的《中國社會輿情與危機管理報告》等從網絡輿情的角度注解社會政治、經濟、文化等發展態勢,在社會上產生了較大影響。雖然,高校、研究部門為主的服務機構較為專業,但也不是萬能的,其中很多機構存在覆蓋面廣、針對性不強或者實踐經驗欠缺等問題,難以就部門、單位做詳細的跟蹤、監測分析,往往只有在出現了重大網絡輿情時才能提供幫助和參考。
三、以各級政府部門、企事業單位為主的輿情監測機構
隨著網絡輿論的加強,引起了社會各方對網絡輿論的重視。各級政府部門、企事業單位成立輿情監測機構以期通過網絡加強了解公眾對本部門、本行業的意見建議,減少網絡負面輿論對自身的影響。這部分監測機構個體規模不大,數量多,專業性比較欠缺。目前這類監測機構大都由部門及單位所屬的宣傳等部門代為管理,少有獨立的監測機構。監測的方法主要有日常監測和應急監測,監測范圍涵蓋新聞網站、社交網站、論壇、微博等。日常監測用日報、周報、月報、年報等形式,應急監測就某一輿情事件進行專題監測,以快報、專報等形式呈現。監測手段主要以人工監測為主,也有輔以監測系統監測或購買輿情監測機構的服務等。人工監測無法顧及海量的網絡信息,很難對網絡輿情作較為全面的梳理、統計、分析,只能就一件事、對一個點作報告。相比之下監測系統、監測信息更有針對性一些,但因目前市場上的網絡輿情監測系統本身存在缺陷,所以監測的準確性還有待加強。
篇2
【 關鍵詞 】 Solr平臺;輿情;監測系統
1 引言
近年來,全國各地環境污染事件頻繁發生,當這些污染事件發生時,民眾會在很短時間內通過微博、論壇等網絡平臺相關消息、描述事件發生狀況、評論政府應對措施與各項反應,需要注意的是,這些輿情信息在網絡上的傳播,會對普通民眾的群體心理造成重大影響,如果處理不當還會對環境污染防治工作帶來阻力,甚至發生重大公共安全。因此,需要設計并實現面向環境污染輿情的網絡輿情話題監測技術,以實現對環保類輿情信息的及時發現,為政務信息公開和網絡輿論回應提供技術支持。
環保類輿情話題主要是民眾對身邊生活環境問題的描述、建議、舉報和控訴等的話題,比如工廠偷排污水、工地夜間施工、空氣污染嚴重等。這類話題可由相關關鍵詞的與或關系組合予以監測,例如水污染的話題可以采用“廢水、污水、黑水”等關鍵詞匹配。但在實際實現時,每類環保類話題的關鍵詞數量都較多,關鍵詞之間的與或關系描述比較復雜,采用傳統的數據庫結合文本關鍵詞匹配的技術會遇到處理速度慢、與或等復雜邏輯匹配實現難度大等難題。
針對這些問題,本文提出采用Solr平臺設計并實現環境污染網絡輿情監測系統。Solr是由Apache基金會設計開發的基于Lucene的文本檢索平臺,利用Solr的索引和檢索功能夠快速查找文本,并可實現較為復雜的查詢邏輯。通過實際數據的實驗驗證,本文所述技術具有執行速度快、復雜匹配邏輯實現難度小等優點。
2 Solr平臺簡介
2.1 Solr概述
Solr是一個基于Lucene的企業級全文搜索平臺,它支持層面搜索、高亮顯示和多種格式數據輸出等功能。2006 年,Apache Software Foundation 在Lucene項目的支持下設計實現了Solr平臺,并使Solr成為Apache的孵化器項目。在整個項目孵化期間,Solr 穩步地積累各種特性并吸引了一個穩定的用戶群體、貢獻者和提交人,并于2007年1月正式成為Apache的子項目。
Solr具備高效靈活的緩存查詢、強大的全文檢索、垂直搜索、相似文獻查找、配置靈活、支持多種客戶端語言、索引復制、高亮顯示搜索結果、日志記錄、可擴展的插件體系等功能。
2.2 Solr體系架構
Solr作為一個完整的全文檢索平臺,具有三層體系架構。
1) 底層是全文檢索工具Lucene,主要為文件建立索引、提供文本分析接口和實現高效查詢。此外,底層的索引復制模塊是一個獨立的模塊,主要用于支持分布式的索引和檢索。
2) 中間層是Solr的核心層,主要包括索引處理部件和配置文件。最主要的配置文件是Solrconfig.xml和Schema.xml。Solrconfig.xml從整體上對系統進行了配置,例如索引的存放路徑、字段的最大長度、寫鎖的超時時間、鎖類型、是否壓縮索引、內存索引緩沖區大小、合并因子、刪除策略、自動提交策略、緩存設置等。Schema.xml主要是對索引的配置,例如分詞器、字段名稱、索引方法、存儲方式、分詞方式、唯一標識字段等。索引處理部件是在系統主動或被動的接受特定數據,按照配置文件轉化成索引后用來進行實際操作的部件,例如,進行搜索、相似文獻查找、拼寫檢查、分面檢索等。
3) 上層是HTTP請求接受、處理和請求結果返回層。HTTP請求處理器根據接受到的不同請求,確定要使用的SolrRequestHandler,然后通過Solr核心層處理請求,并以XML、JSON等數據格式返回請求結果。
3 環保類輿情話題監測系統主要模塊
本文所實現的環保類輿情話題監測系統的主要模塊包括三個部分,分別是中文分詞、創建索引和話題監測。
3.1 中文分詞
中文自動分詞是建立索引庫的前提。中文文本中詞與詞之間沒有天然的分隔符,這就要求在對中文文本進行分析前,需要先將整句切割成小的詞匯單元,才能將文本劃分為特征項并添加進索引庫。在全文檢索系統中,中文分詞系統的速度直接影響到系統建立索引和檢索文檔的效率,所以需要從眾多可用的分詞工具包中選擇符合本系統需求的中文分詞系統。
目前常用的分詞工具包有StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、ICTCLAS和IKAnalyzer,其中IKAnalyzer的分詞方式為正向粗粒度詞典匹配或正向細粒度詞典匹配,由使用者根據需要指定,當遇到未被詞典收錄的詞語時則使用二元分詞方式切分。IKAnalyzer的自定義詞典功能比較強大,既可以通過詞典文件預先批量添加詞語,也可以通過調用API的方式實時添加;同時,IKAnalyzer的分詞速度和分詞準確率也比較理想,可以滿足本系統開發的需求。通過對分詞效果、分詞速度、詞典的擴展性、開發難度等方面進行綜合考慮,最終選擇IKAnalyzer作為本系統的分詞器。
3.2 創建文本索引
本系統是通過Python腳本語言來實現Solr索引創建的。首先連接Solr,然后用Solr的Add命令從數據庫里將上一次索引時間之后所有新增加的輿情數據添加進Solr。接著執行Commit命令以提交任務。那么,Solr就會自動完成對新提交的文本數據創建索引。
3.3 話題監測
索引建立之后可以根據每類話題關鍵詞的邏輯匹配規則在Solr中進行話題監測處理。
在話題監測前,首先判斷這個話題是否已經基于關鍵詞查詢過,如果查詢過,則接著在上次查詢時間之后新增的索引文本上查詢,否則查詢所有文本。
在話題查詢時,根據Solr的查詢命令并結合實際需求構造一個查詢條件,如按關鍵詞和索引時間范圍構造的查詢條件為:query = "(%s) AND index_time:[%d TO *]" % (keywords, secs),然后根據該查詢條件實現Solr上相關話題文本監測。
4 實驗結果與分析
4.1 評價指標
實驗結果評價指標為準確率(Precision)、召回率(Recall)和F1值。準確率指標代表的是識別準確性,召回率代表的是方法判斷結果的查全率。理想的情況是準確率和召回率都很高,但在實際情況中,兩個指標很難同時被提高,提高準確率往往以降低召回率為代價,而提高召回率往往也要犧牲準確率,因此設計方法時往往根據實際需要重點關注其中一項指標。在本系統中,環保類話題識別與監測的主要作用是找到與人工設置的話題關鍵詞相匹配的文本,所以本系統在保證一定召回率的前提下更強調準確率指標。
4.2 實驗分析
通過人工方式設置了3個話題類型,實驗數據集為從網絡輿情源數據中隨機獲取的文本20000篇,其中包含3類環保類輿情話題文本共3272篇,作為背景噪聲的無關文本16728篇。話題的相關情況如表1所示,采用本文所述技術的實驗結果如表2所示,在DELL R420服務器上執行話題監測處理時間僅為0.27秒。
實驗結果表明,基于Solr平臺的環境污染輿情話題監測系統能夠比較有效的發現網絡輿情數據源中與設定話題相關的發帖文本。需要注意的是話題識別與監測方法的效果受話題關鍵詞的影響比較大,所以關鍵詞的設置既要求準確又要求全面,根據環保輿情監控的地域因素,還要考慮當地人對某件事物的俗稱。
5 結束語
本文通過研究建立基于Solr平臺的環境污染輿情話題監測系統,認為建立中文分詞、創建索引和話題監測三個主要模塊能夠比較有效的發現網絡輿情數據源中與設定話題相關的發帖文本,實驗結果表明本文所述系統可有效滿足環保相關部門對環境污染網絡輿情話題監測的需求。
參考文獻
[1] 黃翼彪.實現Lucene接口的中文分詞器的比較研究[J].科技信息,2012,(12):246-247.
[2] 姚曉娜,祝忠明.基于分面搜索引擎Solr的機構知識庫訪問統計[J].中國科學院國家科學圖書館蘭州分館,2011,209(8):37-40.
[3] Apache Solr官網.http:///solr/.
[4] 薛峰,周亞東,高峰等.一種突發性熱點話題在線發現與跟蹤方法[M].西安交通大學學報,2011,45(12):64-69.
[5] MOHD M,CRESTANI F,RUTHVEN I.Design of an interface for interactive topic detection and tracking[C]//Flexible Query Answering Systems 8th International Conference on.Berlin,German:Springer,2009:227-238.
篇3
隨著廣播電視行業的不斷發展,播放的內容越來越豐富,播出的方式也越來越多樣化,廣播電視的監測監管工作就變得更加的困難,大量的數據存儲、應用越來越個性化以及軟件功能極其強大等,都大大沖擊著傳統的監測監管技術,迫切地需要監管異常技術的變革,從孤立的、單一的監測模式向全網絡、全方位監測方向發展。當前,國內的廣電監管監測主要包括技術和內容兩方面的監測。技術監測靠的是子系統對技術指標進行監測,包括衛星廣播電視、有線數字電視以及有線模擬電視等技術,同時還要監聽監看廣播和電視播出的效果和質量,能夠及時發現各套節目在播出期間出現的質量異常等情況。而對內容的監管,就是要借助互聯網電視、廣告監管以及輿情系統等監管系統,來實時監測各套電視節目或者網絡音頻,及時監測出各頻道播出的內容。
二、大數據的介紹
(一)概念
大數據技術是一種借助搜索引擎以及數據庫等,將搜索、分析、分類等集合于一體的技術。各個領域的專家通過計算機高速運算功能,并加上自己的研究和判斷,對某一事件和事物能進行精確地分析,并能預測到事物一定范圍的發展。大數據技術的應用,使得大批量的數字信息在瞬間的到分析成為可能,使我們對于商業、新聞以及教育等各個方面的認識產生了顛覆性地變化。如果保持對用戶數據的跟蹤,就會發現各種看似毫無關聯的人或事物,都會存在著千絲萬縷的聯系。尤其是近幾年,微信、微博等社交網絡的盛行,人們通過它們進行交流和溝通,傳播了大量的信息,服務器通過記錄他們的使用時間、地理位置以及朋友群等,并在此信息基礎上進行數據分析,就能準確掌握這類人的活動范圍等信息。
(二)特征
大數據的特征主要體現在四個方面,也可以概括為四“V”。第一,數據量龐大(Volume)。數據量大主要包括計算量、存儲量。計量單位常用TB級、PB(1000個T)和EB(100萬個T),甚至是ZB(10億個T)來計量。第二,數據類型(Ve-racity)繁多,文字、圖片、音視頻等各種信息都屬于大數據的信息類型。第三,數據的處理速度(Velocity)快,在這種龐大的數據量中,數據的處理和存儲速度都是具有極高的要求,也成為大數據與傳統數據的最典型的特征。第四,數據價值(Veraci-ty)密度極低,數據的價值密度高低和數據總量成反比。雖然數據的量很大,但是其中有價值的信息卻較少,并且其中的價值都是通過挖掘后才發現的。
三、大數據技術在廣播電視中的應用
大數據蓬勃發展的今天,應緊跟時代的發展,充分抓住它帶來的機遇,推進廣播電視的監測監管工作。
(一)采集數據
傳統的應用到電視監測監管系統,彼此之間相互獨立,系統之間缺乏聯系,各個系統僅僅負責監測工作中的固定內容,并且系統運行期間產生的技術指標、音視頻以及業務數據等內容也基本無關聯之處。在傳統的監測業務中,一致采用輪詢監測模式,由于條件的局限性,難以實現所有數據的分析和收集。在監測期間,輪詢監測雖然存在一定的可行性,但是也有一定的弱點。如果某個頻率突然停播,不能及時監測到這個頻道停播的可能性,而且起止的時間也存在著差異。在實際的工作中,起止時間都是通過人工核算的。要使得廣播電視獲得全方位的監測,就必須采用大數據技術。將所有節目的數據都收集起來,并增加監測技術的指標,增多音視頻的存儲,發生停播時,能迅速地判斷停播的原因,判定影響的范圍以及起止時間等。同時,還要依據歷史數據尋找問題的根源,做好預防措施,降低事故發生的概率,使得播放的質量和效果得以提升。
(二)統計分析數據
面對當前海量數據,需要根據業務需求,進行數據的統計和分析。這里就要用到大數據技術對數據資源進行存儲和開發,為廣播電視的監管和監測提供必要的服務。對于廣播電視的監管,除了要搜索系統來查找到違規的內容,對網絡中的音視頻進行監督,一旦發現違規的行為,就要采取行動主動制止,根據用戶的行為習慣,可以減少惡性發生,縮小它的傳播范圍。對于廣播電視的安全工作,可以依靠大數據進行事后查證。比如根據錄像可以查找大影響的范圍,最終統計數有多少用戶受到影響。也可以通過相關的數據分析,預測事故的發生,降低事故帶來的損失。比如,通過對過去的播出事故出現的時間和原因進行分析,根據發射機運行的天氣、光纖以及時間等各種條件,預測出可能會出現的播放事故。這些預測都是建立在豐富的數據的基礎上的,因此,一個完善的事故數據庫,對于后期的播放管理有極大的幫助,實現對廣播電視的監管監測的目的。
四、結語
在實際的電視監管監測期間,通過運用大數據技術,對存儲的數據以及錄音錄像等信息進行提取和更深層次的開發,采用創新思維,研究和開發出新型軟件,全方位實施掌握廣播電視的動態,并根據互聯網的數據以及監看監聽的獲取的數據等,及時掌握節目的傾向,為決策部門掌握實時的輿情以及做出決策,提供重要的參考。
作者:郝嘉 單位:國家新聞出版廣電總局
參考文獻:
[1]邴巖.基于大數據的廣播電視技術轉型[J].西部廣播電視,2014(22):43.
[2]陳思.基于大數據的傳播效果分析實踐與理論研究回顧[J].新聞傳播,2013(7):74-76.
[3]汪花,馮瑞,張貞桂.面向大數據分析的廣播電視節目內容監管方法研究[J].廣播電視信息,2016(1):42-45.
篇4
關鍵詞:圖像篡改;數字圖像;盲取證技術
中圖分類號:TP391.41
隨著數字化時代的到來,人們越來越多的利用數字技術進行圖像的處理和開發,使得人們可以欣賞到各種美妙的圖像,提高了人們的生活品質。但是這些圖像處理技術有有利的一面,必然存在有害的一面,同樣給人們的生活帶來困擾,偽造和篡改各種圖像進行欺詐等行為,給人們的生活帶來了不少不安全因素。針對這些困擾,通過進行研究開發了許多進行偽造圖像鑒定的技術,對圖像進行檢測,辨別真偽。
1 數字圖像的篡改主要分類
數字圖像的偽造手段多樣,基本可以分為幾個類型,包括圖像的合成、潤飾、增強、變種、繪畫和計算機生成這六個基本類型。后期經過研究又增加了三種類型,圖像攜密篡改、二次獲取圖像及數字圖像版權篡改這三個種類。通過對偽造手段的分類最終歸納了四種篡改類型,圖像真實性篡改、原始性篡改、完整性篡改以及版權篡改這四個部分。篡改的內容較多,但是我們研究的重點在于對數字圖像內容的篡改作為重點,其又分為內容的真實性篡改和完整性篡改兩類,如圖1所示。
圖1 篡改分類模型
1.1 內容的真實性篡改
數字圖像的真實性實際是圖像真假的一個問題。篡改者的目的就是將圖像變成與真實圖像不符的圖像,以達到其篡改目的。篡改技術主要有圖像拼接、圖像增強、圖像潤飾以及圖像的變形幾個種類。
1.1.1 將兩幅圖像進行具有標志特征的點找出并利用技術手段變為另一幅圖像中的特點的方式就是圖像拼接。進行兩幅圖像相關特征點的尋找是進行圖像拼接的關鍵,將兩者的對應特征點進行相應的疊加,也就兼顧了兩幅圖像的相關特征。作為圖像篡改中非常常見的一種篡改手段,圖像拼接可以將兩幅或者更多的圖像上的特點,根據篡改者的目的合成到一張圖像上去。
1.1.2 圖像的潤飾主要作用是對篡改后圖像篡改痕跡的清除,這當然是發生在圖像拼接后。進行圖像潤飾的主要技術手段是進行篡改區域進行模糊、銳化、羽化、修補等清除痕跡的措施,經過潤飾后就會使圖像的欺騙性更強。
2 圖像篡改檢測
根據篡改方式,圖像拼接就包含了復制、粘貼以及旋轉縮放,如圖2示。
圖2 圖像拼接取證技術模型
圖像拼接就必然進行復制粘貼的操作,為了獲得圖像的良好角度,旋轉與縮放的操作也是必不可少的。復制粘貼含有兩種形式,一種是同一圖像內的復制粘貼,另一種是不同圖像的復制粘貼形式,圖像內的粘貼必然會導致同一幅圖像中的圖像數據發生變化,不同圖像間的復制粘貼必然導致不同區域具有不同的來源特征或不同的圖像統計特征;而旋轉縮放必然導致重采樣,所以從這些角度著手可以對拼接篡改進行有效檢測[1]。
2.1 復制粘貼操作在同一圖像內
圖像篡改在同一個圖像內的復制粘貼必然存在篡改區域相同的圖像區域,將圖像進行分區分析,運用匹配搜索的方式進行檢測圖像篡改內容的操作,當前的研究者主要運用這個特點進行篡改的檢測工作。
2.2. 不同圖像間的復制粘貼工作
將兩張或者更多的圖像進行各自部分的拼接,并在一張圖像上進行呈現的操作,進行一個整體圖像的偽造過程,達到一個新的效果。這種篡改方式應用非常廣泛,造成的影響更大,比copy-move的操作更加廣泛。由于其在進行篡改過程中,多張圖像的線條和色彩有著明顯的區分,因此其更容易留下篡改痕跡。
2.2.1 基于光源方向不一致性的方法。取自兩幅或者以上圖像區域的圖像,其光照方向必然存在不一致的現象,所以,對于圖像中每個物體或區域的光照方向,經過判定不同物體或者不同區域都具有不同的光照方向,我們可以認定物體的光源不同或者區域的光源來源不同。Mahajand根據這個原理,提出了基于球面頻率不變量的檢測圖像光照一致性方法,其缺點是只能進行光源二維方向的檢測,且在陰天等直接光源缺乏的情況下不適用。
2.2.2 基于雙相干特征和邊緣百分比特征檢測方法。首先提出雙相干幅度和相位特征進行檢測篡改圖像的是Ng,但是這樣直接應用的檢測效果不是很好,精度較低。Ng為了將檢測效率提高到一個新的水平,相繼提出了對雙相干敏感特征進行刻畫,以及拼接不變量的估計兩個新的基本方法,這就重新認定了新的特征,包括雙相干幅度和相位變化的也測殘差特征以及邊緣百分比特征這三個內容。這樣檢測準確率得到了顯著提高,不過其在完整有現實意義的圖像檢測上還需要提高,并作后續處理。
3 結束語
通過圖像篡改的基礎原理的分析,進行相關的檢測取證要有的放矢,必須從照片形成機理和其固有特性上分析,并發掘出鑒定方法,逐步提高在圖像篡改盲取證領域的技術水平。
參考文獻:
[1]吳瓊.面向真實性鑒別的數字圖像盲取證技術綜述[J].自動化學報,2008.
[2]徐亮.數字圖像拼接篡改盲取證技術研究[J].電子設計工程,2012.
作者簡介:許柯(1976.09-),男,湖南衡陽人,講師,研究生,研究方向:信息安全、電子物證、輿情監測。