本體電子政務數(shù)據(jù)平臺研究運用
時間:2022-03-18 02:56:00
導語:本體電子政務數(shù)據(jù)平臺研究運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
全球性的網(wǎng)絡化、信息化進程正改變著人們的生活方式,Internet技術應用以及電子商務的飛速增長給人們生活工作的各個層面帶來了深刻的影響。隨著計算機與網(wǎng)絡技術的迅猛發(fā)展,“政府信息化”越來越受到政府機關的重視,各地政府機關紛紛開始建立電子政務業(yè)務系統(tǒng)。目前大多數(shù)政府機關已建立了大量的信息系統(tǒng),例如檔案管理系統(tǒng)、稅務系統(tǒng)、工資系統(tǒng)、人事管理系統(tǒng)、OA系統(tǒng)、公共服務一卡通、資產(chǎn)管理系統(tǒng)等。但眾多業(yè)務應用系統(tǒng)相互獨立,它們各自采用不同平臺、不同數(shù)據(jù)庫、不同編碼,致使各業(yè)務系統(tǒng)之間的數(shù)據(jù)交換和信息資源共享存在困難,信息孤島現(xiàn)象明顯¨1]。
同時,眾多的應用系統(tǒng)所帶來的身份的認證和管理的復雜性既使得管理成本不能降低,又使得整個系統(tǒng)的安全性、可整合性降低,這已成為電子政務信息管理系統(tǒng)進一步發(fā)展的瓶頸所在。因此,要想改變電子政務信息化水平的現(xiàn)狀,整合信息資源,解決“信息孤島”問題,就必須建立一個公共數(shù)據(jù)平臺,它是在政府部門原有的各業(yè)務系統(tǒng)層面上搭建的一個高層應用平臺,將各業(yè)務系統(tǒng)的異構數(shù)據(jù)集成應用,向下屏蔽各異構信息源異構性,向上提供數(shù)據(jù)集成基礎服務,實現(xiàn)各種信息系統(tǒng)的互通互聯(lián)和數(shù)據(jù)共享、數(shù)據(jù)的一致性,并在此基礎上實現(xiàn)規(guī)范的信息管理。近年來,隨著語義Web的發(fā)展,其核心技術本體在數(shù)據(jù)集成方面得到了應用。本體作為共享領域概念模型,可以通過定義領域內(nèi)一致的術語和術語間的關系來描述異構信息源的語義信息,從而消除異構數(shù)據(jù)源的語義沖突。
在國外,對本體的研究較早,本體已經(jīng)應用到各個領域。相比國外,國內(nèi)對本體的研究起步較晚,尤其是在電子政務方面,缺乏一致的本體模型,相關的應用也少。目前,本體技術很少在電子政務信息化建設中應用,因此,如何把本體技術應用到電子政務異構數(shù)據(jù)管理集成中,采取何種策略進行構建,消除電子政務各信息系統(tǒng)異構數(shù)據(jù)庫模式的語義沖突,從而解決電子政務中異構系統(tǒng)導致的信息孤島問題,構建統(tǒng)一的數(shù)據(jù)平臺,以便提高政府管理效率,就顯得尤為重要。
1電子政務與本體
1.1電子政務與本體概述
電子政務是政府機構廣泛深入地應用現(xiàn)代信息和通信技術,將政府內(nèi)部和外部(社會)的責權與職能通過計算機網(wǎng)絡硬件和軟件技術進行集成、整合、優(yōu)化、重組,做到跨越時間和空間,突破部門分割和傳統(tǒng)組織、工作方法與工作流程的限制,力求全方位地、有效地施行與提供安全、高效、優(yōu)質(zhì)、規(guī)范和符合國際水準的管理與服務。本體是為了某種目的描述世界時的一組抽象化概念,并且該組概念是得到廣泛認可的、以規(guī)范化形式描述的。根據(jù)定義描述本體時目的的不同,本體可以分為多種類型,依照領域依賴程度,可以細分為頂級(top—leve1)、領域(domain)、任務(task)和應用(application),這里研究的是領域本體,領域本體由屬性、對象、關系和子領域本體組成。引入本體的思想,借助本體對領域知識進行詳細描述,以抽象出概念化的語義層次,為進一步研究語義化的信息交互提供了基本的語義層次2J。從形式上來說,本體由概念、關系、函數(shù)、公理和實例5種元素組成。本體中的概念可以是一般意義上的概念,也可以是任務、功能、行為、策略推理過程等;關系表示概念之間的關聯(lián);函數(shù)則是一種特殊的關系;公理用于表示一些永真式;實例是指屬于某種概念的基本元素,即某概念類所指的具體實例。
1.2本體在電子政務中的應用案例
美國印第安納州電子政府建設是很多文獻介紹的典范,其成功之處在于利用本體方法建設電子政府數(shù)據(jù)庫J。美國印第安納州電子政府IndianaFamilyandSocialServicesAdministration(FSSA)本體,屬于最上層的域本體設計,它在“家庭與社會服務”這一本體下定義了9個本體(即低收入、處于危險的兒童、精神病與吸毒、弱智、區(qū)域健康與人性化服務、醫(yī)療補助、政府機構、法律實施及財政),建立了最上層的概念關系,并用圖形和箭頭形式標示出了各下層本體之間的關系以及在一個專業(yè)本體里所包括的術語。
1.3電子政務中本體的核心概念及抽取方法
目前,大多數(shù)本體學習方法和本體學習系統(tǒng)都是直接將術語識別為概念。術語的抽取被認為是進行本體自動構建的關鍵。針對術語抽取的研究主要有基于語法規(guī)則的方法、基于統(tǒng)計的方法、ICT—CLAS系統(tǒng)法J。利用語法規(guī)則的方法來進行術語抽取具有提取術語準確度較高、處理過程簡單、計算量較小、能夠有效提取低頻術語等多項優(yōu)點。但是,由于語言學規(guī)則本身難以掌握,尤其是針對開放性的語料,語言學的規(guī)則更是難以準確應用,利用人工來研究語言學的規(guī)律越來越難以實現(xiàn);使用統(tǒng)計的方法來抽取術語可以高效地識別領域術語,只要一個詞在文本集中出現(xiàn)的頻率高,就可以被有效抽取出來,可移植性較好。但是,這種方法計算量大,在處理低頻術語的時候,效果較差;ICT—CLAS系統(tǒng)法主要采用ICTCLAS系統(tǒng)對內(nèi)容進行分詞處理,然后對分詞進行抽取處理,這樣抽取的優(yōu)點是抽取內(nèi)容比較全面,但效率比較低,并且需要人工手動處理。
以上抽取方法都有優(yōu)缺點,在本體抽取中單獨地使用其中一種方法都不能達到最優(yōu)的效果,筆者把以上多種方法混合起來,采用程序自動分詞合并方式,加入TF—IDF算法,增加對領域術語的相關度的計算,篩選出與領域相關度低的術語,從而提高領域術語抽取的正確率。基本步驟如下:
1)采用語法規(guī)則的方法提取相關候選術語;
2)采用程序自動處理方式,對相關候選術語進行分詞;
3)采用統(tǒng)計法對分詞進行統(tǒng)計,根據(jù)頻度提取術語;
4)使用TF—IDF算法對提取的詞進行相關度計算,求出每個候選術語在政務領域文本中的相關性,抽取出政務領域獨占性強的詞作為政務領域術語。
2電子政務公共數(shù)據(jù)平臺架構
為了確保異構數(shù)據(jù)獲取和更新的準確性,同時又不改變原有硬件設施和人力資源,要想實現(xiàn)真正意義上的異構數(shù)據(jù)庫間信息資源的共享,集成后的數(shù)據(jù)必須保證較高的集成性、一致性和完整性,這是公共數(shù)據(jù)平臺建設的重要環(huán)節(jié)。
2.1本體模型構建
電子政務中大量不同的應用系統(tǒng),其異構是普遍存在的,要想向下屏蔽異構數(shù)據(jù),建立數(shù)據(jù)中心,向上提供公共數(shù)據(jù)平臺,就必須構建本體模型對元數(shù)據(jù)進行抽象概念化處理。電子政務本體構建中的2個核心問題是概念抽取和概念關系的獲取,概念抽取是對數(shù)據(jù)源進行分析,抽取出概念集合和每個概念的屬性集合。概念抽取本體有很多方法,可以由領域?qū)<沂止みM行,也可以利用領域概念詞典,自動抽取數(shù)據(jù)源中的概念。概念關系的獲取可以通過2種方法實現(xiàn),即基于語言規(guī)則的方法和基于統(tǒng)計的方法。在對所有數(shù)據(jù)源進行分析的基礎上,找出其中所涵蓋的術語,進行概念抽取,定義共享的詞匯表,根據(jù)相關本體規(guī)則進行本體抽象和語義處理。
2.2公共數(shù)據(jù)平臺架構
使用公共數(shù)據(jù)平臺的好處在于所有的共享數(shù)據(jù)被存儲在中心數(shù)據(jù)庫,可以向上層提供統(tǒng)一的數(shù)據(jù),便于資源共享和集中管理,而電子政務網(wǎng)內(nèi)各應用系統(tǒng)中異構數(shù)據(jù)庫就擁有了完全的自治性,這樣首先需要對底層異構數(shù)據(jù)庫進行本體抽象處理,向下屏蔽異構數(shù)據(jù),然后采用數(shù)據(jù)交換技術和數(shù)據(jù)同步技術保持中心數(shù)據(jù)庫數(shù)據(jù)和底層異構數(shù)據(jù)庫數(shù)據(jù)的實時同步。
電子政務公共數(shù)據(jù)平臺架構分為應用層、異構數(shù)據(jù)集成層、本體模型層和異構數(shù)據(jù)本體庫層,如圖2所示。異構數(shù)據(jù)本體庫層主要包含各大應用系統(tǒng)異構數(shù)據(jù)庫,通過不同的連接器及適配器向本體模型層提供本體的元數(shù)據(jù);本體模型層對元數(shù)據(jù)進行概念化,按照本體規(guī)則進行抽象處理和語義處理;異構數(shù)據(jù)集成層在本體模型之上利用AGENT同步模塊對數(shù)據(jù)進行交換、同步而實現(xiàn)數(shù)據(jù)集成,公共數(shù)據(jù)都集中到中心數(shù)據(jù)庫,向上層提供公共數(shù)據(jù)平臺;應用層主要是用戶訪問層,針對不同用戶提供統(tǒng)一身份認證,實現(xiàn)單點登陸。
3電子政務公共數(shù)據(jù)平臺設計
3.1構建電子政務領域本體的方法步驟
W3C組織推薦的在語義網(wǎng)上應用的標準本體表示語言是OWL,目前本體的構建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。這些方法大多數(shù)是以不同領域為背景,從個案的開發(fā)過程中通過逆工程總結出來的J。例如:TOVE專用于構建TOVEOntology,是關于企業(yè)建模過程的知識本體;骨架法專門用來構建企業(yè)本體;KACTUS是指“關于多用途復雜技術系統(tǒng)的知識建模”工程,目的是要解決技術系統(tǒng)生命周期過程中的知識復用問題-l;SEN。SUS法是開發(fā)用于自然語言處理的SensusOntolo。g)r的方法路線¨;IDEF5法是用于描述和獲取企業(yè)本體的方法-l。;七步法是斯坦福大學醫(yī)學院開發(fā)的,主要用于領域本體的構建_l。這些方法各有特點,但都不是針對電子政務領域的,沒有充分考慮電子政務領域的特點。筆者結合電子政務領域特色,提出基于電子政務業(yè)務模型,抽取概念,建立電子政務領域知識本體的方法,步驟如下:
1)需求分析,確定電子政務領域本體應用的目的、范圍、表示方法和用途等。電子政務領域本體建設要以應用需求為牽引,要對人類在認識世界過程中形成的不同“本體”(知識體系)進行認真分析,最終達到需求分析的定位準確、涵蓋得當。
2)概念化及抽取,通過各種渠道獲得電子政務領域本體的主要概念,確立概念間等級關系,并用精確無歧義的語言加以描述,形成該領域本體的核心語義內(nèi)容。獲得領域信息最根本的方法應該是考慮復用已有本體的可能性。通常的也是最行之有效的方法是復用已經(jīng)廣泛使用于各個學科領域的主題詞表和分類表。
3)概念間聯(lián)系,確定電子政務領域本體概念間聯(lián)系,如屬性、種屬關系、總體與部分關系、領域中的特有關系;對所收集的名詞術語進行規(guī)范,羅列重要的詞和短語,并將其歸類。還要確定概念間結構,定義類別和等級結構。
4)本體生成,采用SFCA算法,對概念之間的關系進行分析,自動生成局部本體,再采用PROMPT算法,把局部本體合并,生成全局本體,存放在本體管理器中。
5)本體編碼,利用形式化描述語言對“概念化”的電子政務領域本體進行編碼,使機器易于處理,盡量將相關領域已存在的本體集成到要構建的政務領域本體中,既避免重復建設,又可以形成領域內(nèi)共享的本體。
6)確認、維護與評價。對電子政務領域本體按照一定的標準進行確認和評價,包括本體的清晰性、一致性、可擴展性等;隨著電子政務領域知識的增加,本體要不斷更新、不斷進化,增加本體概念,完善本體概念間的語義關系。
3.2電子政務公共數(shù)據(jù)平臺設計
電子政務公共數(shù)據(jù)平臺是在原有的各業(yè)務系統(tǒng)層面上搭建的一個高層應用平臺,將各業(yè)務系統(tǒng)的異構數(shù)據(jù)集成應用,向下屏蔽各異構信息源異構性,向上提供數(shù)據(jù)集成基礎服務,實現(xiàn)電子政務各應用系統(tǒng)的數(shù)據(jù)共享和數(shù)據(jù)一致性,有效解決信息孤島問題,并在此基礎上實現(xiàn)規(guī)范的信息管理。設計基于本體的電子政務公共數(shù)據(jù)平臺,首先研究數(shù)據(jù)集成方法與本體技術及基于本體的語義集成,在此基礎上構建公共數(shù)據(jù)平臺異構數(shù)據(jù)庫集成框架,基于本體的異構數(shù)據(jù)庫集成框架是設計公共數(shù)據(jù)平臺的基礎。目前數(shù)據(jù)平臺的建設主要有3種模式:全局中心數(shù)據(jù)庫模式、數(shù)據(jù)交換模式和共享數(shù)據(jù)中心模式。全局中心數(shù)據(jù)庫模式:建立一個數(shù)據(jù)中心,各應用系統(tǒng)直接應用于該數(shù)據(jù)中心之上,逐步取消原有業(yè)務數(shù)據(jù)系統(tǒng);數(shù)據(jù)交換模式:保持原有業(yè)務數(shù)據(jù)系統(tǒng),用數(shù)據(jù)緩存的模式進行各業(yè)務數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)轉(zhuǎn)換和抽取;共享數(shù)據(jù)中心模式:原有各業(yè)務數(shù)據(jù)庫保持不變,通過觸發(fā)器或者開發(fā)數(shù)據(jù)接口抽取需要共享的數(shù)據(jù),并且進行轉(zhuǎn)換,匯總生成共享數(shù)據(jù)庫。上面的模式各有所長,但也存在不足,這里提出一種統(tǒng)一公共數(shù)據(jù)平臺模式,即制定統(tǒng)一信息編碼標準,從而建立核心數(shù)據(jù)庫,存放最基本的公共信息,保留原各業(yè)務數(shù)據(jù)系統(tǒng)。這樣公有數(shù)據(jù)存放在中心數(shù)據(jù)庫,一方面可以實現(xiàn)資源的最大共享,另一方面各專業(yè)數(shù)據(jù)仍保留在原系統(tǒng)中,保證了數(shù)據(jù)獨立和安全。平臺結構如圖3所示。公共數(shù)據(jù)平臺建立在中心數(shù)據(jù)庫之上,中心數(shù)據(jù)庫中存放的公共數(shù)據(jù)可以通過數(shù)據(jù)交換、數(shù)據(jù)同步的方式更新到各業(yè)務系統(tǒng)數(shù)據(jù)庫中,數(shù)據(jù)的同步更新采用事件驅(qū)動方式,通過觸發(fā)器和AGENT同步模塊來更新數(shù)據(jù)。AGENT同步模塊基于本體模型之上,本體模型層對元數(shù)據(jù)進行概念化,按照本體規(guī)則進行抽象處理和語義處理。
4結論
筆者重點介紹了基于本體的電子政務公共數(shù)據(jù)平臺的設計,首先介紹了本體的概念及電子政務中本體的抽取,接著建立了本體模型,在此基礎上構建了基于本體的電子政務數(shù)據(jù)平臺架構,然后重點介紹了電子政務本體的構建方法步驟和公共數(shù)據(jù)平臺的設計,最后建立了電子政務公共數(shù)據(jù)平臺的統(tǒng)一身份認證機制。基于本體的電子政務數(shù)據(jù)平臺能夠較好地解決政務系統(tǒng)中的信息孤島問題,實現(xiàn)數(shù)據(jù)的統(tǒng)一和共享。但是,有些地方的研究深度還不夠,例如電子政務中語法規(guī)則的制定還不全面,本體抽取的相關度還需要進一步提高。
- 上一篇:示范基地培訓場所構建交流材料
- 下一篇:供電企業(yè)惠民行動工作方案