元數(shù)據(jù)范文
時(shí)間:2023-03-18 13:12:07
導(dǎo)語:如何才能寫好一篇元數(shù)據(jù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:DC 元數(shù)據(jù) EAD 電子檔案 映射
中國分類號:G250.76 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2013)01(a)-0-03
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及,來自檔案館、圖書館、博物館及其他機(jī)構(gòu)的各種數(shù)字檔案資源如檔案、手稿、照片、古籍、個(gè)人論文日益增多,大量的電子檔案給傳統(tǒng)的文件管理方式和理念帶來了不小的沖擊,如何利用信息技術(shù)實(shí)現(xiàn)電子檔案的科學(xué)管理也成為檔案界的研究熱點(diǎn)。隨著元數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,利用元數(shù)據(jù)實(shí)現(xiàn)對電子檔案的有序管理已逐漸為檔案界所接受[1]。
來自于不同軟件系統(tǒng)的電子檔案常常具有不同的著錄格式,它們互不兼容,從而導(dǎo)致不同數(shù)據(jù)庫之間根本無法互相訪問和檢索,對普通的檔案館來說難以實(shí)現(xiàn)無障礙的利用與共享。目前,大多數(shù)的研究項(xiàng)目對于分布、異構(gòu)的數(shù)字檔案資源只是提供基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)鏈接與檢索共享,尚未實(shí)現(xiàn)元數(shù)據(jù)級的互操作,因此無法提供專業(yè)化的深度增值服務(wù)[2]。解決這一問題的途徑之一就是實(shí)現(xiàn)元數(shù)據(jù)的互操作和格式轉(zhuǎn)換。該文將探討EAD與DC這兩種目前應(yīng)用最為普遍的元數(shù)據(jù)之間的映射,具備較大的實(shí)用意義。
1 DC元數(shù)據(jù)與EAD
1.1 DC元數(shù)據(jù)及特點(diǎn)
DC(Dublin Core)即都柏林核心元數(shù)據(jù),是目前網(wǎng)絡(luò)信息資源組織最為通用的元數(shù)據(jù)格式。DC最早由美國OCLC發(fā)起研究,是“用該元素集描述任何網(wǎng)絡(luò)信息資源,并足夠簡單以至任何作者無需專門培訓(xùn)即可創(chuàng)建自己文件”的元數(shù)據(jù)。它由15個(gè)基本元素組成,分為三個(gè)廣為認(rèn)可的大類,內(nèi)容描述類包括題名、主題或關(guān)鍵詞、資源描述、來源、語種、相關(guān)資源和時(shí)空范圍。知識產(chǎn)權(quán)類包括責(zé)任者、出版者、其他責(zé)任者及權(quán)限。外形描述類是指對資源外形特征信息的描述,包括日期、資源類型、資源形式和資源標(biāo)識。
DC的特點(diǎn)包括以下幾方面。
簡易性:只有15個(gè)元素,而且通俗
易懂;
通用性:不針對某個(gè)特定的學(xué)科或領(lǐng)域,支持對任何內(nèi)容的資源進(jìn)行描述。增加了跨學(xué)科的語義互操作性的可能;
可重復(fù)性:其所有元素都是可重復(fù)的,解決了多著者與多出版者等重復(fù)元素的著錄問題;
可擴(kuò)展性:它允許資料以地區(qū)性規(guī)范出現(xiàn),并保持元數(shù)據(jù)的一些特性,以便日后有擴(kuò)充的余地;
可修飾性:對于需要詳細(xì)著錄的資料,引進(jìn)了DC修飾詞。它遵循向上兼容原則,在范圍上對未修飾詞的語義進(jìn)行限定,在深度上對未修飾詞的語義進(jìn)行延伸。
1.2 EAD及其特點(diǎn)
EAD的全稱是Electronic Archival Description,即電子檔案著錄,主要用于著錄檔案和手稿資源,包括文該文檔、電子文檔、可視材料和聲音記錄。它開發(fā)于1993年加州伯克利大學(xué)的一個(gè)研究項(xiàng)目。它是以通用標(biāo)準(zhǔn)語言(SGML)和擴(kuò)展標(biāo)記語言(XML)文件類型定義(DTD)的形式存在的[3]。EAD元素集定義有3個(gè)層次:EAD頭標(biāo),著錄檔案的產(chǎn)生、修訂、出版、發(fā)行等信息;前事項(xiàng),著錄檔案題名頁內(nèi)容;檔案著錄,是對檔案內(nèi)容及其相關(guān)信息的具體描述,包括文件內(nèi)容、上下關(guān)系及增補(bǔ)信息等。
經(jīng)過多年的研究和發(fā)展,EAD受到了檔案界和圖書館界的普遍擁護(hù),是美國檔案協(xié)會的成員們以及一些歐洲國家的檔案館主要使用的元數(shù)據(jù),也已成為在世界范圍內(nèi)獲得廣泛應(yīng)用的電子檔案著錄標(biāo)準(zhǔn)。這是由于EAD具有以下特點(diǎn)。
使用了標(biāo)準(zhǔn)通用置標(biāo)語言(SGML),SGML是電子文獻(xiàn)處理與交換的國際標(biāo)準(zhǔn),用EAD著錄的電子檔案可以提供網(wǎng)上的信息共享和檢索。
不依賴于任何的硬件和軟件平臺,不需經(jīng)過任何的轉(zhuǎn)化,在Unix操作系統(tǒng)、Microsoft Windows和Macintosh等環(huán)境下都可以很好地被識別。
具有伸縮性,同一部文獻(xiàn)既可選用一些簡單的標(biāo)識符著錄,也可以選用復(fù)雜的等級化的標(biāo)識符著錄。
使用EAD既可以形成新檢索工具,也可將已有的檢索工具轉(zhuǎn)化為EAD的編碼的機(jī)讀格式。轉(zhuǎn)化時(shí)可能要稍作改動或重排,但不需要大量的編輯。
檢索功能強(qiáng)。EAD以查詢語言(QL)為基礎(chǔ),除了具有一般的檢索功能,如布爾檢索、截詞檢索、近似檢索以外,還可以在目錄中查找單個(gè)款目和離散的數(shù)
據(jù)項(xiàng)。
應(yīng)用范圍廣,EAD既可用于手稿,也可用于技術(shù)革新、藝術(shù)與雕塑、醫(yī)學(xué)、工業(yè)等領(lǐng)域的科學(xué)資料。
1.3 DC與EAD的比較分析
不難看出,DC和EAD的結(jié)構(gòu)都簡單靈活,具有很強(qiáng)的可兼容性、可擴(kuò)展性和可互操作性,這些特性都使得這兩種元數(shù)據(jù)得到越來越多國家的重視并被廣泛應(yīng)用。對在著錄和信息揭示深度上看,DC對資源主題的揭示過于簡單,對著錄對象的描述深度不夠,不能進(jìn)行專指度較高的檢索;EAD則著錄詳盡,適用范圍廣泛,檢索途徑多樣[4]。
綜觀DC與EAD的結(jié)構(gòu)特點(diǎn)和應(yīng)用性能不難發(fā)現(xiàn),DC的最大特征就是簡化的語法系統(tǒng)和有限的元素?cái)?shù)量,因此它更具有簡易性和親和力,適用于廣泛的資源描述和利用群體;EAD則更為專業(yè)化,適合檔案專業(yè)背景,提供了詳盡的資源描述和更多的檢索入口,更適用于資源的深度描述和特定學(xué)科領(lǐng)域內(nèi)的深入交流[5]。
2 DC元數(shù)據(jù)與EAD的映射
2.1 DC與EAD映射表
該文給出DC與EAD的映射表如表1。
2.2 建立映射規(guī)則
建立了以上映射表并不能直接完成DC與EAD的映射與轉(zhuǎn)換,仍需針對兩種元數(shù)據(jù)的多種差異建立映射規(guī)則,從而使轉(zhuǎn)換完成得更為完整準(zhǔn)確。
2.2.1 解決結(jié)構(gòu)上的差異
在映射表中多個(gè)元素均為一一對應(yīng),但由于兩種元數(shù)據(jù)的結(jié)構(gòu)差異,就產(chǎn)生了源元數(shù)據(jù)和目標(biāo)元數(shù)據(jù)元素間的一對多、多對一或無對應(yīng)關(guān)系的情況出現(xiàn),如DC的責(zé)任者和其他責(zé)任者兩元素與EAD來源元素的對應(yīng)為多對一關(guān)系,DC的來源、相關(guān)資源和版權(quán)管理等元素在EAD中則找不到與其相對應(yīng)的元素。針對這些情況,映射規(guī)則必須規(guī)定在什么情況下將進(jìn)行相應(yīng)轉(zhuǎn)換、如何轉(zhuǎn)換,對無對應(yīng)關(guān)系的元素如何進(jìn)行轉(zhuǎn)換處理,等等。
2.2.2 解決應(yīng)用上的差異
由于DC和EAD的結(jié)構(gòu)均靈活多變,存在多種必備和可選元素、可重復(fù)與不可重復(fù)元素、有無子元素等多種情況。此時(shí)映射規(guī)則須針對具體情況,做出恰當(dāng)?shù)囊?guī)定,如明確規(guī)定源元數(shù)據(jù)必備元素的范圍、確定源元數(shù)據(jù)多個(gè)重復(fù)元素的可選擇性、對一方元數(shù)據(jù)中子元素缺少對應(yīng)元素時(shí)如何處理,等等。
2.2.3 解決語義上的差異
針對二者語義、數(shù)據(jù)類型和形式、取值范圍不一致等情況做出明確規(guī)定,盡量消除差異,確保轉(zhuǎn)換的規(guī)范統(tǒng)一。
3 存在問題及解決辦法
通過理論研究和多個(gè)國家的轉(zhuǎn)換實(shí)驗(yàn),我們發(fā)現(xiàn)對DC和EAD進(jìn)行轉(zhuǎn)換的主要困難還是在于EAD的復(fù)雜結(jié)構(gòu)與DC元數(shù)據(jù)過于簡單的矛盾,表現(xiàn)為將EAD轉(zhuǎn)化為DC之后,難以在同一個(gè)全宗的檔案資料之間重新建立鏈接,或者難以對由不同數(shù)據(jù)庫收藏的、由同一個(gè)人或機(jī)構(gòu)產(chǎn)生的資料之間重建鏈接;有時(shí)會丟失原EAD記錄中的上下文信息,或者轉(zhuǎn)換后的著錄不夠清晰,甚至出現(xiàn)錯誤指示等[6]。
以上問題的解決措施有以下幾方面。
3.1 制訂基于DC的電子檔案元數(shù)據(jù)規(guī)范
元數(shù)據(jù)規(guī)范(也稱元數(shù)據(jù)標(biāo)準(zhǔn))是描述某類資源的具體對象時(shí)所有規(guī)則的集合。一般包括完整描述一個(gè)具體對象時(shí)所需要的數(shù)據(jù)項(xiàng)集合、各數(shù)據(jù)項(xiàng)的語義定義、著錄規(guī)則和計(jì)算機(jī)應(yīng)用時(shí)的語法規(guī)定。
通過制訂針對電子檔案的元數(shù)據(jù)規(guī)范,我們可以解決DC諸如對著錄對象的描述深度不夠、不能進(jìn)行專指度較高的檢索、與原EAD文件結(jié)構(gòu)的對應(yīng)不夠準(zhǔn)確等方面的不足。制訂能夠描述或標(biāo)識電子檔案內(nèi)容、屬性、外觀特征及層次結(jié)構(gòu)的描述元數(shù)據(jù)規(guī)范和管理元數(shù)據(jù)規(guī)范,從元素、語法、句法等方面對檢索屬性集做出規(guī)定,在保證數(shù)據(jù)質(zhì)量和檢索效果的基礎(chǔ)上做好檢索點(diǎn)設(shè)置,提高轉(zhuǎn)換后文件對原文件相互聯(lián)系的反映準(zhǔn)確程度,有效表示轉(zhuǎn)換后文件的可選項(xiàng)等等,確保轉(zhuǎn)換后的元數(shù)據(jù)質(zhì)量。
3.2 善用DC修飾詞
由于簡單DC的15個(gè)元素只限于描述信息的單一層次,而EAD是具有等級結(jié)構(gòu),特別是在EAD內(nèi)容描述部分的從屬部分(dsc)中,可從c01到c12多次重復(fù),并且這些從屬部分之間存在密切關(guān)聯(lián),要靠簡單的DC元素來充分表達(dá)檔案描述之間復(fù)雜的層級關(guān)系確有一定難度,但是,通過引入適當(dāng)DC修飾詞的復(fù)雜DC將能彌補(bǔ)這一缺憾。
目前DCMI(Dublin Core Metadata Initiative,都柏林核心元數(shù)據(jù)計(jì)劃)確立了兩類修飾詞,即元素修飾詞和編碼體系修飾詞[7]。隨著各類團(tuán)體遵從dumb-down(向上兼容)原則提出更多的修飾詞,在經(jīng)過DCMI應(yīng)用委員會審核批準(zhǔn)后推薦給大家使用,由此逐漸形成一個(gè)修飾詞的大家族。相信不久的將來,通過檔案工作者的不懈努力,針對檔案專業(yè)領(lǐng)域的修飾詞也會應(yīng)運(yùn)而生,通過多個(gè)修飾詞的分級復(fù)用會較好地解決以上
問題。
3.3 確定DC為我國數(shù)字檔案館界的元數(shù)據(jù)標(biāo)準(zhǔn)
目前EAD在我國的應(yīng)用僅限臺灣,大陸還只處于理論研究階段[8];而中文DC的研究與開發(fā)則已經(jīng)從早年的實(shí)驗(yàn)階段步入實(shí)用階段,已設(shè)計(jì)并制訂了期刊論文、電子圖書、古籍、家譜和地方志等多種元數(shù)據(jù)規(guī)范,而且使用范圍日趨廣泛,逐漸為越來越多的圖書館所采用。
數(shù)字圖書館的成功范例為數(shù)字檔案館做出了榜樣。希望我國檔案界盡早確立DC為行業(yè)元數(shù)據(jù)標(biāo)準(zhǔn),加強(qiáng)數(shù)字檔案館建設(shè)中元數(shù)據(jù)利用的一致性,少走彎路,盡早實(shí)現(xiàn)中文檔案信息資源的共建和共享,提高我國檔案界的自動化和標(biāo)準(zhǔn)化水平。
參考文獻(xiàn)
[1] 張正強(qiáng).論中國電子檔案著錄標(biāo)準(zhǔn)化的發(fā)展方向[J].圖書情報(bào)知識,2004(5):35-38.
[2] 何小菁.數(shù)字檔案館元數(shù)據(jù)編制研究[J].圖書情報(bào)工作,2004(5):93-95.
[3] 宋雪雁.檔案元數(shù)據(jù)(EAD)著錄原則探析[J].檔案學(xué)通訊,2009(6):
57-59.
[4] 王萍,宋雪雁.EAD、DC、TEI著錄實(shí)例及其比較分析[J].圖書情報(bào)工作,2006(12):79-82.
[5] 王小麗,王芳.國內(nèi)外數(shù)字檔案館元數(shù)據(jù)標(biāo)準(zhǔn)體系比較研究[J].情報(bào)科學(xué),2007(3):382-389.
[6] 王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(3):18-24.
篇2
關(guān)鍵詞:信息資源;特色數(shù)據(jù)庫;元數(shù)據(jù);基本原則
引言
隨著時(shí)代的發(fā)展和進(jìn)步,當(dāng)前已經(jīng)進(jìn)入知識經(jīng)濟(jì)時(shí)代。網(wǎng)絡(luò)信息技術(shù)的飛速進(jìn)步,大大加快了信息資源的傳播速度;加上層出不窮的社會科研成果,有用的知識信息量急劇增長,使得人們?nèi)绾瓮ㄟ^Internet快速準(zhǔn)確的獲取所需信息已逐漸成為大家關(guān)注的問題。作為重要的知識信息集散地,圖書館長期以來扮演著信息服務(wù)的前沿陣地的角色。但是事實(shí)是,圖書館根本不可能將所有的出版物收集起來供用戶查閱,而且不同用戶對信息資源的需求也不限于單一資源,而是希望對國內(nèi)外各學(xué)科科學(xué)新動向、新成果、新發(fā)展有較為全面的了解,希望能了解一些市場競爭、市場供求的實(shí)時(shí)動態(tài)信息等。因此,圖書館就必須立足自身實(shí)際、充分發(fā)揮資源優(yōu)勢,完成數(shù)字化圖書館的建設(shè),實(shí)現(xiàn)資源的整合。而信息資源的有效整合的基礎(chǔ)就是元數(shù)據(jù)的建立。
1 元數(shù)據(jù)的基本概念
元數(shù)據(jù)(metadata)又稱為數(shù)據(jù)的數(shù)據(jù)(data about data)或?qū)ζ渌畔⑦M(jìn)行描述的信息 (information that describes other information),其作用類似于圖書館中數(shù)目卡片。隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的發(fā)展,信息資源的快速膨脹給我們帶來了諸多難題,而元數(shù)據(jù)則是解決這類難題的關(guān)鍵所在。元數(shù)據(jù)能幫助解決的問題主要有以下三個(gè)方面:1)有效組織和存儲不勝枚數(shù)的信息資源,以解決目前URL方式無法滿足需求的問題;2)作為一種信息檢索方式,幫助人們在浩瀚的信息海洋中快速準(zhǔn)確的完成有效信息的檢索。目前主流的信息檢索方法是搜索引擎,但其帶來了龐大的無效信息量,給人們的信息檢索造成困擾;3)有效管理巨量的信息資源。為適應(yīng)如今信息量劇增、瞬息萬變的世界,應(yīng)該及時(shí)補(bǔ)充和更新已知的信息,所以要加強(qiáng)專家系統(tǒng)、智能與數(shù)據(jù)挖掘等新支持系統(tǒng)的研發(fā)。因此,元數(shù)據(jù)主要的功用就是對現(xiàn)有信息資源的有效描述、檢索、并對原有信息進(jìn)行維護(hù)、更新和補(bǔ)充,實(shí)現(xiàn)信息資源的有效管理和共享。
然而到現(xiàn)為止,元數(shù)據(jù)仍不存在統(tǒng)一的格式和標(biāo)準(zhǔn)屬性,反而具有非常靈活的形式。不同領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)也往往不同,如地理空間領(lǐng)域所用的是DGM,音樂資料領(lǐng)域所用的是sMDL,而檔案領(lǐng)域應(yīng)用的卻是EAD等等。此外,不同的組織所制定的元數(shù)據(jù)標(biāo)準(zhǔn)的偏重點(diǎn)也往往有所差異,如MFC、CDF、RDF及Dublin Core(都柏林核心元數(shù)據(jù))等,其中影響力最大的當(dāng)屬Dublin Core,其已經(jīng)逐漸發(fā)展成一種通用的元數(shù)據(jù)標(biāo)準(zhǔn)。且近些年來,我國相關(guān)部門已經(jīng)根據(jù)Dublin Core制定出了相應(yīng)的中文元數(shù)據(jù)標(biāo)準(zhǔn),如會議論文、期刊論文(期刊單篇)、電子圖書、拓片及音頻等元數(shù)據(jù)的標(biāo)準(zhǔn)。常見的國內(nèi)元數(shù)據(jù)標(biāo)準(zhǔn)有CALIS元數(shù)據(jù)標(biāo)準(zhǔn)和國際科技部元數(shù)據(jù)標(biāo)準(zhǔn)兩種。
2 特色數(shù)據(jù)庫的元數(shù)據(jù)特點(diǎn)
在高度信息化的現(xiàn)代社會,元數(shù)據(jù)的使用范圍越來越廣,特別是特色數(shù)據(jù)庫更加具有針對性,我們必須對其特點(diǎn)做深入的了解,才能更好地對它加以利用。經(jīng)過仔細(xì)研究,能夠歸納出以下特點(diǎn):
1)由于元數(shù)據(jù)的本質(zhì)功能是對對象數(shù)據(jù)進(jìn)行描述,特色元數(shù)據(jù)同理,它的本質(zhì)特點(diǎn)就是描述性,主要利用一些約定俗成的為大眾接受的規(guī)則對數(shù)據(jù)進(jìn)行描述;
2)特色數(shù)據(jù)庫的元數(shù)據(jù)具有復(fù)雜性,因?yàn)樘厣珨?shù)據(jù)庫不同于維普、CNKI等這樣的商業(yè)數(shù)據(jù)庫,它包含的資源多種多樣,包括期刊單篇、圖書、會議論文甚至是音頻、視頻等內(nèi)容,另外,特色數(shù)據(jù)庫里面的數(shù)據(jù)除了以一次文獻(xiàn),可能還有綜述、摘要、關(guān)鍵詞等內(nèi)容,要對特色數(shù)據(jù)庫建立元數(shù)據(jù),就必須考慮特色數(shù)據(jù)庫的各方面的內(nèi)容,元數(shù)據(jù)的檢索也要涵蓋各方面的內(nèi)容,相對來說較為復(fù)雜;
3)特色數(shù)據(jù)庫中對某些字段的定義難免不夠標(biāo)準(zhǔn)。因?yàn)樘厣珨?shù)據(jù)庫中的資源類型繁多 ,部分不在相同資源類型中的相似內(nèi)容很有可能在相同的字段中定義,比如時(shí)間,圖書的出版時(shí)間可能會和會議舉辦的時(shí)間共同歸納在數(shù)據(jù)庫的“時(shí)間”的字段當(dāng)中,再如,不同文獻(xiàn)類型中的頁碼都可能歸納在數(shù)據(jù)庫的“頁碼”字段;
4)部分滿足現(xiàn)有標(biāo)準(zhǔn)的必備元素在特色數(shù)據(jù)庫中沒有被準(zhǔn)確定位,在特色數(shù)據(jù)庫建立初期,相比于數(shù)據(jù)的完整性與可交換性以及字段定義方面來說,著錄者對數(shù)據(jù)庫的應(yīng)用和功能更為重視,這樣厚此薄彼的做法直接導(dǎo)致了部分重要字段的丟失,比如審校時(shí)間、審校員等管理類型的元數(shù)據(jù)以及統(tǒng)一資源標(biāo)識符(簡稱URI)、資源類型等描述型的元數(shù)據(jù);
5)特色數(shù)據(jù)庫元數(shù)據(jù)中的某些字段內(nèi)容未達(dá)到標(biāo)準(zhǔn)要求,雖然元數(shù)據(jù)已經(jīng)有了很長的發(fā)展歷程,但在近幾年才被引入到國內(nèi),大部分高校在建設(shè)特色數(shù)據(jù)庫的時(shí)候它還未被引進(jìn),因而過去對其概念的提出并不標(biāo)準(zhǔn),這就導(dǎo)致各個(gè)特色數(shù)據(jù)庫中的字段定義各行其是,沒有統(tǒng)一的標(biāo)準(zhǔn),這些在早期被定義的字段內(nèi)容取法與現(xiàn)有標(biāo)準(zhǔn)的元數(shù)據(jù)相契合,例如某一期刊中的年卷期被歸納在一個(gè)字段中。
3 特色數(shù)據(jù)庫元數(shù)據(jù)建立時(shí)應(yīng)注意的問題
3.1元數(shù)據(jù)的描述深度
所謂元數(shù)據(jù)的描述深度,就是元數(shù)據(jù)解釋對象的程度的高低,通俗一點(diǎn)來說,就是元數(shù)據(jù)在定義時(shí)的使用數(shù)量。在描述對象時(shí),一定要掌握好度,若描述的程度太高,就會增加輸入難度;反之,則會導(dǎo)致描述對象數(shù)據(jù)不完整、對象數(shù)據(jù)反應(yīng)不精確等問題。相對于商業(yè)數(shù)據(jù)庫而言,特色數(shù)據(jù)庫對元數(shù)據(jù)的描述程度更高,它的元數(shù)據(jù),還包括一些對象數(shù)據(jù)的輸入都要求當(dāng)?shù)芈毠ね瓿桑裕绻麑⒃獢?shù)據(jù)定義太廣的話,就會成倍增加工作人員的工作量。
對于元數(shù)據(jù)的要求,讀者和著錄方的要求有明顯的差距。元數(shù)據(jù)建立的初衷只是使數(shù)據(jù)更加標(biāo)準(zhǔn)化,方面對數(shù)據(jù)的檢索、管理等,如果僅僅滿足于這一要求,那么只需要將主要責(zé)任者、正題名、主題等一些重要的元數(shù)據(jù)進(jìn)行定義便可。但是,使用數(shù)據(jù)的主要對象是讀者,為了使閱讀更加方便,能從更全面的途徑檢索、獲取信息,受眾群對元數(shù)據(jù)的著錄提出了更高的要求,他們希望著錄的元數(shù)據(jù)更多更全。面對數(shù)據(jù)加工和信息服務(wù)之間的矛盾,在建立元數(shù)據(jù)之前應(yīng)當(dāng)盡可能地尋求兩者之間的平衡點(diǎn),以求達(dá)到最好的效果。
3.2建立非一次文獻(xiàn)元數(shù)據(jù)的標(biāo)準(zhǔn)
現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)的適用范圍十分有限,主要是如期刊單篇、圖書、會議論文等的基礎(chǔ)文獻(xiàn)資料,特色數(shù)據(jù)庫解決了這一問題,它不僅囊括了基礎(chǔ)文獻(xiàn)資源,還包括一些非一次文獻(xiàn),如文摘等。因此,為了避免建立數(shù)據(jù)庫時(shí)做無用功,我們在對文摘等非一次文獻(xiàn)數(shù)據(jù)庫著錄元數(shù)據(jù)之前,應(yīng)當(dāng)仔細(xì)考慮以下問題:是建立基礎(chǔ)文獻(xiàn)的元數(shù)據(jù)庫,還是建立文摘的數(shù)據(jù)庫?由于兩者之間存在很大的差異,所以在工作之前應(yīng)當(dāng)搞定這一問題。比如作者,若以文摘為依據(jù),元數(shù)據(jù)應(yīng)為文摘員,反之,則為作者;再比如著作時(shí)間,以文摘為依據(jù),元數(shù)據(jù)應(yīng)為文摘創(chuàng)作時(shí)間,反之,則為原文創(chuàng)作時(shí)間。就個(gè)人而言,在為文摘數(shù)據(jù)庫建立元數(shù)據(jù)的時(shí)候應(yīng)當(dāng)以基礎(chǔ)文獻(xiàn)為依據(jù),原因有二:1)在文摘數(shù)據(jù)庫中有很多像“文摘員”這樣的特殊字段完全能夠從元數(shù)據(jù)標(biāo)準(zhǔn)中擴(kuò)展定義;2)文摘始終來源于文獻(xiàn),它只是對基礎(chǔ)文獻(xiàn)數(shù)據(jù)的描述。如果在建立數(shù)據(jù)庫時(shí)將文摘作為主要依據(jù),就難以對基礎(chǔ)文獻(xiàn)進(jìn)行有效描述,如創(chuàng)作時(shí)間、作者等重要信息,這將對作者正確理解文獻(xiàn)信息造成障礙。
3.3資源整合模式的運(yùn)用
資源整合的模式對于元數(shù)據(jù)的建立十分重要,它能夠指明元數(shù)據(jù)的建立方向。現(xiàn)有的資源整合模式主要有兩種:網(wǎng)絡(luò)模式和獨(dú)立模式。雖然這兩種模式能實(shí)現(xiàn)一部分相同的功能,比如跨數(shù)據(jù)、平臺的一站式檢索功能,但兩者之間還存在著較大的差別。運(yùn)用網(wǎng)絡(luò)模式進(jìn)行資源整合,不會過多考慮文獻(xiàn)所屬的數(shù)據(jù)庫,而主要考慮數(shù)據(jù)資源的類型,根據(jù)資源屬性建立各自的數(shù)據(jù)庫;如果運(yùn)用獨(dú)立模式的資源整合模式,就不用考慮資源類型,而按具體標(biāo)準(zhǔn)建立相應(yīng)地元數(shù)據(jù)庫。相比之下,網(wǎng)絡(luò)模式的資源整合方式更加適用于元數(shù)據(jù)的建立,主要原因有三:1)獨(dú)立模式下的數(shù)據(jù)庫均有它們的元數(shù)據(jù)庫,當(dāng)數(shù)據(jù)庫達(dá)到一定數(shù)量時(shí),元數(shù)據(jù)也會變得十分龐大,這樣不僅不利于數(shù)據(jù)庫的管理,還會增加檢索的時(shí)間,而采用網(wǎng)絡(luò)模式進(jìn)行資源整合,就會有基本固定的元數(shù)據(jù)庫數(shù)量;2)由于不同數(shù)據(jù)庫之間也存在著相同的資源類型,如期刊單篇同時(shí)存在于特色庫和CNKI 中,獨(dú)立模式的資源整合方式會增加各個(gè)數(shù)據(jù)庫的元數(shù)據(jù),這樣不僅使元數(shù)據(jù)的定義太過隨意,還增加了職員的工作量;3)由于元數(shù)據(jù)的標(biāo)準(zhǔn)需要依據(jù)相關(guān)的資源類型來建立,所以采用網(wǎng)絡(luò)模式的資源整合方式更加合理。
4 特色數(shù)據(jù)庫元數(shù)據(jù)建立的基本原則
作為描述數(shù)據(jù)的特殊數(shù)據(jù),元數(shù)據(jù)建立的目的就是便于特色資源的檢索和存取。通過對特色資源的運(yùn)行方式、功能特點(diǎn)和系統(tǒng)的總體運(yùn)行性能進(jìn)行統(tǒng)一的描述和規(guī)定,元數(shù)據(jù)的建立將特色資源進(jìn)行標(biāo)引以方便廣大用戶的檢索與使用。但是,目前首先要進(jìn)行考慮的特色資源的共享問題,因此,特色數(shù)據(jù)庫元數(shù)據(jù)的建立應(yīng)遵循以下原則:
4.1準(zhǔn)確性原則
按照元數(shù)據(jù)的定義,其目的是為了完成對數(shù)據(jù)內(nèi)容的描述。因此,準(zhǔn)確無誤的元數(shù)據(jù)標(biāo)引是實(shí)現(xiàn)準(zhǔn)確描述數(shù)據(jù)的前提。具體而言,就是要求元數(shù)據(jù)建立不僅能準(zhǔn)確的描述信息資源,還能保證使用的相關(guān)術(shù)語、元素定義等概念清晰,不存在模棱兩可的情況,且不使用那些易于發(fā)生歧義的元數(shù)據(jù)。換句話說,元數(shù)據(jù)建立時(shí)不但要將著錄標(biāo)準(zhǔn)、傳輸語言等進(jìn)行統(tǒng)一規(guī)定,還要對元素的設(shè)置、標(biāo)記語言及著錄的原則進(jìn)行嚴(yán)格的規(guī)定。只有實(shí)現(xiàn)這樣的元數(shù)據(jù)標(biāo)引,所建特色數(shù)據(jù)庫的檢索質(zhì)量和檢索效率才能達(dá)到最好的效果。
4.2標(biāo)準(zhǔn)化原則
在特色數(shù)據(jù)庫的建設(shè)時(shí),標(biāo)準(zhǔn)化是實(shí)現(xiàn)有效進(jìn)行信息標(biāo)引和資源共建共享的主要因素。但目前而言,元數(shù)據(jù)建立的標(biāo)準(zhǔn)尚存在很多問題。雖然像都柏林核心元素集等流的元數(shù)據(jù)建立已經(jīng)有了統(tǒng)一的通用的標(biāo)準(zhǔn),但是全國各地仍然難以在資源的共建共享上取得統(tǒng)一的認(rèn)識,在實(shí)際操作中仍各行其是,同時(shí)在元數(shù)據(jù)的標(biāo)引上也難以達(dá)成一致。即使是對相同元素進(jìn)行元數(shù)據(jù)的著錄時(shí),差異往往也會很大。例如,最初像都柏林核心元素集只規(guī)定有15種核心集元素,以達(dá)到規(guī)范、簡化元數(shù)據(jù)的標(biāo)引過程。但是具體到各地圖書館后,很多圖書館在此基礎(chǔ)上盲目擴(kuò)充,使得該數(shù)據(jù)集日益復(fù)雜化,越來越難以實(shí)現(xiàn)標(biāo)準(zhǔn)化了。元數(shù)據(jù)的標(biāo)準(zhǔn)化內(nèi)涵廣泛,既包括元素著錄時(shí)內(nèi)容的標(biāo)準(zhǔn)化、進(jìn)行相同類型的數(shù)字化信息資源的著錄時(shí)所用元數(shù)據(jù)的統(tǒng)一性,還包括元數(shù)據(jù)建立時(shí)采用的編碼語言的統(tǒng)一化等方面。
4.3互操作性原則
當(dāng)不同的組織和管理且相關(guān)技術(shù)規(guī)范不完全相同,應(yīng)該給用戶提供統(tǒng)一的檢索界面,實(shí)現(xiàn)對用戶的一致,這就是元數(shù)據(jù)的互操作性原則。由于組織信息進(jìn)行特色數(shù)據(jù)庫的建立時(shí),各地圖書館所采用的元數(shù)據(jù)標(biāo)準(zhǔn)難免會有出入,且學(xué)科和內(nèi)容也有較大差別,數(shù)據(jù)庫建成后又要求實(shí)現(xiàn)資源的共享,故應(yīng)該遵循元數(shù)據(jù)建立的互操作性原則,以滿足客戶需求,實(shí)現(xiàn)特色數(shù)據(jù)庫的建立。
4.4編碼語言的統(tǒng)一性原則
實(shí)現(xiàn)對元數(shù)據(jù)的元素與結(jié)構(gòu)的描述和定義的語法規(guī)則和具體語義就是元數(shù)據(jù)的編碼語言。就目前而言,元數(shù)據(jù)建立時(shí)使用的編碼語言有很多種,具體包括超文本標(biāo)記語言(Hypertext Markup Language,HTML)、標(biāo)準(zhǔn)通用標(biāo)記語言(Standard General Markup Language,SGML)及可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)這三種。有的元數(shù)據(jù)對使用何種編碼語言有著明確的規(guī)定,如美國聯(lián)邦聯(lián)邦地理數(shù)據(jù)委員會、TE1和EAD都只使用SGML語言。有的元數(shù)據(jù)在這方面又沒有相關(guān)的規(guī)定,如DC數(shù)據(jù),既有使用XML的,也有使用HTML的。考慮到資源的共享和數(shù)據(jù)交換,元數(shù)據(jù)作為傳遞計(jì)算機(jī)系統(tǒng)所能理解的存儲數(shù)據(jù)和信息,其元素結(jié)構(gòu)和組織方式必須要能被計(jì)算機(jī)理解。但是由于元數(shù)據(jù)有著不甚規(guī)范的編碼語言,造成了元數(shù)據(jù)的格式記錄和編碼規(guī)則不統(tǒng)一,這樣的元數(shù)據(jù)建立的特色數(shù)據(jù)庫就難以實(shí)現(xiàn)資源的共享和數(shù)據(jù)的管理。因此,采用規(guī)范、統(tǒng)一的元數(shù)據(jù)編碼語言是實(shí)現(xiàn)信息資源的準(zhǔn)確描述和資源共享的必然選擇。
4.5專用性和通用性原則
元數(shù)據(jù)建立的專用性指的是某種元數(shù)據(jù)的建立只能完成一種特定信息資源的描述。而元數(shù)據(jù)的通用性原則指的是某種元數(shù)據(jù)可以實(shí)現(xiàn)多種信息資源的描述。元數(shù)據(jù)的專用性適用于對某特定信息資源實(shí)現(xiàn)很好的描述,但難以對其他信息資源進(jìn)行適當(dāng)?shù)拿枋觯欢獢?shù)據(jù)的通用性原則能實(shí)現(xiàn)對多種信息資源的有效描述,卻對特定信息資源缺乏足夠的描述力度。盡管特色數(shù)據(jù)庫本身是一種專指的數(shù)據(jù)庫,但是作為優(yōu)秀的特色資源庫,其專指的應(yīng)該是學(xué)科,但是該學(xué)科所覆蓋的內(nèi)容是可以很廣泛的。因此,為實(shí)現(xiàn)眾多信息資源的有效整合和優(yōu)秀的特色數(shù)據(jù)庫建設(shè),在進(jìn)行元數(shù)據(jù)建立時(shí)應(yīng)兼顧元數(shù)據(jù)建立的專用性和通用性,在兩者間找到平衡,達(dá)到更好的效果。
5 結(jié)束語
元數(shù)據(jù)的建立是建設(shè)圖書館特色數(shù)據(jù)庫、有效整合和管理信息資源的基礎(chǔ),本文對元數(shù)據(jù)的基本概念和特點(diǎn)作了較為詳細(xì)的闡述,其次針對元數(shù)據(jù)的建立過程中應(yīng)注意的諸多問題進(jìn)行了簡要分析,最后提出了元數(shù)據(jù)建立的基本原則。
參考文獻(xiàn)
[1]李凌杰.特色數(shù)據(jù)庫建設(shè)中的元數(shù)據(jù)質(zhì)量控制研究[J].圖書情報(bào)工作,2010(05)43-46.
[2]袁小一,蘇智星.淺談特色數(shù)據(jù)庫元數(shù)據(jù)的建立[J].晉圖學(xué)刊,2005(05)28-30+35.
[3]陰小建.基于XML的特色數(shù)據(jù)庫平臺研究[D].山東師范大學(xué),2010.
篇3
由于缺乏統(tǒng)一的組織和管理,相關(guān)網(wǎng)絡(luò)信息的類目設(shè)置十分混亂,如類目劃分沒有遵循合理的標(biāo)準(zhǔn),劃分同一層次時(shí)采用2個(gè)或2個(gè)以上的劃分標(biāo)準(zhǔn),沒有應(yīng)用統(tǒng)一的標(biāo)準(zhǔn);資源劃分時(shí),重復(fù)或遺漏現(xiàn)象較多;很多不符合基本邏輯規(guī)則的情況,如整體不能包含局部等在網(wǎng)絡(luò)信息的類目展開中大量存在。基于這些原因,當(dāng)用戶檢索時(shí),搜索到的信息就可能與實(shí)際需求之間存在很大的偏差。③為了更好的反映動態(tài)變化,大多數(shù)網(wǎng)站都會設(shè)置最新動態(tài)和熱點(diǎn)專題等類目。盡管這些類目的設(shè)置可以更好地幫助用戶了解當(dāng)前最新的信息,但是也會間接的降低信息組織的規(guī)律性、邏輯性和層次性,增加網(wǎng)絡(luò)信息的易逝性,給用戶的檢索活動帶來諸多不便。從當(dāng)前網(wǎng)絡(luò)信息資源組織的現(xiàn)狀來看,網(wǎng)絡(luò)信息資源組織者必須通過改進(jìn)與完善原有的信息資源組織方法,來構(gòu)建一個(gè)更加適合網(wǎng)絡(luò)環(huán)境下信息資源的組織方法。基于這種需求背景,元數(shù)據(jù)的網(wǎng)絡(luò)信息資源組織方式產(chǎn)生了。
元數(shù)據(jù)及元數(shù)據(jù)方案分析
元數(shù)據(jù)元數(shù)據(jù)(Metadata)就是Internet中用于描述數(shù)據(jù)與資源,促進(jìn)信息資源組織與發(fā)現(xiàn)的數(shù)據(jù)。關(guān)于元數(shù)據(jù)有以下幾點(diǎn)值得注意:(1)元數(shù)據(jù)不一定是數(shù)字形式,它還可能是其他形式,即元數(shù)據(jù)的形式是多樣的。(2)元數(shù)據(jù)不僅可以用于對信息對象進(jìn)行描述,同時(shí)還可用于對被描述對象的其他情況進(jìn)行說明。(3)元數(shù)據(jù)可來自各種不同的資源,除了由人類提供或是計(jì)算機(jī)自動生成外,通過推斷一項(xiàng)資源與另一項(xiàng)資源的關(guān)系也可以得到。(4)在信息對象中可以自由增減元數(shù)據(jù)。元數(shù)據(jù)方案(1)MARC(機(jī)讀目錄格式)。機(jī)讀目錄格式(Ma-chine-ReadableCatalogingFormat,MARC)是各國信息資源的主要表示形式之一。它提供了一整套完整而詳盡的流式數(shù)據(jù)表示規(guī)范,在圖書館書目記錄數(shù)據(jù)應(yīng)用時(shí),可作為描述、存儲、交換、處理和檢索信息的基礎(chǔ)。經(jīng)過多年的發(fā)展后,MARC已經(jīng)不僅僅用于描述書目信息,還可用于描述和存取電子信息資源。(2)DC(都柏林核心)。都柏林核心(DC)全稱都柏林核心元素集(DublinCoreElementSet),由O-CLC(聯(lián)機(jī)計(jì)算機(jī)圖書館中心)和NSCA(美國超級計(jì)算應(yīng)用中心)在第一屆元數(shù)據(jù)研討會上討論制定的一種元數(shù)據(jù)格式。DC作為一種元素集,包含了15個(gè)基本的數(shù)據(jù)元素和44個(gè)限定詞。早期制定DC主要是為了對出版物的信息進(jìn)行描述,而在隨后召開的6次元數(shù)據(jù)研討會上,經(jīng)過不斷地補(bǔ)充和修訂,DC的結(jié)構(gòu)與功能已逐漸趨于完善。同時(shí),由于它所具有的簡單、靈活,易于理解,可擴(kuò)展性、兼容性強(qiáng)等特點(diǎn),使得它成為了一個(gè)很好的適用于網(wǎng)絡(luò)信息資源的標(biāo)識。(3)XML(可擴(kuò)展標(biāo)記語言)。可擴(kuò)展標(biāo)記語言(ExtensibleMarkupLanguage,XML)從SGML發(fā)展而來,是SGML的一個(gè)精簡子集,既保留了SGML的可擴(kuò)展性與適用性,同時(shí)也支持了靈活多變的Web應(yīng)用。更為重要的是,它提供了一種對文檔進(jìn)行結(jié)構(gòu)化描述的機(jī)制,便于將各種結(jié)構(gòu)的文檔作為統(tǒng)一的Web文檔的一部分進(jìn)行傳輸。由于采用的是結(jié)構(gòu)化的描述方式,因此利用XML便可以在元數(shù)據(jù)集中定義層次、嵌套結(jié)構(gòu)比較復(fù)雜的元素。此外,XML所具有的自己的文件類型(DTD)為在通用的元數(shù)據(jù)外定義自己的元數(shù)據(jù)集合提供了便利。(4)RDF(資源描述框架)。資源描述框架(Re-sourceDescriptionFramework,RDF)使用XML語法來表示的資源模型,是一個(gè)用于表示W(wǎng)eb資源特性及資源與資源之間關(guān)系的框架。RDF的提出對解決不同元數(shù)據(jù)的互操作性與兼容性具有非常大的幫助,同時(shí)也為元數(shù)據(jù)在Web上的應(yīng)用提供了一種基礎(chǔ)結(jié)構(gòu),使得各應(yīng)用程序之間可以在Web上進(jìn)行交換元數(shù)據(jù),為促進(jìn)網(wǎng)絡(luò)資源的自動化處理提供便利。為了實(shí)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一,國際標(biāo)準(zhǔn)化組織(In-ternationalOrganizationforStandardization,ISO)最近專門成立了一個(gè)元數(shù)據(jù)工作組,用于對元數(shù)據(jù)全球性標(biāo)準(zhǔn)的研究和建立。這一國際性標(biāo)準(zhǔn)化研究工作組的建立,推動元數(shù)據(jù)的標(biāo)準(zhǔn)化進(jìn)程具有十分重要的意義,將使其不斷向標(biāo)準(zhǔn)化、結(jié)構(gòu)化方向邁進(jìn)。隨著因特網(wǎng)的不斷發(fā)展,建立標(biāo)準(zhǔn)的元數(shù)據(jù)系統(tǒng)已成為人們的共同追求的目標(biāo)。在這其中,元數(shù)據(jù)方案的標(biāo)準(zhǔn)化工作已經(jīng)受到了人們的普遍關(guān)注,可以說,元數(shù)據(jù)的重用與元數(shù)據(jù)的互換已成為當(dāng)前和今后元數(shù)據(jù)發(fā)展的必然趨勢。
元數(shù)據(jù)在網(wǎng)絡(luò)信息資源組織中的作用及應(yīng)用
元數(shù)據(jù)在網(wǎng)絡(luò)信息資源組織中的作用(1)描述。元數(shù)據(jù)所提供的描述功能就是從元數(shù)據(jù)的定義出發(fā),對信息對象的內(nèi)容與位置進(jìn)行描述,實(shí)現(xiàn)對信息對象的存取和利用。(2)定位。一般而言,元數(shù)據(jù)中都會包含與網(wǎng)絡(luò)信息資源位置方面相關(guān)的信息,利用這些信息就可以準(zhǔn)確確定資源的位置,有效地促進(jìn)信息對象的發(fā)現(xiàn)與檢索。除此之外,在確定了信息對象的元數(shù)據(jù)后,對其在數(shù)據(jù)庫及其他集合體中的位置基本上也就可以確定了。(3)搜尋。在著錄過程中,可以對信息對象中的重要信息進(jìn)行組織,賦予其語意,同時(shí)建立起聯(lián)系,保證檢索結(jié)果更加準(zhǔn)確,符合用戶需求,為用戶提供有價(jià)值的識別資源,發(fā)現(xiàn)真正需要的資源。(4)評估。元數(shù)據(jù)所具有的能夠提供有關(guān)信息對象的名稱、內(nèi)容、時(shí)間、格式、作者等信息的功能,使得用戶在不對信息對象進(jìn)行瀏覽的情況下,就可以對信息對象有一個(gè)初步的認(rèn)識和了解,然后再參照相關(guān)的標(biāo)準(zhǔn),就可以對網(wǎng)絡(luò)信息資源價(jià)值的大小進(jìn)行評估,并以此來作為存取與利用資源的標(biāo)準(zhǔn)。(5)選擇。利用元數(shù)據(jù)提供的相關(guān)信息資源的描述信息,并在參考相應(yīng)評估標(biāo)準(zhǔn)的情況下,用戶就可以非常便利的選擇符合自己需求的信息資源加以利用。元數(shù)據(jù)在網(wǎng)絡(luò)信息資源組織中的應(yīng)用元數(shù)據(jù)及其在XML/RDF結(jié)合應(yīng)用下,可以更好地描述與管理網(wǎng)絡(luò)信息資源。而在其上的應(yīng)用技術(shù)———推技術(shù)(PUSH),則為用戶在實(shí)際的應(yīng)用中提供了巨大的便利。推技術(shù)是在元數(shù)據(jù)的基礎(chǔ)上產(chǎn)生的,其核心主要是:可以自動搜尋網(wǎng)上信息資源,然后在用戶需求的基礎(chǔ)上對組織進(jìn)行加工和管理。目前,在眾多針對元數(shù)據(jù)的研究性工作中,如DC、RDF等的研究,對于推技術(shù)而言都是用于實(shí)現(xiàn)主動信息服務(wù)的基礎(chǔ)性研究工作。推技術(shù)可直接、全面的表達(dá)出用戶的信息需求,從而實(shí)現(xiàn)了真正意義上的面向用戶;信息查詢是面向用戶、主題的,全部可由用戶來進(jìn)行。將拉技術(shù)與推技術(shù)有機(jī)結(jié)合,可以產(chǎn)生多種方式,如先推后拉、先拉后推、推中有拉、拉中有推等,這樣不但可以有效減輕帶給網(wǎng)絡(luò)的負(fù)擔(dān),還可以擴(kuò)大用戶范圍,為用戶提供更為有效的服務(wù)。可以說,它將成為信息系統(tǒng)實(shí)現(xiàn)用戶主動信息服務(wù)發(fā)展的一個(gè)方向。
篇4
關(guān)鍵詞:元數(shù)據(jù) 電子文件 檔案著錄
元數(shù)據(jù),英文名為 “metadata”,最早出現(xiàn)于計(jì)算機(jī)信息技術(shù)領(lǐng)域,目前已經(jīng)在多個(gè)專業(yè)領(lǐng)域,如圖書情報(bào)、博物館及檔案等領(lǐng)域中得到廣泛應(yīng)用,電子文件管理元數(shù)據(jù)研究已經(jīng)成了檔案數(shù)字化研究中的基礎(chǔ)項(xiàng)目。發(fā)展中國的數(shù)字檔案館不能不對元數(shù)據(jù)進(jìn)行研究。
一、檔案界關(guān)于元數(shù)據(jù)研究的階段劃分
檔案界關(guān)于元數(shù)據(jù)定義的研究起始于20世紀(jì)80年代末、90年代初。關(guān)于元數(shù)據(jù)定義的研究目前已經(jīng)經(jīng)歷了三個(gè)發(fā)展階段,第一階段研究認(rèn)為在電子文件管理中應(yīng)有元數(shù)據(jù)的參與,形成了對元數(shù)據(jù)引進(jìn)檔案領(lǐng)域后的初始定義;第二階段是在實(shí)踐基礎(chǔ)上展開了元數(shù)據(jù)項(xiàng)目研究之后,形成了對元數(shù)據(jù)的深化認(rèn)識;第三個(gè)階段則是目前根據(jù)元數(shù)據(jù)在檔案界實(shí)際應(yīng)用而形成的對元數(shù)據(jù)定義的最新成果。
1.第一階段――元數(shù)據(jù)的初始定義
元數(shù)據(jù)是美國著名的電子文件專家戴維?比爾曼首先引進(jìn)電子文件研究領(lǐng)域的。對其最初的定義是:元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在這一層面上,元數(shù)據(jù)的含義與計(jì)算機(jī)信息技術(shù)領(lǐng)域中的元數(shù)據(jù)的含義是一致的。
然而,這一含義過于抽象、泛指。因?yàn)槠溥m用的范圍,既可以是檔案領(lǐng)域,也可以是其他領(lǐng)域,而且元數(shù)據(jù)對檔案界來說又是一個(gè)新出現(xiàn)的術(shù)語,在這之前檔案工作者還從未遇到過這一術(shù)語,所以,元數(shù)據(jù)這一概念不是很容易被檔案工作人員所理解。由于這一原因,在國際檔案界,各國電子文件專家、學(xué)者又在實(shí)踐基礎(chǔ)上對元數(shù)據(jù)定義進(jìn)行了新的探索。
2.第二階段――著錄元數(shù)據(jù)
由于元數(shù)據(jù)的含義比較抽象,不直觀,不容易被檔案工作人員所理解,所以,為了使元數(shù)據(jù)在檔案領(lǐng)域有其更為專指的性質(zhì)和含義,研究者又提出了著錄元數(shù)據(jù)的概念,即元數(shù)據(jù)是關(guān)于單一電子文件和文件組合的背景及其相互關(guān)系的結(jié)構(gòu)化著錄數(shù)據(jù)。其中具有代表性的就是英國公共檔案館《電子文件管理指南(1999)》中所提出的定義:元數(shù)據(jù)指的是關(guān)于某份文件和文件賴以存在的集合體的信息(如它們的背景聯(lián)系及關(guān)系),泛指結(jié)構(gòu)化的描述和著錄數(shù)據(jù)。①
著錄元數(shù)據(jù)主要指的是著錄信息。著錄信息是檔案界人員所能理解的,而且是早已熟悉的,所以,“元數(shù)據(jù)是著錄信息”的提法比“元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)”的提法大大前進(jìn)了一步。因?yàn)椋@樣就把元數(shù)據(jù)這一新的術(shù)語與傳統(tǒng)的檔案工作的實(shí)踐很好地結(jié)合起來,并且也有助于實(shí)踐中對元數(shù)據(jù)的操作與運(yùn)用。
在這方面,美國的電子文件專家戴維?沃爾思(David Wallance)于1993年在加拿大《檔案》雜志上就撰文指出: 元數(shù)據(jù)管理就是一個(gè)作為目前著錄的替代策略而提出來的。原則上,這種方法對檔案工作人員不是什么新方法,因?yàn)闄n案工作者早已能獲取和利用元數(shù)據(jù)了。但是,他們以前并沒有聽說過“元數(shù)據(jù)”這個(gè)詞。②
對于這個(gè)觀點(diǎn),澳大利亞《工業(yè)、研究與教育戰(zhàn)略合作元數(shù)據(jù)項(xiàng)目》的主要負(fù)責(zé)人蘇?麥克密斯(Sue McKemmish)教授在1998年發(fā)表的文章中也指出:如果我們以其廣義和靈活的方式來考慮元數(shù)據(jù),那么檔案工作者是元數(shù)據(jù)的專家,元數(shù)據(jù)實(shí)際就是久以存在于我們周圍的一個(gè)簡單的新詞,只不過隨著計(jì)算機(jī)的出現(xiàn),被賦予了新名稱而稍顯得不同而已。傳統(tǒng)的檢索工具、目錄卡片、案卷目錄、案卷、紙張文件的文頭與文尾都包括了元數(shù)據(jù)。③
但是,如果把元數(shù)據(jù)定義為著錄元數(shù)據(jù),容易把元數(shù)據(jù)等同于傳統(tǒng)的著錄數(shù)據(jù),如《國際標(biāo)準(zhǔn)――檔案著錄規(guī)則(總則)》、《檔案機(jī)讀目錄格式》等。但是從當(dāng)初元數(shù)據(jù)引進(jìn)檔案界的最直接的動機(jī)來看,主要是為解決數(shù)字化環(huán)境中的電子文件管理問題。所以,如何使元數(shù)據(jù)與電子文件管理更直接結(jié)合起來,就成為檔案界所致力探索的領(lǐng)域。
3.第三階段――電子文件管理元數(shù)據(jù)
在著錄元數(shù)據(jù)的基礎(chǔ)上,國際檔案界又提出了電子文件(檔案)管理元數(shù)據(jù),其真正的含義被定義為:“在對電子文件及其與文件創(chuàng)建和管理有關(guān)的人、過程和系統(tǒng)進(jìn)行確認(rèn)以及為其提供憑證和背景信息的過程中,有關(guān)文件的管理、利用和文件可理解性的元數(shù)據(jù)。”④“電子文件管理元數(shù)據(jù)是專門設(shè)計(jì)用于滿足電子文件管理需求,有關(guān)保證文件的真實(shí)性、可靠性、穩(wěn)定性、安全性、完整性、可理解性與可利用性的數(shù)據(jù)。”⑤
由于元數(shù)據(jù)在電子文件管理中所起的作用和目的性不同于其他用途的元數(shù)據(jù),所以,也就把電子文件管理元數(shù)據(jù)與其他更為泛指的元數(shù)據(jù)區(qū)別開來了,而且也與其他領(lǐng)域中所應(yīng)用的元數(shù)據(jù)區(qū)別開來了。所以,現(xiàn)在檔案界所提出的元數(shù)據(jù),已與圖書館界、博物館界的元數(shù)據(jù)在內(nèi)涵與外延上都不盡相同了。
二、檔案界關(guān)于元數(shù)據(jù)外延的研究
前面我們討論與界定了元數(shù)據(jù)的內(nèi)涵,那么,元數(shù)據(jù)所指的外延是什么呢?或者元數(shù)據(jù)所指的對象有哪些呢?對元數(shù)據(jù)外延的理解一般可分為三層:
1.單體元數(shù)據(jù)。即元數(shù)據(jù)是一個(gè)個(gè)單獨(dú)的實(shí)體,如表達(dá)電子文件的題名、責(zé)任者、日期等的元數(shù)據(jù)。
2.元數(shù)據(jù)組。即多個(gè)具有共同性質(zhì)的元數(shù)據(jù)實(shí)體的組合。如具有表示電子文件結(jié)構(gòu)這一共同性質(zhì)的多個(gè)元數(shù)據(jù)實(shí)體:MARC、TEI、JPEG、MPEG 等組合在一起,就構(gòu)成一個(gè)元數(shù)據(jù)組合。由于元數(shù)據(jù)性質(zhì)的多樣性,所以,同一個(gè)元數(shù)據(jù)同時(shí)可以歸入多個(gè)不同的元數(shù)據(jù)組合中。
3.元數(shù)據(jù)系統(tǒng)。即由單體元數(shù)據(jù)和元數(shù)據(jù)組所構(gòu)成的一個(gè)有序化的系統(tǒng)。如《電子系統(tǒng)中文件永久性憑證問題的國際研究項(xiàng)目(InterPARES)》的《分析用模板》、美國匹茲堡大學(xué)項(xiàng)目的《元數(shù)據(jù)參考模型》和澳大利亞南威爾士州檔案館制定的《文件管理元數(shù)據(jù)標(biāo)準(zhǔn)》等均是元數(shù)據(jù)系統(tǒng)。
三、元數(shù)據(jù)與著錄信息的區(qū)別與聯(lián)系
1.元數(shù)據(jù)與著錄信息的區(qū)別
元數(shù)據(jù)與傳統(tǒng)意義上的著錄信息是不相同的:
(1)兩者的實(shí)現(xiàn)目的不同。傳統(tǒng)的著錄信息的目的主要是用于檢索,主要是為實(shí)現(xiàn)檔案的情報(bào)價(jià)值而設(shè)置的;而元數(shù)據(jù)主要目的是用于憑證,主要是為實(shí)現(xiàn)檔案的憑證價(jià)值而設(shè)置的。
(2)兩者的實(shí)現(xiàn)方式不同。傳統(tǒng)的著錄信息的實(shí)現(xiàn)方式是“后端控制”,即文件歸檔而移交至檔案館后才進(jìn)行著錄;而元數(shù)據(jù)實(shí)現(xiàn)方式是“前端控制”,即在文件創(chuàng)建時(shí),就同時(shí)對文件進(jìn)行獲取登錄。
(3)兩者的實(shí)現(xiàn)環(huán)境不同。傳統(tǒng)的著錄信息主要實(shí)現(xiàn)環(huán)境是手工環(huán)境,即在手工環(huán)境下,對文件進(jìn)行著錄;而元數(shù)據(jù)實(shí)現(xiàn)的環(huán)境主要是數(shù)字化的系統(tǒng)環(huán)境,即在數(shù)字化的系統(tǒng)環(huán)境中對文件進(jìn)行控制。
(4)兩者實(shí)現(xiàn)的過程不同。傳統(tǒng)的著錄側(cè)重于檔案工作過程中某一環(huán)節(jié)上對著錄單位的控制;而元數(shù)據(jù)的獲取登錄,則是對電子文件從其產(chǎn)生至結(jié)束的整個(gè)生命周期的控制。
(5)兩者實(shí)現(xiàn)手段不同。傳統(tǒng)的著錄實(shí)現(xiàn)手段主要是采用手工著錄,即使在制作機(jī)讀目錄的情況下,其著錄的過程也是主要靠手工著錄完成的;而元數(shù)據(jù)的獲取登錄則將元數(shù)據(jù)系統(tǒng)預(yù)設(shè)于計(jì)算機(jī)系統(tǒng)之中,從而使大部分元數(shù)據(jù)可由計(jì)算機(jī)系統(tǒng)自動生成。
2.元數(shù)據(jù)與著錄信息的聯(lián)系
元數(shù)據(jù)與傳統(tǒng)著錄信息的聯(lián)系體現(xiàn)在其個(gè)體的共同性上,如反映文件內(nèi)容的題名、反映責(zé)任對象的責(zé)任者、反映文件生成時(shí)間的日期等,這些個(gè)體在元數(shù)據(jù)中有,在傳統(tǒng)的著錄信息中也有。這是因?yàn)椋M管元數(shù)據(jù)與著錄信息在以上這些方面有區(qū)別,但是以上這些方面并沒有窮盡它們的所有性質(zhì),在除以上這些性質(zhì)之外,在某些性質(zhì)上兩者又具共同性。所以,研究元數(shù)據(jù),我們又不能不注意到傳統(tǒng)檔案著錄信息,尋求它們之間的共性,以實(shí)現(xiàn)對傳統(tǒng)檔案與電子文件在計(jì)算機(jī)系統(tǒng)中的集成管理。
注釋:
① Public Record Office. Management Appraisal and Preservation of Electronic Records
② David Wallance. Metadata and Archival Management of Electronic Records. Archivaria. 1993. 36
③ Sue McKemmish Glenda Acland etc. Describing Records in Context in the Continuum The Australian recordkeeping Metadata Schema. Archivaria. 2000. 48
④ ICA. Guide for Managing Electronic Records from an Archival Perspective. 1997. p20.
篇5
關(guān)鍵詞:元數(shù)據(jù);異構(gòu)數(shù)據(jù)源;XML;信息系統(tǒng)集成
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2007)03-10618-02
1 引言
在信息化建設(shè)中,許多單位都先后獨(dú)立開發(fā)了信息管理系統(tǒng)。由于這些系統(tǒng)在開發(fā)平臺、開發(fā)工具,開發(fā)時(shí)間的不同,它們難免會存在邏輯結(jié)構(gòu)、物理結(jié)構(gòu)的不同,即異構(gòu)性。在實(shí)際工作中,往往又需要各個(gè)系統(tǒng)的信息之間進(jìn)行交換、整合、同步等操作來滿足業(yè)務(wù)需求,但是由于系統(tǒng)的異構(gòu)性,它們之間不能進(jìn)行簡單的信息交換,給實(shí)際工作帶來諸多不便。因此信息系統(tǒng)集成已經(jīng)成為當(dāng)前信息化建設(shè)的迫切需求。
本文針對上述問題,把XML作為數(shù)據(jù)交換的中間文件,提出了一種基于元數(shù)據(jù)的系統(tǒng)集成的實(shí)現(xiàn)方法。
XML(eXtensible Markup Language)可擴(kuò)展標(biāo)識語言是W3C組織的XML工作組在1996的SGML(Standard Generalized Markup Language)工作組的基礎(chǔ)上創(chuàng)立的,于1998年2月正式推出了XML1.0版本。XML是SGML的一個(gè)嚴(yán)格篩選的子集,它既保留了SGML的絕大部分實(shí)用的功能,又大大簡化了SGML過于復(fù)雜的地方,使XML變得功能強(qiáng)大而又易于使用,特別是它的平臺無關(guān)性,非常適合應(yīng)用于異構(gòu)系統(tǒng)集成中的數(shù)據(jù)交換。
Metadata元數(shù)據(jù),通常稱為data about data或是data describes otherData。目前,元數(shù)據(jù)是網(wǎng)絡(luò)資源組織發(fā)展的熱點(diǎn),它與XML的發(fā)展密不可分。基于XML的元數(shù)據(jù)格式將走向標(biāo)準(zhǔn)化,為各種異構(gòu)系統(tǒng)的集成提供必要的手段。
集成系統(tǒng)采用基于元數(shù)據(jù)的集成方式。其過程是:系統(tǒng)集成模塊接收到查詢請求后,對命令進(jìn)行解析,對照元數(shù)據(jù)進(jìn)行語義檢查和XML封裝,然后將XML格式的查詢發(fā)送到Wrapper,由之轉(zhuǎn)化分解為相應(yīng)的SQL查詢命令,通過JDBC接口對數(shù)據(jù)庫操作,將返回的數(shù)據(jù)源查詢結(jié)果提交回系統(tǒng)集成模塊,最后由系統(tǒng)集成模塊綜合轉(zhuǎn)化后用于用戶界面層顯示,這樣就把已有的多個(gè)數(shù)據(jù)源集成為一個(gè)全局管理、采用統(tǒng)一視圖、面向用戶的集成系統(tǒng)。異構(gòu)系統(tǒng)對用戶而言完全是透明的。
2 集成系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)層次結(jié)構(gòu)
基于元數(shù)據(jù)的異構(gòu)數(shù)據(jù)源集成系統(tǒng)如圖1所示。最上層是用戶層,面向普通用戶提供服務(wù),用戶輸入查詢條件,得到查詢結(jié)果;中間層是系統(tǒng)層,提取用戶層的查詢條件,返回相應(yīng)的查詢結(jié)果,具有查詢命令解析、元數(shù)據(jù)管理和數(shù)據(jù)綜合等功能;最底層的是數(shù)據(jù)層,包括各種結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),是實(shí)際的數(shù)據(jù)存儲地。
圖1 異構(gòu)數(shù)據(jù)源集成系統(tǒng)層次結(jié)構(gòu)圖
2.2 用戶界面
用戶界面采用JSP動態(tài)網(wǎng)頁設(shè)計(jì),將用戶錄入的查詢條件提交系統(tǒng)集成模塊,并將最終的查詢結(jié)果顯示出來。
2.3 系統(tǒng)集成模塊
系統(tǒng)集成模塊分為命令解析、命令分派、元數(shù)據(jù)管理、數(shù)據(jù)綜合,數(shù)據(jù)轉(zhuǎn)換等功能組成,如圖2所示。查詢命令通過命令解析器的解析后交給命令分派器,命令分派器從元數(shù)據(jù)庫中查閱相關(guān)數(shù)據(jù)源的信息,將查詢命令封裝為XML發(fā)送給指定數(shù)據(jù)源的Wrapper進(jìn)行處理。查詢的結(jié)果或錯誤信息經(jīng)Wrapper傳回?cái)?shù)據(jù)綜合器。數(shù)據(jù)綜合器從元數(shù)據(jù)庫中讀取業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則信息,對查詢結(jié)果進(jìn)行綜合。經(jīng)過數(shù)據(jù)轉(zhuǎn)換器格式轉(zhuǎn)換,生成最終的查詢結(jié)果,以一定的格式呈現(xiàn)給用戶界面顯示。
元數(shù)據(jù)是系統(tǒng)集成能否實(shí)現(xiàn)的關(guān)鍵。元數(shù)據(jù)庫中主要存放兩類元數(shù)據(jù):數(shù)據(jù)源描述和業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)規(guī)則。元數(shù)據(jù)庫將這兩類元數(shù)據(jù)集中存放,從而實(shí)現(xiàn)集中統(tǒng)一管理。
3 元數(shù)據(jù)的設(shè)計(jì)、元數(shù)據(jù)庫的實(shí)現(xiàn)途徑
3.1 元數(shù)據(jù)的設(shè)計(jì)
3.1.1 數(shù)據(jù)源描述規(guī)則部分元數(shù)據(jù)設(shè)計(jì)
該部分元數(shù)據(jù)包括如下部分:
(1)數(shù)據(jù)源所在機(jī)器的IP或機(jī)器名;(2)數(shù)據(jù)庫類型及名稱;(3)表名、列名及類型;(4)連接條件與篩選條件說明。
其中的表名、列名是Wrapper從數(shù)據(jù)庫中提取的,插入到XML文件的相應(yīng)部分。文件片段如下:
在一次關(guān)于人員和車輛分配的查詢中,首先通過查詢元數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則人員與車輛的關(guān)系,然后查詢元數(shù)據(jù)庫中人員庫和車輛庫的信息,分派查詢命令,最后綜合就可以給出人員和車輛的分配方案。
以上是部分元數(shù)據(jù)的設(shè)計(jì)方法,在集成系統(tǒng)中,對業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)規(guī)則采用管理員界面定制,方便動態(tài)維護(hù)和管理。
3.2 元數(shù)據(jù)庫的實(shí)現(xiàn)途徑
集成系統(tǒng)中元數(shù)據(jù)庫采用native XML Database數(shù)據(jù)庫Taminoo。Taminoo除了可以存儲和訪問XML外,還具備多項(xiàng)功能,包括Open Database Connectivity、符合Unicode要求、HTTP通信及處理非XML數(shù)據(jù)的能力。Taminoo擁有直接XML檢索和特殊檢索的能力,其查詢語言強(qiáng)大而簡短,可進(jìn)入任意深度。
4 集成系統(tǒng)實(shí)現(xiàn)
系統(tǒng)采用J2EE技術(shù)實(shí)現(xiàn),分別針對管理員界面層、系統(tǒng)集成模塊、接口規(guī)范定義。其中幾個(gè)關(guān)鍵技術(shù)實(shí)現(xiàn)如下。
4.1 元數(shù)據(jù)管理
元數(shù)據(jù)管理模塊通過發(fā)送查詢命令給Wrapper,由Wrapper將數(shù)據(jù)源的元數(shù)據(jù)信息提供給元數(shù)據(jù)庫,由元數(shù)據(jù)庫進(jìn)行統(tǒng)一全局管理,從而使多個(gè)數(shù)據(jù)源構(gòu)成一個(gè)統(tǒng)一視圖。通過對業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)規(guī)則的定制,為查詢的結(jié)果進(jìn)行數(shù)據(jù)綜合提供依據(jù)。
4.2 模塊間接口規(guī)范的定義
各個(gè)模塊間的數(shù)據(jù)交換用XML的文件格式。進(jìn)行數(shù)據(jù)交換時(shí),查詢元數(shù)據(jù)庫中相應(yīng)的信息,按照規(guī)則進(jìn)行數(shù)據(jù)封裝、轉(zhuǎn)換、傳輸和接收。增加了靈活性和動態(tài)適應(yīng)性。
4.3 Wrapper
Wrapper包括查詢語句轉(zhuǎn)換和結(jié)果轉(zhuǎn)換功能。查詢語句被轉(zhuǎn)換為相應(yīng)的SQL語句,通過JDBC驅(qū)動接口訪問具體的數(shù)據(jù)源。結(jié)果轉(zhuǎn)換部分依據(jù)查詢時(shí)建立的XML Schema創(chuàng)造XML元素節(jié)點(diǎn)樹等,然后將查詢結(jié)果插入到XML結(jié)果文檔中,從而實(shí)現(xiàn)相應(yīng)的轉(zhuǎn)換。
5 結(jié)束語
本文提出了一種基于元數(shù)據(jù)的異構(gòu)數(shù)據(jù)源的系統(tǒng)集成設(shè)計(jì)方案,并給出了系統(tǒng)設(shè)計(jì)和框架結(jié)構(gòu),對系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)進(jìn)行了討論。本系統(tǒng)將為異構(gòu)的信息系統(tǒng)的集成提供一種解決方案。在本單位的值班系統(tǒng)的信息化改造中,通過對該方案的實(shí)施,使單位內(nèi)各個(gè)獨(dú)立異構(gòu)的系統(tǒng)有效的集成,提供給用戶一個(gè)統(tǒng)一的視圖,提高了查詢效率,達(dá)到了預(yù)期的目的。
參考文獻(xiàn):
[1]Roth M T, Peter M. Schwarz. Don't Scrap It, Wrap It! A wrapper architecture for legacy data sources[A]. VLDB[C],1997:266-275.
[2]Ullman J D. Principles of database and knowledge-base systems[M]. Vol. II: the New Technologies. Computer Science Press, New York, NY, 1989.
[3]孫君明, 郭紅. 基于XML的異構(gòu)信息交換研究[J]. 計(jì)算機(jī)應(yīng)用研究,2003(1):69-73.
[4]沈兆陽. Java與XML數(shù)據(jù)庫整合應(yīng)用[M]. 北京: 清華大學(xué)出版社,2002.
[5]陳傳波, 胡書能. 基于J2EE體系的企業(yè)數(shù)據(jù)交換模型研究[J]. 計(jì)算機(jī)工程,2002,28(4):281-282.
[6]李安渝, 等. Web Services技術(shù)與實(shí)現(xiàn)[M]. 北京: 國防工業(yè)出版社,2003.
[7]李雙慶, 游蓮, 古平, 等. 一個(gè)基于XML的數(shù)據(jù)交換中間件技術(shù)[J]. 計(jì)算機(jī)科學(xué),2003,30(5):180-181.
篇6
當(dāng)人類具備了獲取海量數(shù)據(jù)和處理規(guī)模化數(shù)據(jù)的能力時(shí),以大數(shù)據(jù)應(yīng)用為特征的信息技術(shù)就會走進(jìn)我們的日常生活與工作之中。自然的、真實(shí)的數(shù)據(jù)能反映出客觀規(guī)律,是大數(shù)據(jù)之源;虛假的、杜撰的數(shù)據(jù)是污染源,必須從各個(gè)層面根除。安全生產(chǎn)領(lǐng)域尚沒有普遍的、規(guī)范的數(shù)據(jù)源獲取體系,因此,必須從數(shù)據(jù)源建設(shè)入手,獲取真實(shí)的數(shù)據(jù)。
規(guī)范安全監(jiān)管信息工作體系
安全生產(chǎn)監(jiān)管監(jiān)察涉及行業(yè)領(lǐng)域多、地域面積廣、風(fēng)險(xiǎn)種類復(fù)雜、監(jiān)管體系不完善等,于是長期陷入被動的“治療急診”和疲憊的“預(yù)防流行”困惑之中。任期壓力、任期風(fēng)險(xiǎn)主宰了決策思維,“預(yù)防為主、綜合治理”便缺乏理性共識,固本強(qiáng)基、長遠(yuǎn)謀劃、共治久安則成為“奢望”。
政策短期化、碎片化導(dǎo)致全系統(tǒng)的基礎(chǔ)能力弱化,難以構(gòu)建系統(tǒng)、完整、明晰的行政監(jiān)管邏輯關(guān)系,安全監(jiān)管信息化則無源可溯。信息化改變的是服務(wù)社會的方式,其價(jià)值充分體現(xiàn)在數(shù)據(jù)的真實(shí)性、實(shí)時(shí)性和集成性,精、準(zhǔn)、廣是互為制約的三要素。
實(shí)現(xiàn)安全監(jiān)管工作的現(xiàn)代化,既要重視信息化工作平臺建設(shè),又要重視新技術(shù)集成創(chuàng)新的普及,并且要遵循“由下而上建設(shè),由上而下指導(dǎo)”。邊建、邊用、邊完善,在“用”字上下功夫,力求“好用、管用、實(shí)用”。
從安全監(jiān)管重中之重破題
有效遏制重特大事故是我們必須完成的答卷,解決“查、防、治、救”科學(xué)化、信息化、法制化就是重中之重。科學(xué)地解決“查什么、怎么查、查哪里?測什么、怎么測、測哪里?治什么、怎么治、治哪里?”,是精準(zhǔn)的基礎(chǔ);借助信息技術(shù)實(shí)現(xiàn)指揮“一盤棋”、決策“一張圖”、行動“一張表”,互動“一張網(wǎng)”,是重要的支撐;完善“依法治安”,實(shí)現(xiàn)全方位的黨紀(jì)、法規(guī)威懾是重要的保障。
“查、防、治、救”的核心環(huán)節(jié)是科學(xué)建立查的目標(biāo)、指標(biāo)、周期、處置等工作體系,至簡致用,保障數(shù)據(jù)源的價(jià)值。與時(shí)俱進(jìn)地集成創(chuàng)新測、查等手段,不斷提高效能和質(zhì)量是科研工作的重點(diǎn)。面對多行業(yè)、多領(lǐng)域的重大風(fēng)險(xiǎn)源測控需求,四川省安全科學(xué)技術(shù)研究院于2012年設(shè)立了“重大風(fēng)險(xiǎn)源測控四川省重點(diǎn)實(shí)驗(yàn)室”,從礦山露天頭頂風(fēng)險(xiǎn)源入手,集成高分衛(wèi)星、三維激光、地下物探三項(xiàng)技術(shù)優(yōu)勢,構(gòu)建了“天空、地表、地下”(三界)多元數(shù)據(jù)診斷體系,創(chuàng)立了“診斷―分析―設(shè)計(jì)―治理”(DADT)循環(huán)管控模式(見圖1),實(shí)現(xiàn)了危險(xiǎn)源定量化的預(yù)測、預(yù)警、預(yù)防之科學(xué)管控目標(biāo),全面提升了安全監(jiān)管監(jiān)察能力和信息化管控的水平。
全壽命周期的數(shù)字化管控
礦山、危化及交通運(yùn)輸?shù)阮I(lǐng)域普遍存在危險(xiǎn)源分布廣、點(diǎn)位多、誘發(fā)因素復(fù)雜及人力難以遍及等共同特點(diǎn),三界測控技術(shù)的處理能力為我們提供了湫碌募際跏侄巍T諢袢〖喙芏韻蠹負(fù)緯〖骯丶狀態(tài)參數(shù)的基礎(chǔ)上,有針對性地分析并研判風(fēng)險(xiǎn)演化規(guī)律,及時(shí)制定合理的化解、防范和治理措施。
概括而言,就是通過太空高分衛(wèi)星周期性獲取區(qū)域總體數(shù)據(jù)(m級分辨率)篩查風(fēng)險(xiǎn),掌握域內(nèi)風(fēng)險(xiǎn)演變;運(yùn)用地表三維激光掃描技術(shù),針對已發(fā)現(xiàn)并確定的風(fēng)險(xiǎn)實(shí)施精準(zhǔn)測控(精度mm級),掌握風(fēng)險(xiǎn)具體部位、規(guī)模、趨勢和系統(tǒng)關(guān)聯(lián);需要時(shí)再運(yùn)用地下地球物理探測技術(shù)(m級分辨率),透過現(xiàn)象看本質(zhì),由表及里研判風(fēng)險(xiǎn)誘因(見圖2)。
據(jù)此,建立由太空、地表、地下“三界”空間測控方法相融合的重大風(fēng)險(xiǎn)源“健康檔案”,持續(xù)開展穩(wěn)態(tài)數(shù)據(jù)與實(shí)時(shí)(或周期性)監(jiān)測數(shù)據(jù)智能比對,實(shí)現(xiàn)全過程精細(xì)化管控,并進(jìn)行精準(zhǔn)預(yù)報(bào)、預(yù)警,針對性地開展防災(zāi)減災(zāi)設(shè)計(jì)與綜合治理,構(gòu)建DADT循環(huán)管控工作體系,為科學(xué)決策和應(yīng)急處置提供全面的、可靠的數(shù)據(jù)支持。
篇7
>> 用戶數(shù)據(jù)素養(yǎng)教育視角下的圖書館科學(xué)數(shù)據(jù)管理研究 高校圖書館科研數(shù)據(jù)管理研究 大數(shù)據(jù)時(shí)代的高校圖書館數(shù)據(jù)管理研究 元數(shù)據(jù)在數(shù)字圖書館中的應(yīng)用 國外高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)研究 元數(shù)據(jù)在高校圖書館特色數(shù)據(jù)庫建設(shè)中的應(yīng)用與實(shí)踐 淺談圖書館元數(shù)據(jù)的應(yīng)用 美國高校圖書館的研究數(shù)據(jù)管理服務(wù)體系構(gòu)建及策略研究 加州數(shù)字圖書館數(shù)據(jù)管理計(jì)劃工具研究及思考 試論高校圖書館數(shù)據(jù)管理體系的構(gòu)建 基于元數(shù)據(jù)倉儲的圖書館信息資源管理研究 元數(shù)據(jù)及其在數(shù)字圖書館中的應(yīng)用 醫(yī)院圖書館中文圖書數(shù)據(jù)庫管理系統(tǒng)的應(yīng)用與實(shí)踐 數(shù)據(jù)挖掘在圖書館管理上的應(yīng)用 圖書館信息管理中元數(shù)據(jù)的應(yīng)用 大數(shù)據(jù)在圖書館的應(yīng)用研究 我國大數(shù)據(jù)技術(shù)應(yīng)用于圖書館的實(shí)踐研究 數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用 基于數(shù)據(jù)生命周期的圖書館科學(xué)數(shù)據(jù)服務(wù)研究 元數(shù)據(jù)管理系統(tǒng)的研究與實(shí)現(xiàn) 常見問題解答 當(dāng)前所在位置:.
[12]Data Management Planning[EB/OL].[2014-07-20]..
[13]Khan H, Caruso B, Corson-Rikert J, et al. DataStaR: Using the semantic web approach for data curation[J]. International Journal of Digital Curation,2011,6(2): 209-221.
[14]Steinhart G. DataStaR: an institutional approach to research data curation[J]. IASSIST Quarterly, 2007, 31(3-4):34-39.
[15]Bermudez L, Piasecki M. Metadata community profiles for the semantic web[J]. Geoinformatica,2006,10(2): 159-176.
[16]Lowe B. Datastar: Bridging XML and OWL in science metadata management[M]. // Metadata and Semantic Research. Springer Berlin Heidelberg,2009:141-150.
[17]張曉林. 機(jī)構(gòu)知識庫的發(fā)展趨勢與挑戰(zhàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2014, 30(2): 1-7.
[18]Dearborn C C, Barton A J, Harmeyer N A. The Purdue University Research Repository: HUBzero customization for dataset publication and digital preservation[J]. OCLC Systems & Services, 2014, 30(1): 15-27.
[19]殷沈琴,張計(jì)龍,張瑩,等. 社會科學(xué)數(shù)據(jù)管理服務(wù)平臺系統(tǒng)選型研究――以復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺為例[J].圖書情報(bào)工作,2013,57(19):92-96.
[20]DataONE[EB/OL].[2014-07-19]..
[29]Keralis S D C. Data curation education: A snapshot[J]. L. Jahnke, A. Asher, & SDC Keralis. The problem of data, 2012: 32-43.
篇8
關(guān)鍵詞:網(wǎng)刊系統(tǒng);元數(shù)據(jù);中國知網(wǎng);VB;自動提取
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)09-0090-03
在國內(nèi),絕大部分讀者是從期刊網(wǎng)站獲取期刊全文,進(jìn)而進(jìn)行引用的。因此,期刊建立自己的官方網(wǎng)站,為讀者提供論文檢索、數(shù)據(jù)核對、實(shí)現(xiàn)在線出版,對擴(kuò)大期刊的影響力和傳播力至關(guān)重要[1]。網(wǎng)刊系統(tǒng)為期刊建立一個(gè)實(shí)現(xiàn)現(xiàn)刊和過刊的瀏覽、查詢等功能的網(wǎng)刊數(shù)據(jù)提供了技術(shù)平臺[2-3]。以此為基礎(chǔ),建設(shè)期刊自己的網(wǎng)站時(shí),需要對期刊數(shù)據(jù)進(jìn)行網(wǎng)刊,對于一般編輯部來說,歷史期刊,有的只是紙質(zhì)的,需要對歷史期刊電子化,轉(zhuǎn)化為電子版的期刊還需要進(jìn)一步進(jìn)行元數(shù)據(jù)的提取工作[4-8]。
一般來說,各個(gè)編輯部在網(wǎng)刊工作中都是采用手工粘貼拷貝的方式。這種方式不僅工作量很大,而且數(shù)據(jù)質(zhì)量很低。另外,由于手工制作的工作量[9],導(dǎo)致了網(wǎng)站建設(shè)要么耗時(shí)很長、要么需要大量人力或物力。因此本文基于對象的VB語言編程軟件,編寫了能夠批量提取元數(shù)據(jù)的程序,采用模式識別智能算法[10-11],從大型數(shù)據(jù)庫[12]提供的信息中準(zhǔn)確提取本期所有文章的元數(shù)據(jù),并形成可直接到網(wǎng)刊系統(tǒng)上的Excel文件,大幅度提高工作效率。
5 結(jié)束語
在期刊數(shù)字化的工作中,對于很多新建網(wǎng)站的雜志社來說,有兩部分工作:最新1期的元數(shù)據(jù)提取;歷史期刊的元數(shù)據(jù)提取。對于很多期刊來說歷史期刊的數(shù)據(jù)都已經(jīng)不全了,因此通過大型數(shù)據(jù)庫來完善網(wǎng)站的過刊數(shù)據(jù)成為比較可行的途徑之一。通過本文實(shí)現(xiàn)的程序可以對1年的過刊數(shù)據(jù)甚至幾十年的過刊數(shù)據(jù)一次性進(jìn)行提取操作,工作效率大幅提升。
但是中國知網(wǎng)上的數(shù)據(jù)更新比雜志社期刊出版要延時(shí)約2個(gè)月,而且網(wǎng)刊系統(tǒng)中要求有的元數(shù)據(jù)有32項(xiàng),而中國知網(wǎng)提供的僅有12項(xiàng),所以本文方法并不適合使用在最新一期的元數(shù)據(jù)提取工作上。下一步工作重點(diǎn)研究對最新一期的排版數(shù)據(jù)進(jìn)行元數(shù)據(jù)的提取上。
參考文獻(xiàn):
[1] 閆蓓,嚴(yán)謹(jǐn),肖宏.搭建科學(xué)與大眾的橋梁:談科技期刊與大眾媒體的新聞報(bào)道合作實(shí)踐[J].編輯學(xué)報(bào), 2009,21(4): 325-327
[2] 吉玉珠,胡兵.我國學(xué)術(shù)期刊數(shù)字化建設(shè)的分析與思考[J].圖書與情報(bào),2003(3):33-35.
[3] 張科,王景發(fā).期刊網(wǎng)絡(luò)采編系統(tǒng)研發(fā)及系統(tǒng)功能分析[J].自動化數(shù)字化網(wǎng)絡(luò)化,2008(4):72-76.
[4] 洪鷗,姜春明,陳海清.上海市高校科技期刊數(shù)字出版現(xiàn)狀及分析[J].學(xué)報(bào)編輯論叢,2011:172-176.
[5] 丁巖,吳惠勤,龍秀芬等.科技期刊數(shù)字化出版轉(zhuǎn)型初探[J]. 編輯學(xué)報(bào), 2011, 23 (sup1):3-6.
[6] 林有興.關(guān)于促進(jìn)科技期刊高效傳播科技信息的思考[J].編輯學(xué)報(bào), 2005,17(3): 165-166.
[7] 鄭筱梅, 楊小玲. 期刊網(wǎng)絡(luò)化趨勢及科技期刊應(yīng)對策略[J]. 編輯學(xué)報(bào), 2009,21(1): 64-66.
[8] 孫遠(yuǎn),朱曉紅,喻偉.網(wǎng)絡(luò)環(huán)境下科技期刊數(shù)字化建設(shè)初探[J]. 人民長江,2009,40(4):102-103.
[9] 洪鷗,姜春明,王寧.高校學(xué)報(bào)自然科學(xué)版網(wǎng)絡(luò)出版現(xiàn)狀[J].調(diào)查與思考,2014,25(7):895-901.
[10] 劉曉華.非計(jì)算機(jī)專業(yè)VB程序設(shè)計(jì)教學(xué)探討[J]. 創(chuàng)新教育,2011(38):135-137.
篇9
1.1國際范圍內(nèi)元數(shù)據(jù)標(biāo)準(zhǔn)頒布情況
作為描述文件(records)背景、內(nèi)容、結(jié)構(gòu)及其管理過程的數(shù)據(jù),元數(shù)據(jù)(metadata)對于文件(包括檔案)管理的重要性已經(jīng)獲得了廣泛的認(rèn)同。上個(gè)世紀(jì)末以來,澳大利亞[1]、英國[2]、加拿大[3]等國家紛紛推出了不同適用范圍、使用目的的文件管理元數(shù)據(jù)標(biāo)準(zhǔn);而相關(guān)國際標(biāo)準(zhǔn)的頒布,與各國、地方的標(biāo)準(zhǔn)形成良性的互動,[4]推動元數(shù)據(jù)標(biāo)準(zhǔn)不斷走向成熟。ISO14721:2003《空間數(shù)據(jù)與信息移交系統(tǒng)———開放檔案信息系統(tǒng)(OAIS)參考模型》的,引發(fā)了數(shù)字保存(digitalpreservation)領(lǐng)域基于OAIS的信息模型開發(fā)元數(shù)據(jù)方案的熱潮。在文件管理元數(shù)據(jù)(recordkeepingmetadata,recordsman-agementmetadata)標(biāo)準(zhǔn)缺失的情況下,也有一些檔案部門據(jù)此模型開展了元數(shù)據(jù)標(biāo)準(zhǔn)的探索和實(shí)踐。[5]ISO23081-1:2006《信息與文獻(xiàn)———文件管理流程———文件元數(shù)據(jù)———原則》和ISO/TR23081-2:2007《信息與文獻(xiàn)———文件管理流程———文件元數(shù)據(jù)———概念與實(shí)施》[6]則開辟了面向文件形成機(jī)構(gòu)文件管理元數(shù)據(jù)標(biāo)準(zhǔn)的疆土,其提出的多實(shí)體、多屬性的元數(shù)據(jù)框架結(jié)構(gòu),則被此后很多國家、地區(qū)、單位制定的文件管理元數(shù)據(jù)標(biāo)準(zhǔn)、方案所采納。文件管理元數(shù)據(jù)和長期保存元數(shù)據(jù)的區(qū)別和聯(lián)系也日益為大家所重視。[7]ISO/TR23081-3:2011《信息與文獻(xiàn)———文件管理流程———文件元數(shù)據(jù)———自我評價(jià)方法》則進(jìn)一步明確了評價(jià)現(xiàn)有文件管理元數(shù)據(jù)的方法。國際上對于文件管理元數(shù)據(jù)的探索焦點(diǎn)從原則、概念逐步走向?qū)嵤?yīng)用。
1.2我國電子文件元數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)
2002年底,青島市檔案局頒布的規(guī)范性文件《青島市電子文件歸檔與管理規(guī)范(試行)》以“附錄A電子文件著錄項(xiàng)目”的方式規(guī)定了電子文件的元數(shù)據(jù)項(xiàng)目;2005年底,天津市檔案局制定了《天津市電子公文元數(shù)據(jù)表》;2008年3月,我國核行業(yè)標(biāo)準(zhǔn)《核電電子文件元數(shù)據(jù)》(EJ/T1224-2008)頒布;同年7月,廣州市地方技術(shù)規(guī)范《電子文件檔案資源管理規(guī)范第4部分:元數(shù)據(jù)》(DBJ440100/T10.4—2008)出臺;2009年底,檔案行業(yè)標(biāo)準(zhǔn)《文書類電子文件元數(shù)據(jù)方案》(DA/T46-2009)問世;2011年1月,ISO23081-1《信息與文獻(xiàn)———文件管理流程———文件元數(shù)據(jù)———原則》被正式采納為國家標(biāo)準(zhǔn),標(biāo)準(zhǔn)號為GB/T26163.1-2010;國家檔案局承擔(dān)的國家標(biāo)準(zhǔn)《通用電子文件元數(shù)據(jù)規(guī)范》研究項(xiàng)目正在推進(jìn)過程中,建設(shè)、石油等行業(yè)的電子文件元數(shù)據(jù)標(biāo)準(zhǔn)正在醞釀出臺。這些行動標(biāo)志著我國電子文件的元數(shù)據(jù)管理從自由探索步入了標(biāo)準(zhǔn)引導(dǎo)、從地方規(guī)范和行業(yè)規(guī)范走向國家規(guī)范的發(fā)展階段,且標(biāo)準(zhǔn)的內(nèi)容和形式也不斷與國際標(biāo)準(zhǔn)接軌。[8]
1.3元數(shù)據(jù)標(biāo)準(zhǔn)的實(shí)施問題
隨著諸多標(biāo)準(zhǔn)規(guī)范的出臺,文件形成單位和保存單位如何貫徹實(shí)施有關(guān)標(biāo)準(zhǔn),在相關(guān)系統(tǒng)中產(chǎn)生、管理和利用元數(shù)據(jù),日益成為關(guān)系到系統(tǒng)建設(shè)質(zhì)量乃至最終文件管理狀況的關(guān)鍵。本文所指元數(shù)據(jù)方案(metadataschema),是文件形成單位或保存單位對電子文件元數(shù)據(jù)元素語義、語法、賦值及其相互關(guān)系(結(jié)構(gòu))的系統(tǒng)性規(guī)定。本文根據(jù)電子文件元數(shù)據(jù)形成和積累的規(guī)律,結(jié)合杭州市電子文件中心建設(shè)的實(shí)例,圍繞著一類單位———文件形成單位在建設(shè)一類系統(tǒng)———電子文件管理系統(tǒng)(ElectronicRecordsManagementSystem,ERMS)過程中的元數(shù)據(jù)方案設(shè)計(jì)問題展開探討。
2電子文件元數(shù)據(jù)形成、積累的規(guī)律
電子文件的元數(shù)據(jù)隨著文件形成和管理過程而不斷產(chǎn)生、累積,而這樣的產(chǎn)生、累積是要通過系統(tǒng)實(shí)現(xiàn)的。探究元數(shù)據(jù)形成、積累的規(guī)律,首先要辨析電子文件生命周期中的系統(tǒng)類型。
2.1電子文件生命周期中的系統(tǒng)類型
從系統(tǒng)的功能來看,電子文件整個(gè)生命周期中的系統(tǒng)通常包括三類:[9]支持文件形成單位日常業(yè)務(wù)工作的開展,在此過程中形成合格、完整的電子文件的“業(yè)務(wù)系統(tǒng)”(BusinessSystem,BS);[10]從業(yè)務(wù)系統(tǒng)中將信息以文件的方式加以捕獲、維護(hù)、利用和處置的ERMS,捕獲和處置分別是該系統(tǒng)文件管理功能的起點(diǎn)和終點(diǎn),我們也可以將ERMS理解為立檔單位檔案輔助管理系統(tǒng)在數(shù)字世界中的功能拓展;長期保管各類電子文件,保證其真實(shí)、準(zhǔn)確、可理解的“文件保存系統(tǒng)”(RecordsPreservationSystem),國際上也將此類系統(tǒng)歸入“可信任數(shù)字倉儲”(TrustedDigitalRepository,TDR)。
2.2元數(shù)據(jù)在各類系統(tǒng)中形成、積累的過程
電子文件不同生命階段的元數(shù)據(jù)依次在BS,ERMS,TDR中形成,前一階段形成的關(guān)鍵元數(shù)據(jù)將隨著文件一起進(jìn)入下一個(gè)系統(tǒng)。但是,不同系統(tǒng)管理文件的目的不同,管理成本亦有限,不可能也不需要將所有的元數(shù)據(jù)都保留下來。也就是說,電子文件的元數(shù)據(jù)是動態(tài)增加的,但并非所有的元數(shù)據(jù)都會和文件同步積累、轉(zhuǎn)移,某些元數(shù)據(jù)只存在于產(chǎn)生它的系統(tǒng)中,不會進(jìn)入下一個(gè)系統(tǒng)。當(dāng)一份文件從BS進(jìn)入ERMS,或者ERMS進(jìn)入TDR的時(shí)候,部分元數(shù)據(jù)會與之同行,部分則會與之分離,這樣的過程如圖1所示。
2.3電子文件元數(shù)據(jù)的運(yùn)動規(guī)律
通過圖1可以看出,電子文件元數(shù)據(jù)的行程好比一條不斷匯聚的河流,沿途會消耗掉一部分水分,同時(shí)也不斷有新的河水注入其中。總體來說,這是一個(gè)細(xì)水長流、日積月累的過程。就在這個(gè)平緩向前的過程中,尤其是在ERMS和TDR的運(yùn)轉(zhuǎn)過程中,可能因?yàn)槲募芾淼哪撤N需要臨時(shí)性地增加元數(shù)據(jù)。這樣的需要至少包含兩種情況:第一,移交的需要,為便于TDR長期保存文件,ERMS在向TDR移交文件的時(shí)候可能需要臨時(shí)增加元數(shù)據(jù)。比如全宗名、全宗號原本只是全宗級的元數(shù)據(jù),文件級元數(shù)據(jù)可不包含此項(xiàng),在移交時(shí)為了讓每份文件具有自我說明的能力,需要給每份文件重復(fù)記錄同樣的全宗名、全宗號。再如為TDR制定并實(shí)施合理的文件保存規(guī)劃,可能需要大量補(bǔ)充電子文件的技術(shù)環(huán)境元數(shù)據(jù),除了文件格式外,還注明軟件產(chǎn)品、版本號、壓縮類型,字符編碼方案、軟件商信息等。第二,利用的需要,為更好地實(shí)現(xiàn)信息服務(wù)、知識挖掘等,可以通過元數(shù)據(jù)自動抽取工具臨時(shí)挖掘文件的主題信息,并加以標(biāo)注。應(yīng)需臨時(shí)增加的部分,通常借助特定的插件、工具完成。正如ISO23081-2:2009所言:“優(yōu)質(zhì)的元數(shù)據(jù)體系是動態(tài)的,能夠在必要時(shí)隨時(shí)增加文件管理元數(shù)據(jù)”。[11]因此,我們認(rèn)為電子文件元數(shù)據(jù)具備持續(xù)形成、選擇積累、應(yīng)需增加的特點(diǎn)。
3ERMS元數(shù)據(jù)方案設(shè)計(jì)的準(zhǔn)備
為設(shè)計(jì)出適用的元數(shù)據(jù)方案,除了人員、資金等方面的準(zhǔn)備之外,還需要明確ERMS的系統(tǒng)功能定位,了解相關(guān)標(biāo)準(zhǔn)及其實(shí)施路徑,掌握ERMS元數(shù)據(jù)方案設(shè)計(jì)的內(nèi)容和方法,以便最終逐一確定元數(shù)據(jù)元素及其規(guī)則。
3.1系統(tǒng)功能定位的確定
上述BS,ERMS,TDR只是概念劃分的結(jié)果,各單位需要購置的系統(tǒng)既可能與之對應(yīng),也可能具備其中一類系統(tǒng)的部分功能,或者其中兩類系統(tǒng)的全部或部分功能,需要根據(jù)系統(tǒng)實(shí)際的功能定位來制定元數(shù)據(jù)方案。比如西方國家所稱的ElectronicDocuments&RecordsManagementSystem(EDRMS)即為一類從電子郵件系統(tǒng)、桌面辦公軟件、工作流系統(tǒng)、掃描系統(tǒng)等辦公類系統(tǒng)中捕獲非結(jié)構(gòu)化文檔,并實(shí)施集中存儲、統(tǒng)一利用和文件管理(檔案化管理)的系統(tǒng),有些EDRMS本身也提供工作流、掃描等功能。提供工作流并支持文件形成業(yè)務(wù)的EDRMS元數(shù)據(jù)方案,通常要單純的ERMS包含更多的業(yè)務(wù)類元數(shù)據(jù)。類似地,如果我國有單位要實(shí)現(xiàn)OA系統(tǒng)和檔案管理系統(tǒng)相集成的電子公文一體化管理系統(tǒng),或者工程項(xiàng)目文檔協(xié)作系統(tǒng)和檔案管理系統(tǒng)相集成的項(xiàng)目文件管理系統(tǒng),也要設(shè)計(jì)更為豐富的業(yè)務(wù)類元數(shù)據(jù)。此外,一些大型企業(yè)面臨建設(shè)ERMS和TDR的雙重任務(wù),在系統(tǒng)選型的時(shí)候,也傾向于將兩者集成在一起,對此類系統(tǒng)的元數(shù)據(jù)方案,則要在文件管理元數(shù)據(jù)之余,更多地考慮長期保存元數(shù)據(jù)。本文以獨(dú)立的ERMS實(shí)施為假設(shè)前提展開討論。
3.2標(biāo)準(zhǔn)環(huán)境
任何單位在設(shè)計(jì)ERMS元數(shù)據(jù)方案的時(shí)候,都要尋求標(biāo)準(zhǔn)的支持。雖然我國已經(jīng)出臺不少相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),不過,標(biāo)準(zhǔn)實(shí)施還是面臨兩個(gè)方面的困難:
3.2.1標(biāo)準(zhǔn)適用性不夠
早期出臺的電子公文元數(shù)據(jù)規(guī)范在適用范圍上規(guī)定得很明確,區(qū)分了文件形成單位和文件保存單位的需要,比如《青島市電子文件歸檔與管理規(guī)范(試行)》明確指出面向青島市市直機(jī)關(guān)、團(tuán)體和其他社會組織等文件形成單位,《天津市電子公文元數(shù)據(jù)表》分別對電子政務(wù)系統(tǒng)歸檔電子文件和檔案室向檔案館移交的電子文件的元數(shù)據(jù)加以規(guī)定,后者比前者多出5個(gè)元數(shù)據(jù)元素,同時(shí)還有各自配套的數(shù)據(jù)結(jié)構(gòu)規(guī)范。但是這些標(biāo)準(zhǔn)大多為經(jīng)驗(yàn)性總結(jié),缺乏元數(shù)據(jù)頂層框架的支持,在與文件形成系統(tǒng)的互操作性方面的支持力稍弱。2008年之后出臺的《電子文件檔案資源管理規(guī)范第4部分:元數(shù)據(jù)》(DBJ440100/T10.4—2008)和《文書類電子文件元數(shù)據(jù)方案》(DA/T46-2009)則分別依據(jù)OAIS和ISO23081的概念模型,元數(shù)據(jù)元素的設(shè)計(jì)相對嚴(yán)謹(jǐn),但是其內(nèi)容較全面,同時(shí)包含文件管理元數(shù)據(jù)和長期保存元數(shù)據(jù),適用范圍較廣,同時(shí)面向文件形成單位和文件保存單位,導(dǎo)致這兩種具有不同文件管理職責(zé)的單位,面臨實(shí)施同一個(gè)標(biāo)準(zhǔn)的境況,這就需要其根據(jù)各自的功能目標(biāo)加以選擇、拓展、改造、具體化的實(shí)際問題。
3.2.2標(biāo)準(zhǔn)實(shí)施支持力度不夠
從國際范圍的實(shí)踐經(jīng)驗(yàn)來看,ERMS元數(shù)據(jù)標(biāo)準(zhǔn)實(shí)施路徑有兩種:第一,將系統(tǒng)功能要求標(biāo)準(zhǔn)和元數(shù)據(jù)標(biāo)準(zhǔn)銜接,通過系統(tǒng)測試的方式強(qiáng)化合規(guī)性要求,使得元數(shù)據(jù)標(biāo)準(zhǔn)由書面的規(guī)定變成市場通用軟件內(nèi)嵌的事實(shí)標(biāo)準(zhǔn)。這樣的系統(tǒng)功能要求標(biāo)準(zhǔn)包括:1997年開始頒布、并且每隔5年更新一次美國國防部標(biāo)準(zhǔn)DoD5015.2-STD《文件管理軟件設(shè)計(jì)標(biāo)準(zhǔn)》,其中具體規(guī)定了文件、文件夾的元數(shù)據(jù);[12]2002年英國公共文件局推出的《電子文件管理系統(tǒng)功能要求》系列標(biāo)準(zhǔn),元數(shù)據(jù)標(biāo)準(zhǔn)是其中第2部分;歐盟《文件系統(tǒng)通用要求》(MoReq)的2008年版本MoReq2,元數(shù)據(jù)方案是其重要的一個(gè)附錄[13];在MoReq2基礎(chǔ)上推出的改進(jìn)版本MoReq2010,則將元數(shù)據(jù)方案和功能要求條款密切融合,即在功能要求條款中明確具體的元數(shù)據(jù)要求。[14]第二,制定元數(shù)據(jù)標(biāo)準(zhǔn)的實(shí)施指南,指導(dǎo)各單位具體應(yīng)用。比如加拿大國家圖書與檔案館(LAC)在頒布《加拿大政府文件元數(shù)據(jù)標(biāo)準(zhǔn)》的同時(shí),頒布了《加拿大政府文件元數(shù)據(jù)應(yīng)用方案》,闡明了元數(shù)據(jù)元素的應(yīng)用規(guī)則和方法。[15]據(jù)筆者了解,已經(jīng)完成起草任務(wù)的我國《電子文件管理系統(tǒng)通用功能要求規(guī)范》和《通用電子文件元數(shù)據(jù)規(guī)范》以及《文書類電子文件元數(shù)據(jù)方案》(DA/T46-2009)相對獨(dú)立;亦未見有關(guān)文件元數(shù)據(jù)標(biāo)準(zhǔn)的實(shí)施指南。作為文件形成單位,應(yīng)該牢牢立足于文件形成單位ERMS的基本定位及其元數(shù)據(jù)的構(gòu)成特點(diǎn)參考既有標(biāo)準(zhǔn)。鑒于ISO23081提出的元數(shù)據(jù)模型以及實(shí)施建議已經(jīng)成為國際最佳實(shí)踐經(jīng)驗(yàn),本文將此標(biāo)準(zhǔn)為基礎(chǔ)展開探討。
3.3ERMS元數(shù)據(jù)方案設(shè)計(jì)的技術(shù)路線設(shè)計(jì)
ERMS元數(shù)據(jù)方案,就是選擇元數(shù)據(jù)元素并建立其相互關(guān)系。根據(jù)ISO23081-2:2009的規(guī)定,元數(shù)據(jù)元素的選擇路徑是有基本規(guī)律可循的,那就是基于文件、責(zé)任主體、業(yè)務(wù)、法規(guī)、關(guān)系等五類實(shí)體的文件管理元數(shù)據(jù)模型,依次定義和標(biāo)識實(shí)體及其級次;按照標(biāo)識、描述、使用、事件計(jì)劃、事件歷史、關(guān)系等六類屬性的模塊化設(shè)計(jì)思路,描述實(shí)體及其級次所必須的元數(shù)據(jù),建立相關(guān)實(shí)體/級次元數(shù)據(jù)之間的關(guān)系;[16]根據(jù)ERMS需要管理的文件的特點(diǎn),以及系統(tǒng)實(shí)施單位業(yè)務(wù)和文件管理的情況,建立元數(shù)據(jù)賦值規(guī)則(如賦值范圍、賦值格式、賦值方式等),建立元數(shù)據(jù)管理規(guī)則(如存取權(quán)限、導(dǎo)出格式)等。一個(gè)元數(shù)據(jù)方案,只有具體定義到每個(gè)元數(shù)據(jù)何時(shí)由誰如何產(chǎn)生、修改、利用、刪除的程度,方可實(shí)施。本文主要聚焦于實(shí)體、實(shí)體級次及其相互關(guān)系的確定上,這是元數(shù)據(jù)方案設(shè)計(jì)的根基。
4實(shí)體的確定
4.1基本實(shí)體模型
ISO23081:2009確定的元數(shù)據(jù)模型,包含文件、責(zé)任主體、業(yè)務(wù)、法規(guī)、關(guān)系等五大實(shí)體,如圖2所示,這是ERMS實(shí)體實(shí)施的頂層框架。[17]其中的業(yè)務(wù)實(shí)體分為形成文件的業(yè)務(wù)和文件管理業(yè)務(wù)兩部分,這進(jìn)一步印證了本文圖1所揭示的元數(shù)據(jù)形成和積累的過程。區(qū)分實(shí)體的意義在于準(zhǔn)確定位元數(shù)據(jù)描述的對象,理解構(gòu)成文件管理整體環(huán)境的各要素及其相互關(guān)系。通過分實(shí)體的元數(shù)據(jù)描述,有助于實(shí)現(xiàn)系統(tǒng)功能的模塊化設(shè)計(jì),以及跨系統(tǒng)的互操作。
4.2實(shí)體的實(shí)施方式
ISO23081標(biāo)準(zhǔn)申明并不要求直接實(shí)施五大實(shí)體,而是可以采取非常靈活的策略,既可以選取其中的一種或多種實(shí)體,也可以在上述五大實(shí)體之外,擴(kuò)展新的實(shí)體。實(shí)體的實(shí)施方式取決于不同實(shí)體描述保持持續(xù)鏈接的能力,也和系統(tǒng)功能的實(shí)現(xiàn)方式有關(guān)。具體說來,主要包括以下幾種實(shí)施方式:
4.2.1單實(shí)體實(shí)施
采用以“文件為中心”的實(shí)施方式“簡化”實(shí)體模型,即在文件實(shí)體中包含了其它實(shí)體的信息。早期時(shí)候出臺的元數(shù)據(jù)標(biāo)準(zhǔn)多采用這種模式,如1999年1.0版的澳大利亞聯(lián)邦政府機(jī)關(guān)文件保管元數(shù)據(jù)標(biāo)準(zhǔn)。早期的檔案輔助管理系統(tǒng)也多采用這種實(shí)施方式。
4.2.2多實(shí)體直接實(shí)施
在文件、責(zé)任主體、業(yè)務(wù)、法規(guī)、關(guān)系實(shí)體中選擇2-5種實(shí)體實(shí)施。比如我國《文書類電子文件元數(shù)據(jù)方案》(DA/T46-2009)采用了文件、責(zé)任主體、業(yè)務(wù)和關(guān)系4類實(shí)體;MoReq2將文件保管期限與處置表理解為特定的法規(guī)標(biāo)準(zhǔn),采用了文件、文件保管期限與處置表(法規(guī)標(biāo)準(zhǔn))、責(zé)任主體三類實(shí)體,而業(yè)務(wù)、關(guān)系實(shí)體則作為其他實(shí)體的屬性。[18]
4.2.3多實(shí)體擴(kuò)展實(shí)施
即除了文件、責(zé)任主體、業(yè)務(wù)、法規(guī)、關(guān)系這五大實(shí)體之外,還拓展應(yīng)用其他實(shí)體類型。文件、責(zé)任主體、業(yè)務(wù)、法規(guī)這四個(gè)實(shí)體都是多層級的,每個(gè)層級都可能包括標(biāo)識、描述、使用、事件計(jì)劃、事件歷史、關(guān)系等六個(gè)方面的屬性元數(shù)據(jù),而且實(shí)體的元數(shù)據(jù)本身還要靠元數(shù)據(jù)來描述,如此形成多實(shí)體、多層次、多屬性的循環(huán)、關(guān)聯(lián),由此可以將實(shí)體層級、屬性、元數(shù)據(jù)定義等也作為實(shí)體來實(shí)施。MoReq2010是多實(shí)體擴(kuò)展實(shí)施的典范,其規(guī)定已經(jīng)細(xì)致到可以在系統(tǒng)中直接應(yīng)用的程度。MoReq2010共定義了文件聚合(aggregation)、類(class)、組件(component)、背景元數(shù)據(jù)元素定義(ContextualMetadataElementDefinition)、處置保留(DisposalHold)、保管期限與處置表(DisposalSchedule)、實(shí)體類型(EntityType)、事件(Event)、功能定義(FunctionDefinition)、組(Group)、元數(shù)據(jù)元素定義(MetadataElementDefinition)、文件(Record)、角色(Role)、服務(wù)(Service)、模板(Tem-plate)、用戶(User)共16個(gè)實(shí)體類型。[19]這16個(gè)實(shí)體類型大致可以分為六類,如表1所示。其中聚合、類別、文件、組件屬于文件實(shí)體的不同層級,處置保留、保管期限與處置表屬于法規(guī)標(biāo)準(zhǔn)實(shí)體的三個(gè)具體類型,組、角色、用戶屬于責(zé)任主體實(shí)體的不同層級;其余8個(gè)實(shí)體類型分別從屬性、元數(shù)據(jù)定義(元數(shù)據(jù)的元數(shù)據(jù))、系統(tǒng)這三個(gè)角度作的拓展:事件乃屬性元數(shù)據(jù)實(shí)體,背景元數(shù)據(jù)元素定義、元數(shù)據(jù)元素定義、模板、實(shí)體類型屬于元數(shù)據(jù)定義實(shí)體,而功能定義、服務(wù)這兩個(gè)實(shí)體類型屬于ERMS系統(tǒng)本身的元數(shù)據(jù)。
4.3杭州市電子文件中心
ERMS的元數(shù)據(jù)實(shí)體杭州市電子文件中心項(xiàng)目是由杭州市檔案局承擔(dān)的系統(tǒng)建設(shè)項(xiàng)目,其主要任務(wù)是為杭州市黨政機(jī)關(guān)統(tǒng)一建設(shè)ERMS,即在全市范圍統(tǒng)一采購、部署和維護(hù)ERMS,杭州市檔案局為各ERMS使用單位提供基礎(chǔ)設(shè)施、系統(tǒng)平臺和應(yīng)用軟件的服務(wù),但不代替其完成本單位內(nèi)部的文件管理業(yè)務(wù)。這也是我國地方政府電子文件中心建設(shè)的一種新定位,不同于永久保管文件、文件中轉(zhuǎn)站、現(xiàn)行文件查詢服務(wù)、文件備份等其他各地電子文件中心的功能定位。[20]該項(xiàng)目計(jì)劃分四期開展,一期已經(jīng)于2010年完成,實(shí)現(xiàn)了杭州市政府機(jī)關(guān)統(tǒng)一使用的辦公自動化系統(tǒng)(OA)的元數(shù)據(jù)改造,使其產(chǎn)生合乎文件管理要求的元數(shù)據(jù);二期于2011年10月完成,完成了ERMS的選型、研發(fā)和試點(diǎn),可以接收管理OA中的電子文件;三、四期的建設(shè)將逐步擴(kuò)大ERMS的使用范圍,逐步和其他系統(tǒng)銜接,以捕獲更多類型的電子文件。本文簡單介紹二期項(xiàng)目設(shè)計(jì)完成的元數(shù)據(jù)方案。杭州市電子文件中心ERMS的元數(shù)據(jù)方案采用多實(shí)體實(shí)施模式,包含文件、責(zé)任主體、文件形成業(yè)務(wù)、保管與處置、權(quán)限管理五大實(shí)體。其中保管與處置、權(quán)限管理屬于法規(guī)標(biāo)準(zhǔn)類的實(shí)體。文件實(shí)體處于核心地位,與其他實(shí)體相互鏈接。關(guān)系實(shí)體作為文件實(shí)體的屬性加以實(shí)施。本項(xiàng)目并未采用完整的業(yè)務(wù)實(shí)體,僅將文件形成業(yè)務(wù)作為一個(gè)實(shí)體,這跟整個(gè)系統(tǒng)的實(shí)施方式有關(guān)。描述文件形成業(yè)務(wù),即收發(fā)文處理過程的業(yè)務(wù)元數(shù)據(jù),并非在ERMS中產(chǎn)生,而是在OA中產(chǎn)生、被ERMS接收管理。這些元數(shù)據(jù)在OA中被固化為一個(gè)XML文檔,作為文件的有機(jī)組成(可以視為文件的一個(gè)特殊的組件———筆者注)隨同文件內(nèi)容一起進(jìn)入ERMS。這個(gè)XML文檔相對獨(dú)立,目前暫不進(jìn)入文件元數(shù)據(jù)庫中,日后若普遍存在查詢文件形成業(yè)務(wù)數(shù)據(jù)的需要,可比較方便地將其中元數(shù)據(jù)導(dǎo)入文件元數(shù)據(jù)庫中。至于文件進(jìn)入ERMS之后產(chǎn)生的文件管理業(yè)務(wù)元數(shù)據(jù),則作為文件實(shí)體的一個(gè)屬性存在,其中大多被包括在“事件歷史元數(shù)據(jù)”中。本項(xiàng)目借鑒了MoReq2和MoReq2010,將保管與處置作為獨(dú)立實(shí)體加以實(shí)施,系統(tǒng)將將該實(shí)體中包含的保管期限、ERMS保存期限、觸發(fā)條件、處置行為等元數(shù)據(jù)作為一組相互關(guān)聯(lián)的元素加以實(shí)施,定義好的保管與處置規(guī)則可直接應(yīng)用在類、案卷或文件上。權(quán)限管理實(shí)體實(shí)施的思路與此類似。
5實(shí)體級次的確定
5.1實(shí)體的級次
ISO23081的概念模型中,文件、責(zé)任主體、法規(guī)標(biāo)準(zhǔn)、業(yè)務(wù)等4個(gè)實(shí)體都具有多個(gè)層次,其中文件實(shí)體涉及全宗、系列、案卷、文件等層級,責(zé)任主體實(shí)體包括機(jī)構(gòu)、部門、工作組、個(gè)人等層級,業(yè)務(wù)實(shí)體包括聯(lián)合職能、職能、活動、事務(wù)等層級,法規(guī)標(biāo)準(zhǔn)實(shí)體包括法律、政策、業(yè)務(wù)規(guī)則等層級。區(qū)分層級的意義在于精確地定義各層次的元數(shù)據(jù),同一實(shí)體不同層級的元數(shù)據(jù),既有相同的部分,也有不同的部分。而對于每個(gè)層級都有的元數(shù)據(jù),下位層次則可以通過鏈接繼承上位層級實(shí)體的元數(shù)據(jù),而不一定要全部重復(fù)描述,這可以在一定程度上精簡元數(shù)據(jù)方案及其實(shí)施成本。
5.2文件實(shí)體級次模型及其實(shí)施
文件實(shí)體是各種實(shí)體實(shí)施方式中必備的實(shí)體類型,因此在各種層次體系中,文件實(shí)體的層級最為關(guān)鍵。筆者綜合考察了MoReq2,MoReq2010,I-CAREQ以及我國標(biāo)準(zhǔn)《電子文件管理系統(tǒng)通用功能要求》研究成果中所規(guī)定的信息模型,構(gòu)建了如圖3所示的文件實(shí)體級次模型,該模型包括聚合(aggregation)、文件(record)、組件(component)三個(gè)層次。聚合是由文件組成的,文件是由組件組成的。這三個(gè)級次是任何一個(gè)ERMS元數(shù)據(jù)方案都要描述的對象,缺一不可。
5.2.1聚合
聚合即按照機(jī)構(gòu)職能、業(yè)務(wù)或者文件的性質(zhì)形成的文件集合體。在ERMS中,聚合通常表現(xiàn)為文件夾(folder)的形式,也可以表現(xiàn)為文件類型(recordstype)的形式。按照檔案管理的傳統(tǒng),聚合又可以細(xì)分為三個(gè)層次:全宗、類目和案卷。其中,全宗(fond)是最高的文件聚合層次,在ERMS中,它表現(xiàn)為根文件夾(rootfolder)。類目(class)一般指全宗下具有有機(jī)聯(lián)系的文件集合體,在傳統(tǒng)意義上的檔案分類體系中,類目的設(shè)定一般比較穩(wěn)定。類目可以有多級,在ERMS中,可以建立多個(gè)父文件夾(parentfolder)和子文件夾(childfolder);也可以根據(jù)多個(gè)維度建立不同的類目結(jié)構(gòu)。案卷(file)是最低的文件聚合層次,可以在類目下根據(jù)需要靈活地增加案卷。在ERMS元數(shù)據(jù)方案中,既可以將全宗、類目和案卷設(shè)定為聚合(文件夾)這一個(gè)級次,也可以區(qū)分為全宗(根文件夾)、聚合(子文件夾)這兩個(gè)層次,或者保留全宗(根文件夾)、類目(中間層次文件夾)、案卷(最低層次文件夾)這三個(gè)級次。一個(gè)實(shí)體級次的好處是系統(tǒng)設(shè)計(jì)更為簡單、統(tǒng)一;三個(gè)實(shí)體級次的好處在于更便于區(qū)別化對待不同的聚合層次,比如不同級次聚合的編號規(guī)則不同,且與檔案管理傳統(tǒng)有效銜接;兩個(gè)實(shí)體級次則綜合了一個(gè)實(shí)體級次和三個(gè)實(shí)體級次的好處。值得一提的是,在MoReq2010的實(shí)體模型中,對等使用了聚合、類兩個(gè)實(shí)體級次,前者指文件系統(tǒng)中的文件夾,通常是為了文件形成者對文件歸類而設(shè)置;后者則是指產(chǎn)生于同一業(yè)務(wù)活動因而具有相同保管期限的文件集合,通常是為了文件管理員(可以理解為文件形成單位的檔案管理員)鑒定處置文件而設(shè)置。在實(shí)際單位,聚合和類可能一致,也可能不一致。這樣的設(shè)置照顧到了有些單位分類方案和保管期限表不銜接的情況。
5.2.2文件
文件是能夠獨(dú)立記錄業(yè)務(wù)活動過程和結(jié)果的信息對象。文件是文件管理業(yè)務(wù)意義上而非技術(shù)意義上的最小單元。在數(shù)字環(huán)境中,文件本身可以被理解為一個(gè)容器,其中可能包含一個(gè)或多個(gè)組件(component)。包含單個(gè)組件的文件為單文件(singlerecord),包含多個(gè)組件的情況則又兩種:第一,組成文件的組件之間具有技術(shù)上的緊密關(guān)聯(lián),如網(wǎng)頁文件中的HTML、CSS、JPEG圖片,或一份嵌入外部音頻、視頻的年度報(bào)告等,它們共同構(gòu)成一份復(fù)合文件(compoundrecord)。第二,組成文件的組件之間具有管理意義上的緊密關(guān)聯(lián),如請示和批復(fù)是兩個(gè)相對獨(dú)立的文檔,但二者需要組合在一起才能表示一個(gè)完整的管理活動,這樣的文件被稱為組合文件(combinedrecord)。只有理解了復(fù)合文件和組合文件的存在,我們才能夠充分認(rèn)識到ERMS管理到組件級次的必要性。
5.2.3組件
組件是計(jì)算機(jī)系統(tǒng)中一組數(shù)字信息流,是技術(shù)意義上的最小管理單元,如一個(gè)圖片,一個(gè)word文檔,數(shù)據(jù)庫的一個(gè)視圖等。識別哪個(gè)(些)組件構(gòu)成一份文件,主要看這個(gè)(些)組件能否獨(dú)立地反映業(yè)務(wù)活動。組件可能有兩種表現(xiàn)形式:單組件和復(fù)合組件,后者本身是有多個(gè)技術(shù)上緊密關(guān)聯(lián)的組件組成。比如就一個(gè)問題產(chǎn)生的一問一答兩封電子郵件共同構(gòu)成一個(gè)組合文件,其中一封電子郵件帶著附件,這封郵件及其附件共同構(gòu)成復(fù)合組件。對于以非結(jié)構(gòu)化形式存在的組件,IT領(lǐng)域也稱之為文檔(document)。
5.3杭州市電子文件中心
ERMS的元數(shù)據(jù)實(shí)體級次杭州市電子文件中心ERMS的元數(shù)據(jù)方案中,文件實(shí)體包含全宗、類、案卷、文件、組件五個(gè)級次;責(zé)任主體實(shí)體包含單位、部門、角色、人員四個(gè)級次,其中角色是一定數(shù)量操作權(quán)限的集合,部門可以按需改變,人員也可以流動,而角色是相對穩(wěn)定的;文件形成業(yè)務(wù)實(shí)體目前只有一個(gè)級次,隨著三期、四期ERMS管理對象由OA公文向行政審批系統(tǒng)中業(yè)務(wù)文件的擴(kuò)大,該實(shí)體的級次可能增加;保管與處置包括保管與處置規(guī)范、保管與處置規(guī)則兩個(gè)級次,前者描述國家檔案局及相關(guān)主管部門頒布的有關(guān)電子文件保管期限和處置要求的法規(guī)規(guī)范,后者描述具體的處置規(guī)則;權(quán)限管理實(shí)體只有一個(gè)級次。
6元數(shù)據(jù)的確定
6.1元數(shù)據(jù)的模塊化設(shè)計(jì)
確定了實(shí)體及其級次之后,需要確定每個(gè)實(shí)體級次的元數(shù)據(jù)元素。ISO23081—2:2009推薦采用模塊化設(shè)計(jì)思路,即每個(gè)實(shí)體,尤其是文件實(shí)體,包含標(biāo)識、描述、使用、事件計(jì)劃、事件歷史、關(guān)系等六類元數(shù)據(jù),這樣的元數(shù)據(jù),被張正強(qiáng)教授稱為“屬性元數(shù)據(jù)”。[21]可以看出,這樣的設(shè)計(jì)思路吸收借鑒了戴維?比爾曼提出的“可為業(yè)務(wù)活動接受的通信的元數(shù)據(jù)參照模式”的成果,該模式將文件管理元數(shù)據(jù)分為登記、期限和條件、結(jié)構(gòu)、背景、內(nèi)容、利用史六個(gè)層次。[22]
6.2屬性元數(shù)據(jù)的實(shí)施
具體的ERMS項(xiàng)目,可根據(jù)六類屬性元數(shù)據(jù)模型靈活變通,設(shè)計(jì)出可在系統(tǒng)中實(shí)施的元數(shù)據(jù)。比如MoReq2010將實(shí)體的屬性信息區(qū)分為元數(shù)據(jù)、事件歷史、權(quán)限控制列表三類,如圖4所示。其實(shí)這三類信息都是元數(shù)據(jù),只不過因?yàn)槭录v史、權(quán)限控制列表(使用類屬元數(shù)據(jù))這兩類元數(shù)據(jù)非常重要,MoReq將之凸顯出來。因?yàn)閷?shí)體是有級次的,故需要根據(jù)實(shí)體及其級次的特點(diǎn),選擇實(shí)施上述六類元數(shù)據(jù)的部分或全部。對于文件實(shí)體而言,這六類屬性元數(shù)據(jù)都是必須的,但是實(shí)施的方式有別,不同級次同類屬性元數(shù)據(jù)包含的具體元素亦有別。下面分別闡述文件實(shí)體中標(biāo)識、描述、使用、事件計(jì)劃、事件歷史、關(guān)系元數(shù)據(jù)的一般實(shí)施要求:
6.2.1標(biāo)識類元數(shù)據(jù)
此類元數(shù)據(jù)用于標(biāo)識文件實(shí)體,是每個(gè)文件實(shí)體級次都必備的屬性元數(shù)據(jù),如全宗號、類號、案卷號、文件號、組件號等。
6.2.2描述類元數(shù)據(jù)
此類元數(shù)據(jù)用來描述文件的內(nèi)容,以方便檢索,是每個(gè)文件實(shí)體級次都必備的屬性元數(shù)據(jù)。如全宗名、類名、案卷標(biāo)題、文件題名、摘要、主題詞等。
6.2.3使用類元數(shù)據(jù)
此類元數(shù)據(jù)用來描述和文件利用、權(quán)限有關(guān)的信息,至少可以細(xì)分為三類:技術(shù)環(huán)境、秘密程度、訪問權(quán)限等。技術(shù)環(huán)境元數(shù)據(jù)描述文件的軟件、硬件、格式等方面的信息,如存儲格式信息、計(jì)算機(jī)文件名、計(jì)算機(jī)文件大小、完整性等。秘密程度元數(shù)據(jù)用來標(biāo)識文件實(shí)體內(nèi)容的保密要求,如密級、開放等級等。訪問權(quán)限元數(shù)據(jù)用來記錄文件利用的詳細(xì)信息,一般要定義何文件能夠由誰執(zhí)行什么操作,通常由一組相互關(guān)聯(lián)的元數(shù)據(jù)組成。雖然都屬于使用類元數(shù)據(jù),但是技術(shù)環(huán)境、秘密程度、訪問權(quán)限這三類元數(shù)據(jù)的實(shí)施層次及其方式有所區(qū)別。技術(shù)環(huán)境元數(shù)據(jù)需要在最低文件實(shí)體級次———組件上精確定義,只有組件才是ERMS切實(shí)管理的內(nèi)容對象,才具備存儲格式信息、完整性等屬性信息。其他高層次的文件實(shí)體級次則并沒有此類屬性信息。秘密程度元數(shù)據(jù)需要在文件、聚合級別實(shí)施,下級實(shí)體可繼承上級實(shí)體的秘密程度元數(shù)據(jù),原則上組件不具備獨(dú)立的秘密程度元數(shù)據(jù),雖然讓同一文件的不同組件具備不同的秘密程度在信息系統(tǒng)中毫無問題,但是這樣設(shè)置會增加管理的復(fù)雜度。訪問權(quán)限元數(shù)據(jù)可在各個(gè)文件級次上都要實(shí)施,下級實(shí)體可繼承上級實(shí)體的訪問權(quán)限元數(shù)據(jù),不過在組件級別上定義的情況較為罕見。也可以將訪問權(quán)限元數(shù)據(jù)單獨(dú)作為一個(gè)實(shí)體來實(shí)施,與文件實(shí)體進(jìn)行鏈接。
6.2.計(jì)劃類元數(shù)據(jù)
此類元數(shù)據(jù)用來描述文件進(jìn)入ERMS后將要發(fā)生的管理行為,體現(xiàn)了對于電子文件管理過程的事前計(jì)劃和控制,比較典型的事件包括創(chuàng)建、捕獲、處置、調(diào)整開放程度、調(diào)整密級等。這類元數(shù)據(jù)通常包括事件時(shí)間、類型、描述等一組相互關(guān)聯(lián)的元數(shù)據(jù),可能由ERMS根據(jù)其他元數(shù)據(jù)自動產(chǎn)生,比如某類文件的處置計(jì)劃元數(shù)據(jù)可以根據(jù)其應(yīng)用的“保管期限與處置”規(guī)則自動產(chǎn)生。事件計(jì)劃類元數(shù)據(jù)是傳統(tǒng)檔案輔助管理軟件相對缺失的部分。
6.2.5事件歷史類元數(shù)據(jù)
此類元數(shù)據(jù)用來描述ERMS已經(jīng)發(fā)生了的管理行為,通常即執(zhí)行了的事件計(jì)劃。通過對電子文件管理過程的同步記錄,可以支持對于ERMS管理過程的事后監(jiān)督和審計(jì)。事件歷史類元數(shù)據(jù)也由ERMS自動記錄。6.2.6關(guān)系類元數(shù)據(jù)雖然關(guān)系也可以作為單獨(dú)的實(shí)體來實(shí)施,不過目前大部分的ERMS規(guī)范和項(xiàng)目都是將關(guān)系作為文件實(shí)體的屬性。
6.3杭州市電子文件中心
ERMS的文件實(shí)體元數(shù)據(jù)除了將使用類元數(shù)據(jù)中的訪問權(quán)限元數(shù)據(jù)單獨(dú)作為一個(gè)實(shí)體之外,杭州市電子文件中心ERMS的文件實(shí)體元數(shù)據(jù)包括其他所有屬性元數(shù)據(jù)。此外,在設(shè)計(jì)文件實(shí)體的元數(shù)據(jù)時(shí),還需要注意處理不同文件類型、組件類型的元數(shù)據(jù)設(shè)置問題。所謂文件類型,是指根據(jù)業(yè)務(wù)活動的需要,對若干具有共性的文件的抽象表示。文件類型可以為一個(gè)單位的分類方案所直接體現(xiàn),也可能無法在分類方案中直接體現(xiàn)。典型的文件類型如發(fā)文、合同、工程圖紙、發(fā)票、訂單等,不同的文件類型在文件級次往往具備一些不同的元數(shù)據(jù),如合同的發(fā)文的簽發(fā)者,合同的甲方、乙方、合同金額等。對于這種情況,本項(xiàng)目設(shè)置了一個(gè)通用的文件級次元數(shù)據(jù)集,未來隨著ERMS管理范圍的拓展,將在此基礎(chǔ)上再逐一明確各文件類型個(gè)性化的元數(shù)據(jù)。除了多文件類型外,ERMS還要管理不同類型的組件(即計(jì)算機(jī)意義上的文件),一般根據(jù)技術(shù)屬性劃分組件類型,比如文本、圖片、音頻、視頻等,不同類型的組件的技術(shù)環(huán)境元數(shù)據(jù)(可能還包括其他屬性元數(shù)據(jù))并不相同,這類元數(shù)據(jù)也被黃玉明局長稱為“編碼元數(shù)據(jù)”或“技術(shù)元數(shù)據(jù)”,國內(nèi)外也有很多標(biāo)準(zhǔn)支持。[23]對于這種情況,仍然可以借鑒對于不同文件類型元數(shù)據(jù)的處理方法,即先設(shè)置一個(gè)通用的組件級次元數(shù)據(jù)集,在此基礎(chǔ)上再逐一明確各媒體類型組件個(gè)性化的元數(shù)據(jù)。
7小結(jié)
篇10
關(guān)鍵詞:元數(shù)據(jù);異構(gòu)數(shù)據(jù)庫;醫(yī)療共享信息;查詢系統(tǒng)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-1959(2017)14-0012-02
隨著醫(yī)療行業(yè)信息化建設(shè)推進(jìn),各大城市中心醫(yī)院逐步建立起較成熟的HIS、LIS、PACS、RIS等信息系統(tǒng)。這些系統(tǒng)多為不同的業(yè)務(wù)系統(tǒng),都是由不同廠家開發(fā)的獨(dú)立系統(tǒng),使用的數(shù)據(jù)庫產(chǎn)品不同,具有異構(gòu)性,而且數(shù)據(jù)庫設(shè)計(jì)也不同,具有數(shù)據(jù)異構(gòu)性,導(dǎo)致同一行政區(qū)域的不同醫(yī)院、不同系統(tǒng)之間數(shù)據(jù)和資源不能有效共享,醫(yī)療數(shù)據(jù)利用低。通過元數(shù)據(jù)技術(shù)將不同業(yè)務(wù)系統(tǒng)資源有機(jī)整合,以滿足對醫(yī)療信息共享的需求。
1 元數(shù)據(jù)概述
元數(shù)據(jù)是“描述數(shù)據(jù)的數(shù)據(jù)”,或者“關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)”。元數(shù)據(jù)是用來描述數(shù)據(jù)本身的內(nèi)容特征和其它特征的數(shù)據(jù)[1]。元數(shù)據(jù)的目標(biāo)主要有兩個(gè)方面:①簡單高效的描述、保存、組織和管理大量信息資源;②使信息資源的檢索、發(fā)現(xiàn)、定位和共享更加便利與高效[2]。元數(shù)據(jù)的基本結(jié)構(gòu)由內(nèi)容結(jié)構(gòu)、句法結(jié)構(gòu)和語義結(jié)構(gòu)組成。內(nèi)容結(jié)構(gòu)用于定義元數(shù)據(jù)的構(gòu)成元素;句法結(jié)構(gòu)用于定義元數(shù)據(jù)的格式結(jié)構(gòu)以及如何描述這種結(jié)構(gòu);語義結(jié)構(gòu)用于定義元素的具體描述方法。
元數(shù)據(jù)是醫(yī)療信息資源組織和處理的基本工具,它為各種形態(tài)的醫(yī)療數(shù)字資源提供了規(guī)范、普遍的描述方法,元數(shù)據(jù)整合中開放描述和互操作性已成為一個(gè)基本要求[3]。
2 醫(yī)療共享信息查詢系統(tǒng)模型
醫(yī)院的信息系統(tǒng)存在大量異構(gòu)的數(shù)據(jù)庫,異構(gòu)性表現(xiàn)在多個(gè)方面,如使用不同的數(shù)據(jù)庫產(chǎn)品、數(shù)據(jù)庫表的設(shè)計(jì)不同、存儲的數(shù)據(jù)類型不同、運(yùn)行環(huán)境不同等。使用元數(shù)據(jù)技術(shù)對異構(gòu)數(shù)據(jù)庫進(jìn)行統(tǒng)一規(guī)范描述,實(shí)現(xiàn)共享訪問這些異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)。用戶通過統(tǒng)一的元數(shù)據(jù)查詢語句完成查詢操作,實(shí)現(xiàn)數(shù)據(jù)的透明訪問,同時(shí)保持了本地?cái)?shù)據(jù)庫的自治性。
區(qū)域醫(yī)療共享信息查詢系統(tǒng)(MQS),采用B/S三層架構(gòu),即系統(tǒng)由表現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)層組成,見圖1。
表F層為該查詢系統(tǒng)的用戶查詢接口,提供統(tǒng)一查詢界面和顯示查詢結(jié)果。業(yè)務(wù)邏輯層完成查詢請求的處理和查詢結(jié)果封裝,該層由元數(shù)據(jù)管理模塊、轉(zhuǎn)換器、包裝器組成。元數(shù)據(jù)管理模塊是系統(tǒng)核心部分,本系統(tǒng)的元數(shù)據(jù)包括全局?jǐn)?shù)據(jù)字典、局部數(shù)據(jù)字典信息組成,描述最小顆粒為各數(shù)據(jù)表的字段,并創(chuàng)建描述字段統(tǒng)一的詞匯表,以解決數(shù)據(jù)異構(gòu)問題。全局?jǐn)?shù)據(jù)字典包括查詢關(guān)鍵字與局部數(shù)據(jù)庫基本表的映射關(guān)系。局部數(shù)據(jù)字典包括數(shù)據(jù)庫產(chǎn)品名稱、訪問地址和帳號等信息,以解決異構(gòu)分布問題。轉(zhuǎn)換器將全局?jǐn)?shù)據(jù)庫元數(shù)據(jù)查詢邏輯語句進(jìn)行分解轉(zhuǎn)換,轉(zhuǎn)換為不同異構(gòu)數(shù)據(jù)庫的查詢子語句。包裝器將各個(gè)數(shù)據(jù)庫的查詢結(jié)果進(jìn)行集成處理。數(shù)據(jù)層是由異構(gòu)數(shù)據(jù)庫組成,保存大量的醫(yī)療數(shù)據(jù)信息。
數(shù)據(jù)查詢流程如下:用戶提交查詢請求,轉(zhuǎn)換器從元數(shù)據(jù)管理模塊獲取數(shù)據(jù)庫映射關(guān)系和元數(shù)據(jù)信息,將用戶提交的元數(shù)據(jù)邏輯查詢語句轉(zhuǎn)換成各異構(gòu)數(shù)據(jù)庫的查詢語句并發(fā)送給相應(yīng)的數(shù)據(jù)庫執(zhí)行。查詢的結(jié)果通過包裝器進(jìn)行合并過濾處理并返回給顯示界面。
3 系統(tǒng)實(shí)現(xiàn)的相關(guān)技術(shù)
XML技術(shù)。可擴(kuò)展標(biāo)記語言(XML)是在1998 年由萬維網(wǎng)聯(lián)盟制定的一種源標(biāo)注語言,主要是為了解決超文本標(biāo)記語言(HTML) 無法滿足越來越多的網(wǎng)絡(luò)數(shù)據(jù)交換的需求[4]。使用XML技術(shù)可以方便地為數(shù)據(jù)定義或擴(kuò)展自定義的描述術(shù)語以及這些術(shù)語間的結(jié)構(gòu)化關(guān)系,良好的自描述性和跨平臺特點(diǎn)使其成為元數(shù)據(jù)非常理想的描述語言。 MQS以查詢數(shù)據(jù)為中心使用XML對系統(tǒng)的全局字典進(jìn)行描述,部分代碼如下:
以上XML代碼實(shí)現(xiàn)查詢關(guān)鍵字“患者姓名”跟數(shù)據(jù)庫的映射,其中屬性dbname為異構(gòu)數(shù)據(jù)庫的名稱,tbname表示表的名稱,colname表示字段名稱,type表示該字段的類型。
DOM文檔對象模型是W3C組織推薦的處理可擴(kuò)展標(biāo)志語言的標(biāo)準(zhǔn)編程接口[5]。MQS系統(tǒng)使用DOM技術(shù)根據(jù)用戶提交的查詢關(guān)鍵字讀取解析XML文檔,獲取異構(gòu)數(shù)據(jù)庫的元數(shù)據(jù)信息,再結(jié)合局部數(shù)據(jù)字典元數(shù)據(jù)生成相應(yīng)的不同SQL查詢語句并執(zhí)行得到結(jié)果。
JSP+Servlet+JavaBean技術(shù)。JSP 技術(shù)是新一代的腳本技術(shù),能夠幫助網(wǎng)頁設(shè)計(jì)和開發(fā)人員簡單且高效的進(jìn)行動態(tài)網(wǎng)頁的開發(fā)[6],JSP動態(tài)網(wǎng)頁技術(shù)實(shí)現(xiàn)MQS與用戶的交互界面,用于用戶查詢請求的提交和查詢結(jié)果的顯示,Servlet服務(wù)器端程序負(fù)責(zé)查詢請求的任務(wù)分發(fā),JavaBean完成業(yè)務(wù)邏輯處理,包括訪問數(shù)據(jù)庫和查詢結(jié)果的封裝。
4 總結(jié)
本文提出了一種基于元數(shù)據(jù)的醫(yī)療共享信息查詢系統(tǒng)(MQS)解決數(shù)據(jù)源的異構(gòu)問題,用戶可以通過系統(tǒng)的統(tǒng)一用戶接口進(jìn)行查詢,并且從技術(shù)的角度分析了系統(tǒng)功能實(shí)現(xiàn)的可行性。但并未對異構(gòu)數(shù)據(jù)庫的元數(shù)據(jù)提取進(jìn)行深入探討,有待進(jìn)一步完善。
參考文獻(xiàn):
[1]李小濤,胡曉惠,郭曉利.基于元數(shù)據(jù)的復(fù)雜信息共享技術(shù)[J].系統(tǒng)工程與電子技術(shù),2015,37(3):700-706.
[2]趙華,王健.國內(nèi)外科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)及內(nèi)容分析[J].情報(bào)探索,2015(2):21-24.
[3]李萍.醫(yī)療數(shù)據(jù)質(zhì)量的問題探索和解決模式[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(8):217-219
[4]楊旋,朱辰,周小甲,等.基于XML的醫(yī)院信息集成平臺的研究與應(yīng)用[J].醫(yī)院數(shù)字化,2016, 31(12):82-85.
熱門標(biāo)簽
相關(guān)文章
1小學(xué)高段數(shù)學(xué)多元化教學(xué)策略
2元宇宙關(guān)鍵技術(shù)及與數(shù)字孿生探討
3數(shù)據(jù)科學(xué)下“多元統(tǒng)計(jì)分析”課程改革
4GeoGebra在高中數(shù)學(xué)單元教學(xué)的應(yīng)用