專利信息系統設計論文

時間:2022-04-02 11:25:44

導語:專利信息系統設計論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

專利信息系統設計論文

1專利信息可視化分析系統的需求分析

1.1專利信息可視化分析系統的建設目標

專利信息可視化分析系統的設計是把商業智能(BI)技術應用于專利信息分析,主要是為了實現以下建設目標:①引入專利分析指標,用戶可以不用知道專利指標的計算方式,只需要了解這些指標的用途,就可以利用系統得出分析結果。②建立多維分析系統,為用戶從多角度分析問題提供可靠的工具,從而為專利申請和專利戰略制定提供準確、及時的依據。③為企業了解競爭對手的核心技術和研究熱點領域及確定專利申請戰略、專利實施戰略與專利保護戰略服務。④為發現科技創新人才提供支持。⑤為國家從宏觀層面發現技術發展趨勢、提升科研水平、制定投入與產出規劃等提供決策支持。這些建設目標決定了專利信息可視化分析系統設計的功能目標,主要包括功能體系結構的說明、各模塊之間關系的描述、系統界面形式的選擇以及各個功能模塊的設計。

1.2專利信息可視化分析系統的主要功能

專利信息可視化分析系統最主要的功能是對專利數據進行可視化分析并繪制相關圖譜以及對相關數據進行挖掘與預測。專利信息可視化分析系統的總體功能結構。專利信息可視化分析系統主要由四大部分組成,即數據倉庫、ETL系統、OLAP和數據挖掘。數據倉庫是專利數據的存儲地;ETL系統可以批量地把異構的專利數據進行處理;OLAP系統是多維分析專利數據的技術核心;數據挖掘就是從大量的專利數據中發現隱藏的模式和規律。

1.3專利信息可視化分析系統的性能需求

與一般信息系統的性能需求相同,專利信息可視化分析系統的性能需求主要包括安全性需求、可靠性需求、用戶界面需求、響應時間需求、靈活性需求、故障處理需求、可擴展性需求等。

1.4專利信息可視化分析系統的功能需求

專利信息可視化分析系統的功能需求可以定義為兩大類,即多維數據數分析和專利數據挖掘。多維數據分析即多角度分析數據,專利信息可視化分析系統的分析角度包括專利申請時間(從整體和技術領域分析專利申請的趨勢)、專利公開時間(分析專利的公開趨勢,專利申請與公開的時間差,即專利申請延遲公開的大致時間)、專利機構和人(分析和評估專利機構和人)、專利申請地域(分析專利地域分布趨勢及各地域技術優勢和人才分布情況)、專利權人(分析專利權人的技術狀況、專利申請狀況、專利質量和研究熱點等)、專利發明人(發現高產專利發明人和核心技術人員,與專利分類號結合可以分析專利發明人的技術特點)、專利分類號(從IPC分類和專利技術領域分析專利信息,結合區域、發明人和專利權人可以綜合分析專利數據,確定各區域、發明人、專利權人的技術特點和優勢)、專利授權(觀察專利授權狀況及相關法律狀態)、專利失效(觀察專利失效狀況)和專利類型(分析專利類型,并結合其他角度進行綜合分析,如專利技術生命周期)等。用戶可以自由選擇數據分析的角度,系統還需提供數據篩選功能,如制定特定的專利權人和時間段作專利分析,即數據切片,系統必須提供數據切片功能。專利數據挖掘功能包括專利發明人關聯分析、專利權人關聯分析、IPC關聯分析、專利引證分析、專利聚類分析和專利申請時序分析等。專利發明人關聯分析用來發現專利發明人之間的合作發明狀況,并可以通過這個模型為企業選擇合適的發明人和技術人才;專利權人關聯分析用來發現專利權人之間的關系網絡;IPC關聯分析用來發現專利技術領域間的關系;專利引證分析利用專利之間的引用關系發現基礎專利、核心專利、技術演變過程;專利聚類分析用來對專利數據進行劃分;專利申請時序分析用來預測未來的專利發展趨勢。

2專利信息可視化分析系統的設計思路

2.1專利數據倉庫建立

2.1.1維度建模

數據倉庫的模型構建與一般事務型數據庫模型構建方式不同。美國的K.Ralph在長期的數據庫分析與設計中總結出了一種“維度建模”法。維度建模是一種將數據結構化的設計方法,并且提供快速查詢功能。維度將對象分為度量和上下文。度量常常以數值形式出現,稱為“事實”,事實被大量文本形式的上下文包圍。上下文被直觀地分割成多個獨立的邏輯塊,稱為“維”。維度描述了度量上下文的“5W”(即Who、What、When、Where和Why)信息以及作用方式。

2.1.2專利數據的特征

充分了解現有數據的真實情況是影響數據倉庫模型的重要因素。本系統通過中國專利數據庫獲取了2000—2012年湖南省專利申請數據共計93754條,這些專利數據包括發明專利和實用新型專利,但不包括外觀專利。

2.2專利數據處理

2.2.1專利申請日和公開日處理

專利申請日和公開日處理的過程如下:首先從原始的專利數據源的公開日字段和申請日字段提取出日期數據,然后將這兩個字段的記錄合并成為一個數據集,由于這個數據集中有大量的冗余數據,為提供性能需去除重復的數據,這里采用聚合的方式去除冗余數據。

2.2.2專利分類號處理

1)專利分類號處理的方案。原始數據中的專利分類號表述形式為C11B1/00(2006.01)I;C11B1/04(2006.01)I,以“;”為拆分符拆成多條記錄存入數據倉庫。這個步驟的處理將IPC數據首先存入DimIPC維度表,其次還要將IPC和專利申請號關聯起來載入FactIPC事實表進行技術分析。專利分類號處理通常有3種方案,根據專利數據處理時間和結果,本文采用方案三。2)專利分類號處理的數據流。專利分類號的處理由3個數據流和1個包含在循環容器中的數據流所組成,這4個數據流的具體執行方式如圖9所示。數據流1把原始數據中的專利申請號字段和分類號全部讀取到臨時的記錄集中,但是在FactIPC中已存在的不再讀取。這時記錄集中記錄是以“[專利申請號|分類號1;分類2;……]”的形式存儲。

2.2.3專利事實表處理

專利事實數據處理可以包括3個方面:①專利申請區域處理;②專利機構處理;③其他數據規范化處理。如圖10所示。

2.2.4專利授權和專利失效數據處理

專利授權數據處理比較簡單。先把FactPatent事實表中的專利是否授權字段置為0,0代表專利沒有授權。在原始數據源中讀取的專利數據都是已經授權的專利數據,這里只要把獲得原始數據中的專利申請號與FactPatent事實表中的數據進行比對,如果存在則將FactPatent事實表中的專利是否授權字段置為1,表示該條專利已經授權。專利失效的處理同專利授權。

2.2.5其他處理

專利發明人的拆分處理和專利權人的拆分處理與專利分類號處理類似。另外,還需要對一些在上述步驟中存在但尚未入庫的數據進行手工處理。比如在進行專利事實數據處理的過程中,存在區域無法匹配的數據,要仔細檢查這些數據的錯誤原因,然后修改再入庫。

3SSIS包處理和數據檢查

SSIS包建立好后接下來就是執行。SSIS包執行完以后,這時數據倉庫中已有了專利數據,為了確保數據的準確性還需要對數據進行檢查,看看是否存在異常。而最重要的一步檢查是查看專利的記錄數是否與搜集的數據吻合。

作者:文庭孝楊忠劉曉英單位:中南大學湘潭大學