數據分析的方法范文
時間:2023-05-30 16:10:44
導語:如何才能寫好一篇數據分析的方法,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:數據分析應用率;分析應用點;四個層次;數據中心;儀表盤
中圖分類號:N37 文獻標識碼:B 文章編號:1009-9166(2009)02(c)-0063-02
現代企業的決策往往是在整合大量信息資料的基礎上制定出來的,對數據的理解和應用將是企業決策的基石。與傳統的操作型應用相比,數據利用的應用建設難度更大,它是隨著管理水平而發展,同時又取決于業務人員的主觀意識,這就決定了以數據利用為核心的應用建設不可能一蹴而就,而是一個長期迭展的建設過程。從2003年起工廠開始全面推進數據分析應用工作,經歷過曲折,同時也有收獲。經過多年的努力,工廠的數據分析應用工作開始進入良性發展階段,筆者認為有必要對工廠目前數據分析應用工作作一總結和思考。
一、工廠數據分析應用工作開展現狀
工廠數據分析應用工作推進至今已有四五年的時間,從最初全面調研工廠數據量和數據分析應用狀況,將數據分析應用率指標作為方針目標定量指標來考核,到后來將數據分析應用工作的推進重心從量向質轉移,采用以項目為載體進行管理,著重體現數據分析應用的實效性,再到目前以分析應用的需求為導向,以分析應用點為載體,分層次進行策劃。經過上述三個階段,工廠數據分析應用工作推進機制得到了逐步的完善,形成了廣度深度協同發展的信息資源利用管理框架。截止到目前,工廠數據分析應用率達到96%,四個層次的分析應用點共計100多個,數據分析應用工作在生產、質量、成本、物耗、能源等條線得到廣泛開展,有效推動了工廠管理數字化和精細化。2007年,工廠開始探索細化四個應用層次的推進脈絡,進一步豐富工廠信息資源利用框架,形成層次清晰、脈絡鮮明、職責分明的信息資源利用立體化的推進思路。
1、第一層次現場監控層。第一層次現場監控層,應用主體是一線工人和三班管理干部,應用對象是生產過程實時數據,應用目標是通過加強生產過程控制,輔助一線及時發現生產過程中的異常情況,提高生產穩定性。例如制絲車間摻配工段的生產報警,通過對生產過程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進行判異操作,對異常情況通過語音報警方式提醒擋車工進行異常處理;例如卷包車間通過在機臺電腦上對各生產機組的工藝、設備參數、實時產量、質量、損耗數據的監控,提高對產品質量的過程控制能力。第一層次應用以上位機和機臺電腦上固化的監控模型為主,制絲車間每個工序、卷包車間每種機型的應用點都有所不同,為此我們建立了制絲車間以工序為脈絡,卷包車間以機種為脈絡的應用點列表,圍繞脈絡對第一層次應用點進行梳理,形成第一層次應用的規范化模板。制絲車間第一層次應用點模板包括工序名稱、應用點名稱、應用模型描述、應用對象、應用平臺、異常處置路徑等基本要素。卷包車間應用點模板橫向根據機種分,縱向按上班及交接班、上班生產過程中、下班及交接班三個時間段分,通過調研分別列出擋車工針對每個機種在三個時間段分別要查看的數據和進行的操作。隨著模板的擴充和完善,一線職工的知識、經驗不斷充實其中,第一層次應用點模板將成為一線工人和三班管理干部日常應用監控的標準,同時可以規避人員退休或調動帶來的經驗、知識流失的風險。2、第二層次日常管理分析層。第二層次日常管理分析層,應用主體是一般管理干部,應用對象是產質損、設備、動能等指標,應用目標是通過加強對各類考核指標的監控和分析,提高工廠整體的關鍵績效指標水平。例如制絲車間的劣質成本數據匯總和分析,通過對車間內各類廢物料、劣質成本的數據進行匯總、對比和分析,尋找其中規律及薄弱環節,并尋根溯源,采取措施,降低劣質成本。例如卷包車間的產量分析,通過對產量數據、工作日安排、計劃產量進行統計和匯總,結合車間定額計劃、作業計劃和實際產量進行分析,尋找實際生產情況與計劃間的差異,并分析原因。第二層次應用以管理人員個性化的分析為主,呈現出分析方法多樣化、應用工具多樣化的特點。但是萬變不離其中的是每個管理崗位的管理目標以及圍繞管理目標開展的分析應用是相對固定的,至少在短期內不會有太大的變化。為此我們建立了一份以重點崗位為脈絡的應用點列表,圍繞脈絡對第二層次應用點進行梳理,形成第二層次應用的規范化模板。模板包括崗位名稱、管理目標、應用點名稱、應用描述、涉及主要考核指標、應用平臺、應用頻次、分析去向等基本要素。通過構建第二層次應用點模板,明確了每個管理崗位應用信息資源支撐管理目標的內容和職責。隨著新的管理目標的不斷提出以及應用的逐步深入,模板每年都會有更新和擴充。3、第三層次針對性分析應用層。第三層次針對性分析應用層,應用主體是項目實施者,應用對象是各類項目的實施過程,例如QC項目、六西格瑪項目、質量改進項目,或針對生產中的特定事件進行的分析和研究。應用目標是通過應用數據資源和統計方法開展現狀調查、因果分析、效果驗證等工作,提高各類項目實施的嚴密性和科學性。第三層次的應用工具在使用初級統計方法的基礎上會大量應用包括方差分析、回歸分析、正交試驗、假設檢驗、流程圖等在內的中級統計方法。以QC活動為例,我們可以看出其實施過程無一不與數據應用之間有密切的聯系[1]。近年來,在質量改進項目和QC項目的評審工作中已逐步將“應用數據說話、運用用正確合理的統計方法,提高解決問題的科學性”作為項目質量考核標準之一。而六西格瑪項目實施的核心思想更是強調“以數據和事實驅動管理”,其五個階段[2]D(定義)、M(測量)、A(分析)、I(改善)、C(控制),每個階段都要求結合如FMEA(失效模式后果分析),SPC(統計流程控制),MSA(測量系統分析),ANOVE(方差分析),DOE(實驗設計)等統計方法和統計工具的應用。4、第四層次主題性應用層。第四層次主題性應用層,應用主體是中層管理者,應用對象是專業性或綜合性的分析主題,應用目標是通過專業科室設計的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據。工廠在實施了業務流程“自動化”之后,產生了大量的數據和報表。如何將工廠的業務信息及時、精煉、明確地陳述給中層管理層,以此來正確地判斷工廠的生產經營狀況,是擺在我們眼前的一個突出問題。大家都有開車的經驗,司機在駕駛車輛的時候,他所掌握的車況基本上是來自汽車的儀表盤,在車輛行使的過程中,儀表盤指針的變化,告知汽車的車速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標在安全范圍之內,車子就能正常地運行。我們不妨將儀表盤的理念移植于工廠,建立工廠關鍵指標及運行管理儀表盤,將工廠的關鍵信息直觀地列在上面,及時提醒各級管理人員工廠生產運營是否正常。
⑴關鍵績效指標監控系統。對分布在各處的當前及歷史數據進行統一展示,以工廠關鍵績效指標為中心,支持統計分析和挖掘,可為中層管理者提供工廠關鍵績效指標一門式的查詢服務,使各業務部門尋找、闡釋問題產生的原因,以有效監控各類關鍵績效指標,及時采取改進措施,提高生產經營目標完成質量。⑵系統運行狀態監控系統。通過數據采集、手工錄入等各種渠道收集各類系統的運行狀態,及時掌握故障情況,采取措施加以閉環,將因系統故障造成對用戶的影響減至最小,確保各類系統的穩定運行和有效應用。通過建立系統運行狀態監控系統,中層管理人員上班一打開電腦進入系統,就能了解到當天及上一天各類系統的運轉情況,發生了什么異常,哪些故障已經得到解決,哪些故障還未解決。⑶第四層次主題性分析應用。在展示關鍵績效指標和系統運行狀態的基礎上,由各專業科室思考專業條線上的分析主題,采用先進科學的理念和方法對數據進行分析和挖掘。近兩年來,工廠充分發揮專業科室的優勢和力量,相繼設計和開發了工藝質量條線的六西格瑪測評系統,設備條線的設備效能分析系統,還有質量成本核算與分析系統。通過這些分析主題的支持,工廠管理人員可以更方便快捷地了解質量、設備、成本等條線上的關鍵信息,及時采取相應措施,從而提升管理效率。
二、數據分析應用工作存在的不足及思考
工廠數據分析應用工作的推進方法從最初的采用數據分析應用率單個指標進行推進發展到目前按上文所述的四個層次進行推進,每個層次的推進脈絡已經逐步清晰和明朗,但事物發展到一定的階段總會達到一個瓶頸口,目前工廠數據分析應用工作存在的問題及措施思考如下:
1、從推進手段上要突破信息條線,充分發揮專業條線的力量。信息條線作為推進工廠數據分析應用的主管條線,其作用往往局限在技術層面上的支撐。雖然信息條線每年都會規劃形成工廠數據分析應用整體的工作思路和具體的實施計劃,但是無論從工廠層面還是從車間層面來講,單純依靠信息條線從側面加以引導和推進,使得數據分析應用工作始終在業務條線的邊緣徘徊,與產量、質量、設備、消耗、成本、動能等各個條線本身工作的結合度有一定的距離。所以工廠要進一步推進數據分析應用工作,調動起業務人員的積極性和主動性,突破現有的瓶頸,應該考慮如何調動起專業條線的力量。一是可以在年初策劃應用點的時候要加強專業條線對車間業務自上而下的指導,引導管理人員加強對缺少數據分析支撐的工序、崗位/管理目標的思考;二是建立平臺加強各車間同性質崗位之間的溝通與交流,均衡各個車間的數據分析應用水平和能力;三是對車間提交的分析報告給出專業性的指導意見。2、要加強對數據中心的應用。數據中心的建立可以使業務系統從報表制作、數據導出等功能中解放出來,專注于事務處理,將數據應用方面的功能完全交給數據中心來解決。目前,數據中心已建立了涉及產量、質量、消耗等各個條線的Universe模型,并對全廠管理干部進行了普及性的培訓。但是從目前應用情況來看,還比較局限于個別管理人員,追尋原因如下:一是業務系統開發根據用戶需求定制開發報表,業務人員通常習慣于從現成的報表中獲取信息。如果要求業務人員使用數據中心工具自行制作報表模板,甚至可能需要將其導出再作二次處理,那么業務人員一定更傾向于選擇第一種方式。二是近幾年來人員更替較多,新進管理人員不熟悉數據中心應用,導致數據中心應用面受到限制。隨著今后MES的建設,業務系統中的數據、報表、臺帳和分析功能將有可能由業務用戶自行通過集成在MES中的數據中心前端開發工具來訪問和靈活定制。因此,要盡快培養工廠業務人員數據中心的應用能力,包括數據獲取以及報表定制方面的技能。筆者認為應對方法如下:一是對于崗位人員變更做好新老人員之間一傳一的交接和培訓;二是適時針對新進管理人員開展集中培訓;三是通過采用一定的考核方法。3、提高新增應用點的質量。工廠每年都會組織各部門審視第一、第二層次應用點列表,圍繞重點工序和重點管理崗位調研有哪些應用上的空白點是需要重點思考的,以新增分析應用點的方式進行申報和實施。同時針對第三層次針對性分析應用,工廠也會要求部門以新增分析應用點的方式將需要數據支撐的項目進行申報。作為一項常規性工作,工廠每年都會組織部門進行應用點的申報,并按項目管理的思想和方法實施,事先確立各個應用點的應用層次、數據獲取方式、實現平臺,并對其實施計劃進行事先的思考和分解,確定每一個階段的活動目標、時間節點以及負責人員,每個季度對實施情況予以總結,并動態更新下一階段的實施計劃。該項工作從2005年起已經連續開展了三年,部門可供挖掘的應用點越來越少,如何調動部門的積極性,保持并提高應用點的實效性,我們有必要對新增分析應用點的質量和實施情況進行考評,考評標準為:一是新增分析應用點是否能體現數據應用開展的進取性、開拓性和創新性;二是新增分析應用點是否能切實提高管理的精細化和科學化水平;三是新增分析應用點是否能采用項目管理的思想和方法實施,按時間節點完成各項預定計劃。
三、結束語。隨著近幾年來技術平臺的相繼成熟以及管理手段的逐步推進,工廠業務人員用數據說話的意識已經越來越強,但是要真正使工廠管理達到“三分技術、七分管理、十二分數據”的水平,還有很長的路要走,這既需要我們的業務人員從自身出發提高應用數據的水平和能力,同時也需要工廠從管理手段和管理方法上不斷拓寬思路、創新手段,真正實現數據分析應用成為工廠管理的重要支撐手段。
作者單位:上海卷煙廠
參考文獻:
篇2
[關鍵詞]財政收入;GDP;面板數據
中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01
在計量經濟學中,我們一般應用的最多的數據分析是截面數據回歸分析和時間序列分析,但截面數據分析和時間序列分析都有著一定的局限性。在實際經濟研究當中,截面數據回歸分析會遺漏掉數據的時間序列特征,例如在分析某年中國各省的GDP增長數據時,單純的截面數據回歸分析無法找出各省GDP隨時間變化的特征,使得分析結果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯系與區別,例如在分析中國單個省市的GDP隨時間增長的數據時,無法找出各個省市之間經濟增長的聯系與區別,因而同樣無法滿足我們的需要。而面板數據,是一種既包括了時間序列數據,也包括了相關截面數據的復合數據,是近年來用得較多的一種數據類型。
下面我們將基于2000-2009年中國各省GDP和財政收入的面板數據的實例來詳細闡述面板數據的分析方法。
一、GDP與財政收入關系的經濟學模型
財政收入是保證國家有效運轉的經濟基礎,在一國經濟建設中發揮著重要作用。隨著中國經濟發展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調節和推動國民經濟發展。正確認識財政收入與經濟增長之間的長期關系,把握財政收入與經濟增長之間的相互影響,發揮財政收入對經濟發展的調節和促進功能,對于完善財稅政策,深化財稅體制改革,實現財政與經濟之間的良性互動,具有重要的現實意義。文章就將從中國各省的面板數據出發研究,中國不同地域間財政收入和GDP之間的關系。
二、實證分析
(一)單位根檢驗
Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。
(二)協整檢驗
如果基于單位根檢驗的結果發現變量之間是同階單整的,那么我們可以進行協整檢驗。協整檢驗是考察變量間長期均衡關系的方法。所謂的協整是指若兩個或多個非平穩的變量序列,其某個線性組合后的序列呈平穩性。此時我們稱這些變量序列間有協整關系存在。
在最終的結果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結果表明,我國各省2000-20009年的GDP和財政收入面板數據間存在著協整關系。既然通過了協整檢驗,說明變量之間存在著長期穩定的均衡關系,其方程回歸殘差是平穩的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結果是較精確的。
三、建立模型
混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。
我們根據混合模型的回歸結果,得到財政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結構來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。
變系數模型:顯然,在中國各省之間由于處在不同的地區,因而擁有不同的區位優勢,那么各省的發展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經濟變量間出現一些關聯性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數模型。
在回歸結果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數模型回歸結果中,GDP的回歸系數大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經濟并不是很發達的西部地區,由此可以看出,處在經濟發達地區的財政收入占GDP的比重要低,而不發達地區則要高。
四、結論
通過以上的分析檢驗,我們發現針對于中國財政收入和GDP的面板數據,我們應建立起變系數模型,并通過模型分析,我們可以得出這樣的結論,中國各省間由于存在著地域經濟發展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結果也告訴我們,我國西部地區的財政收入占GDP的比例要明顯高于東部地區,地區發展落后地區的財政收入占GDP的比例也要明顯高于東部地區。因此,這為我們改善我國落后地區的經濟發展提供了一定的新思路,就是對一地區的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業,因為,按照發達地區的經驗表明,財政收入所占比重過高,經濟發展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經濟活力,使西部地區以及落后地區及早的跟上東部發達地區的發展步伐,從而消除我國經濟發展的地域不平衡。
參考文獻:
[1]謝識予,朱洪鑫.高級計量經濟學[M].復旦大學出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開大學出版社,2004.
篇3
相關熱搜:統計學 統計學原理
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法
篇4
【關鍵詞】教師 大數據 數學模型 matlab 最小二乘法
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2015)06-0155-02
大數據,或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對那些含有意義的數據進行專業化處理。本文將以東北地區數學專業教師大數據為基礎,通過“加工”實現數據的“增值”,使其為決策與預測服務。
一、東北地區數學專業教師大數據來源及準備
通過查閱資料與調查,收集到東北三省各高校數學教師相關大數據,包括教師教齡(?S年)、收入(?S元)、稅收(?S元)和職業病情況等方面的實際數據。由于得到的數據信息量大,輕重各異,所以首先需要進行數據預處理,即清除異常數據、錯誤糾正、格式標準化等,再通過數據挖掘技術,利用一系列相關算法和數據處理技術從大量的數據中提取人們所需要的重要信息,也就是上面所提到的實現信息的“增值”,同時大大提高數據處理效率,下面具體介紹本項目所采用的模型和計算方法。
二、東北地區數學專業教師大數據分析與結果
收集并處理好教師教齡、收入、稅收和職業病情況等方面的數據后,本文主要針對三個方面進行了詳細的分析:
1.教師收入隨年份的變化
(1)數據范圍:1994年-2014年東三省各高校數學教師收入(單位:元);
(2)計算條件:matlab軟件,最小二乘回歸分析,高性能計算工作站;
(3)求解過程:年份作為自變量x,收入為因變量y,從總體上看,二者統計關系大致符合一元線性的正態誤差模型[3],即對給定xi的有最小二乘一元線性回歸公式yi=b0+b1xi+εi,其中:
b■=■, ■=■■x■b0=■-b■■, ■ =■■y■
其中εi是由變量可能的內在隨機性、未知影響因素等隨機擾動造成的誤差。總之,它可看成是眾多細小影響因素的綜合代表。最后,由Matlab提供polyfit函數實現回歸函數擬合[4];
(4)結果分析:計算結果表明,隨著年份的增加,教師收入也在不斷增加。估計的因變量的系數b1約為191,也就是說,每過一年,教師收入大致可增加近191元。
2.教師職業病情況與教齡的關系
(1)數據范圍:1994年―2014年東三省各高校數學教師教齡(單位:年)、職業病情況;
(2)結果分析:首先利用matlab軟件,以橫軸為某年東三省數學教師教齡,縱軸反映相應教齡的平均職業病情況(為方便,規定越接近縱軸正方向,職業病越嚴重)利用matlab軟件繪制圖形[5],發現教師教齡越長,職業病也愈加嚴重。每一年的教師職業病情況均可繪制一張圖表,通過將這11張圖表的最高值(即每一年職業病的最高值)做比較,發現其趨勢是先逐年下降,最后趨于穩定。
3.對教師專業發展階段的研究
(1)數據范圍:2014年東三省各高校數學教師收入、教齡、稅收和職業病大數據;
(2)計算條件:IBM處理器、大數據挖掘分類算法;
(3)求解過程:用神經網絡研究方法(即模擬生物上神經元工作的方法)。圖中每個橢圓形節點接受輸入數據,將數據處理后輸出,輸入層節點接受教師信息的輸入,然后將數據傳遞給隱藏層,隱藏層將數據傳給輸出層,輸出層輸出教師專業發展處于哪一專業成熟階段;
(4)結果分析:若將教師專業成熟過程分為三個階段:形成期、發展期和成熟期。那么利用IBM處理器和以上算法,在所調查的教師中,約70%處于發展時期,是其基本適應教育教學工作的時期;約20%處于形成期,是形成良好心理素質和正確教育思想的關鍵時期;約10%處于成熟期,是掌握教學主動權,成為學校教學骨干的時期;
(5)研究意義:研究東三省高校數學教師專業發展成熟階段,可以基本掌握教師資源結構,從而能夠遵循不同發展階段的不同特征、觀念、心理、發展需求,制定相應教研活動、政策和制度,促進教師全面持續發展[6]。
三、結果討論
1.數據呈現以上結果的原因
(1)隨著國家科教興國戰略的深入實施,教師的工資和待遇將被逐步納入國家工作人員統一管理,教師的收入將得到很大的提高。另一方面,數學能力的培養是學習各專業、走入各行業的基礎,國家將加大數學知識的教育力度,進而數學專業教師所付出的辛苦也更加不可小覷,綜合以上幾個重要原因,教師收入隨年份增加而增加也是符合經濟理論的。
(2)教齡越長,職業病也越嚴重的依存關系,我們容易理解。但隨著時間的推移,職業病的嚴重性呈現下降趨勢正是反映了我國科技的革新:環境的改變、教學設備和教學技術的更新使得教師的課堂教學更加高效和輕松便捷,如多媒體、電子白板使得課堂不再“塵土飛揚”。
(3)在對教師專業發展階段的研究中,處于專業發展時期的教師所占比例最高,達到近70%。實際上,他們多數處于青壯年的人生階段,是社會的中堅力量,又曾在高等教育多樣化與綜合化的背景下受到過良好的教育,并具有較豐富的教學經驗和緊跟新時代的創新思想,自然在專業發展的角度也占有較大比例。
2.合理的相關預測
大數據最有價值的特點就是其“預見性”。上述數值結果表明,在經濟平穩發展和社會穩定的前提下,東三省數學專業教師的收入在未來的幾十年依舊處于增長趨勢,教師職業病總體減輕,專業發展越來越成熟,使得教師隊伍整體素質越來越高,而未來教師的考核獎勵制度也會變得更加嚴格和全面。
3.建議
(1)無論是對教師行業還是其他行業感興趣,都要關注其變化,分析其形勢及趨勢,以便對此行業的認知更加科學合理。
(2)本文采用的大數據處理所用模型和方法,可以進一步推廣到其它相關領域,使之成為研究大數據的更通用的工具。
本文利用matlab軟件、最小二乘法模型及IBM處理器分析了東北地區數學專業教師大數據,得出的結果對于掌握該地區數學教師基本情況并預測其發展趨勢有著重要的作用,還為熱心同類問題的研究者提供高效的方法和技術。當我們不能有效處理所獲取的大數據,它們就是一些平凡的數字和符號。如果我們能夠很好地駕馭大數據,它們必定會為我們帶來諸多的方便。
最小二乘法模型在處理大數據時有一定的優勢[7],統計分析,神經網絡算法和遺傳算法都是處理大數據的有效方法,如果能將這些方法有機的結合起來,將更能獲得許多滿意的數值分析結果。當大數據超過計算條件的時空允許時,不僅耗時費力,甚至使得計算成為不可能,通常需要采用并行算法等高效計算手段。在高性能計算方面,我們并沒有用到并行算法,如果能利用并行算法,所處理的數值結果容量會更大更有參考價值。
參考文獻:
[1]蔡鎖章主編.數學建模:原理與方法.北京:海洋出版社,2000.
[2]維克托邁爾舍恩伯格.大數據時代.浙江:浙江人民出版社,2012.
[3]吳翊,吳孟達,成禮智編著.數學建模的理論與實踐.長沙:國防科技大學出版社,1999.
[4]張德豐編著.Matlab數值分析與仿真案例.北京:清華大學出版社,2011.10(21世紀高等學校規劃教材計算機應用)IBSN 978―7―302―26254―1.
[5]楊德平等編著.Matlab基礎教程.北京:機械工業出版社,2013.221世紀高等院校計算機輔助設計規劃教材 ISBN 978―7―111―41023―2.
篇5
【關鍵詞】靶場遙測 數據處理 處理方法
數據處理的周期直接受到遙測數據參數提取和處理素的影響,這也是在靶場遙測數據領域一項重要的研究內容。本文將就此論題進行探討,以求得到高效的處理方法。
1 遙測復雜數據幀的描述
遙測數據是二進制數據流,主要通過幀結構形式將多路數據進行記錄,固定字節長度的文件信息是文件頭。子幀中有專門的一路用于副幀和數字量,子幀參數字節和副幀有著相同的數據類型,但是有著不同的數字量參數字節,有著繁多的參數種類。如果數字量結構中相對導彈每個特征飛行時段都需要有一個分幀記錄數據,一般分幀有四個,每個分幀可以分為A、B區,在A區不同分幀有著相同的記錄參數,在B區記錄參數各不相同,這種數字量則為遙測復雜數據幀。
2 大數據量處理
2.1 基于網絡數據庫的數據處理模式
遙測數據綜合處理系統有多個設備組成,包括專用數據導入計算機、數據存儲陣列、高性能客戶機、交換機、高性能服務器。其中服務器需要配備兩臺,一臺用于中心處理服務器,一臺用于做數據存儲服務器。中心服務器同時為多個用戶提供計算服務,可以充分利用服務器硬件資源提高數據的處理速度。
遙測數據綜合處理系統通過將C/S與B/S結合的方式方實現。C/S主要用于處理日常試驗任務的數據、數據檔案的歸檔和記錄、數據的查詢等工作;B/S架構主要用于管理任務、查詢統計歷史數據、上傳下載打包的數據。
按照變化頻率,可以將遙測參數分為速變參數和緩變參數。緩變參數有著復雜的記錄格式,包括子幀、副幀、數字量等幀結構中都有所分布,如果導彈的型號不同,那么其參數信息表單也存在差異,所以更改頻繁、使用單一是其主要的特點。所以,可以采用客戶端軟件對數據的質量進行檢查和分錄,由中心處理服務器實現分錄數據的對接、平滑濾波和剔除野值。緩變參數處理操作步驟一般如下:
(1)用戶通過客戶端提供的數據下載功能將項目試驗任務遙測數據下載到本地。
(2)對項目任務參數信息進行審核,如果該參數信息表單已經存在那么需要重新配置參數信息表單。
(3)在緩變參數處理軟件中輸入遙測數據及參數信息表單路徑,然后上傳到中心處理服務器,完成數據的對接,剔除野值,生成參數數據文件。
(4)上傳生成的參數數據文件和參數信息表單,由數據存儲中心進行保存。
(5)生成處理結果
用戶通過客戶端軟件對測量數據質量檢驗報告進行預覽,合格后可以打印。
在測量數據的子幀結構中,速變參數記錄數據有著相對固定的格式,型號不同的導彈任務參數信息表單基本沒有太大的差別,所以可以采用客戶端軟件實現數據的驗證和截取。速變參數記錄數據的處理步驟如下:
(1)上傳參數信息表單,將數據分路指令發送給速變參數處理軟件服務器。
(2)下載遙測數據文件,根據要求執行遙測數據文件質量檢查等操作,并且保存到存儲中心,將執行完畢的指令發送給客戶端軟件。
(3)用戶通過客戶端軟件查看測量數據質量檢查情況,如果不符合質量評定要求,發送數據對接信令,將不同測量數據的分路數據進行對接,生成參數數據文件并上傳存儲中心。
(4)用戶通過客戶端軟件從存儲中心下載相應的參數數據文件,進行選段采樣、譜分析,生成譜圖。
(5)用戶通過客戶端軟件將最終參數數據文件保存到存儲中心,發送報告生成指令,報告生成服務軟件自動生成數據處理結果報告和測量數據質量檢查報告,用戶審閱通過后即可打印。
2.2 數據選取
隨著遙測測量數據量的不斷增加,數據的冗余性也逐漸加大。因此,將數據壓縮技術應用于遙測數據處理中,在保持參數波形不失真的情況下降低數據處理量,從而達到提高數據處理效率的目的。目前,數據壓縮方法很多,常用的主要有相對插值法、二次采樣法、拋物線法和一階扇形內插法,但從壓縮比和參數波形保持兩方面綜合來看,一階扇形內插法更具優勢,具體內容在此不詳細敘述,可參考《靶場遙測數據選取方法的比較分析》。
3 結束語
通過改變數據處理模式以及降低數據冗余性,掌握遙測數據記錄特點和變化規律,將遙測大數據量處理問題予以解決,這對于靶場遙測數據處理上有著重要的意義。未來應當構建遙測綜合處理系統,盡量滿足大數據量處理的要求。希望本文提出的觀點具有一定的參考價值。
參考文獻
篇6
本文主要講述了工程研究中缺損數據的主要的簡單填補方法,涉及了人工填補、特殊值填補、回歸填補、信息擴散填補以及多重填補,并淺析了各種填補方法的優缺點。但在實際問題中,仍需要考慮各方面的因素,結合實際情況,對填補的數據進行最優化處理。
關鍵詞:
缺損數據 ; 信息擴散; 多重填補
前言
隨著工程技術的發展越來越迅速,人們所掌握的各種工程手段也更加的成熟,但工程研究主要是以大量的數據處理為基礎的,這就使得工程數據的分析與處理顯得尤為重要。然而,在現實的數據采集與發掘的過程中,由于數據采集技術和偶然的原因,使得某些重要的數據丟失或無法測得,致使這些工程研究與應用的難度增加,且研究所得結論也會或多或少地受到影響。在現實情況下,缺損數據所造成的影響主要有以下幾點:1.含有缺損數據,導致獲得的信息量減少,使統計精度降低;2.數據處理中的許多假設都是建立在無缺損數據的前提下,致使處理的結果不正確;3.缺損數據本身就是重要的數據源,使得后續計算與處理無法繼續。由此可知,對這些缺損數據或不完備數據的處理將成為工程研究上一大重要問題。
工程上缺損數據產生的原因以及主要的處理方法
缺損數據產生的原因是多樣的,主要分為由于器械精度不夠而導致測得錯誤的數據或者無法測得的數據和由于人為的原因導致數據記錄錯誤或數據丟失。而在工程研究上,由人的失誤等主觀因素導致的缺損數據是可以避免的,這些缺損數據大多數是由于器械等客觀因素導致的。例如在地震研究中,許多數據都不可能準確地測得;再例如在古建筑研究方面,如何根據現測得的古建筑材料性能參數估計該古建筑在不做人工處理的條件下仍能保存的時間……缺損數據可謂無處不在,缺損數據的處理或許將成為工程師的一大難題。
目前,工程上處理這些缺損數據的方法主要是刪除、填補和忽略。現階段最常用的處理方法就是刪除了,甚至一些統計軟件也常用這一依據,在所刪除的元組相對于整個數據系統相對比較小的情況下,該處理方法非常有用,且簡單易行。然而很多時候,缺損的數據本來就是很重要的數據,必須要獲得該缺損值,這種方法就不可行了;同時,在所挖掘的數據本來就少的情況下,這種以犧牲現有數據來得到完整的數據系統也是不明智的,該方法的局限性就在于此。對于填補缺損數據,無疑是一種比較實用的處理方法。在填補恰當的情況下,對數據的后續研究與處理將起到非常重要的作用。本文主要就是討論缺損數據的最優填補方法。再者,就是忽略這些缺損的數據,也即不處理這些數據。相比于刪除和填補誤差較大的情況,直接在含有缺損數據的數據集上進行數據分析與處理也不失為一種較好的處理方法。
缺損數據的填補方法分析比較
填補缺損數據,也即將缺損的數據用合適的值代替。如何使代替值與真實值接近則成為填補的關鍵,若填補合適,則將對數據的進一步處理起至關重要的作用;相反,填補出現較大的失誤則將對后續的分析帶來困惑,甚至得到錯誤的結果。一般情況,缺損的數據不外乎兩種,一種就是缺損的數據是具有離散性質的,例如決策表中的屬性;另一種則是具有連續性的,例如高聳建筑某時刻的沉降值。
人們通常觀測到的數據不可能是連續的,往往是測定需要的數值或者通過觀測某些特定點的值來近似估計所需要的值。對于具有連續屬性的數據,需要將其離散化,變為具有離散特性的數據,需要某些特定值時,則可以用離散缺損數據填補的方法將其進行填補,這大大減少了數據觀測的復雜程度。而連續屬性離散化,就是在連續屬性的特定范圍內劃定若干個離散點,將連續屬性分為若干個離散區間,若區間劃分較小的情況下,則可以用該區間某一屬性值代替該區間的屬性值。目前國內外連續屬性離散化的方法主要有等寬區間法、等頻區間法、K一means算法、ChiMerge算法、StatDise算法等。對于不同的連續屬性,應采用相應的方法將其離散化,繼而用離散型缺損數據的填補方法將其填補。由此,數據填補最終都可歸為填補離散型缺損數據。而對于離散型缺損數據(以下簡稱為缺損數據),主要的填補方法有以下幾種:
人工填補
人工填補,顧名思義,就是由人直接將缺損的數據填補完整。由于最了解數據的還是數據獲得者,因此這個方法得到的數據與真實值也較為接近。同時人工填補也是現階段為數不多的不以現有數據為依據的填補方法。但當需填補的數據規模較大時,這個方法明顯不合適,工作量大,費時費力。
可能值填補
所謂可能值填補,就是利用現有數據填補缺損值,它是以最大概率的可能取值來補充所缺的值。以下介紹的可能值填補主要有平均值填補、眾數填補、中位數填補、期望最大填補、相似對象值填補等。
2.1 平均值填補
平均值填補,就是取該屬性其他對象取值的平均數作為該屬性的取值。平均值填補分為總平均值填補和條件平均值填補。總平均值填補是取將該屬性集的所有屬性的平均值作為填補值,若同一屬性存在多個缺失值,則這些填補值將完全相同,不符合變量之間的波動規律。相反,條件平均值填補是將這個屬性計劃分為若干個范圍,取缺損值所屬范圍的屬性集的平均值作為填補數,這顯然對變量的波動程度的估計有所提高。平均值填補也存在一定的缺陷,首先均值填補已經降低了整個屬性集的方差;其次,若填補的變量所在的屬性集不符合正態分布或與正態分布相差較大,則平均值填補就不合理了;最后,當缺損值的屬性集是非數值型的時候,平均值填補則不能進行。
眾數填補
眾數填補,就是取該屬性其他對象取值的眾數作為該屬性填補值。對于具有較高重復性的屬性集,眾數填補比平均值填補顯得更加符合屬性集的變化規律。而對于非數值型的缺損值,有時也可考慮采用眾數填補。
中位數填補
相比于平均值填補和眾數填補,中位數填補就是取屬性集的中位數作為填補值。對于變量分布是偏態的屬性集,中位數填補比平均值填補要更加準確。中位數填補同樣可以應用于非數值型的屬性集。
期望值最大填補(EM算法)
EM算法就是這樣,假設我們估計知道A和B兩個參數,在開始狀態下二者都是未知的,并且知道了A的信息就可以得到B的信息,反過來知道了B也就得到了A。可以考慮首先賦予A某種初值,以此得到B的估計值,然后從B的當前值出發,重新估計A的取值,這個過程一直持續到收斂為止。這種方法強調先對缺失數據進行估計,最大化是在忽略缺失數據的前提下進行最大似然估計的。當具備缺失數據的估計值和給定的觀測值時,就可以進行期望計算,求出缺失數據的條件期望,用期望值代替缺失值,進行循環計算,直到最大似然估計收斂為止。這種方法的最大優點源自于在大樣本條件下,它能非常簡單地執行并且能通過穩定、上升的步驟可靠地找到全局最優值。
相似對象值填補(熱卡填補)
相似對象值填補,也即熱卡填補,它要求在現有的數據里找到與缺失對象最相似的對象,用該對象相應的屬性值代替缺失值。該方法簡單易行,且能保持填補數值與變量非常接近。但該法主觀因素較多,沒有同一的標準衡量相似度,而且耗時費力。
同樣,眾數填補、中位數填補、熱卡填補也可以拓展成條件眾數填補、條件中位數填補、條件熱卡填補。
回歸填補
回歸填補,即是通過建立變量Y與自變量Xi(i=1,2,…)的回歸模型來預測Y的缺失數據,也即建立缺損數據所在的變量關于自變量的函數關系式,進而用該點的函數值代替缺失值,在現階段主要可以通過多項式擬合來填補缺損的數據。在數據量較小的情況下,該方法明顯有扭曲數據分布的缺點,并且對于相同的Xi,如果對回歸模型不加以處理,就會得到相同的填補值,這就和總體均值填補一樣,扭曲了變量的變異性質。若在回歸填補中增加一個隨機成分,將其和作為填補值,這樣就克服了扭曲變量變異性質的缺陷。這種方法的關鍵在于如何確定最優的回歸函數關系模型,不同的情況要具體而議,而且要考慮許多客觀因素。
信息擴散填補
信息擴散原理是由黃崇福教授提出的,雖然現在還不是完全很成熟,但在數據填補、風險評估等領域有著很重要的意義。它的原理是將A點的信息或數據通過一定的衰減傳遞到其他點,再將這些點得到的信息依次傳遞下去,最后B點肯定能得到一定的信息量。反之,B點得到的信息或數據也可傳遞給A點。通過該方法,我們可將已有的觀測值通過一定的擴散形式傳遞給需要填補的觀測點,進而用這些點最終得到的傳遞值代替其觀測值。目前該方法存在的不足之處就是如何確定擴散函數以及擴散的窗寬,這都需要根據實際問題進行大量的驗算,最終確定擴散函數及窗寬。
多重填補
以上介紹的填補方法,填補的數據都是唯一的。而多重填補的原理是首先為缺失值產生一系列用來填補的候選值,把這些候選值填補到缺失值后得到一系列的完整數據集合,對這些完整數據集采用相同的處理方法,再綜合分析考慮,選取最合適的缺失數據候選值。該方法在確定候選值時可以應用上述的各種填補方法,而且考慮了許多不確定因素,在數據分析處理中占有很高的地位,但它不適合數據的挖掘,而且計算也很復雜。但如果我們已經通過前面所述方法得到了若干候選填補值,就可以用該方法確定最佳的填補值。
總結
缺損數據的填補方法固然有很多種,但針對不同的情況,如何合理的選取填補方法才是填補的關鍵。只有弄清缺失數據的原因、特性、數據類型、數據集分布等許多因素,才可以為選取合適的填補方法提供依據。而且通過以上的分析,每種方法都有其優缺點,如果在數據填補過程中能綜合考慮,或者將不同的方法加以融合,可能會使得填補效果更加理想。除此之外,填補結束后還有考慮填補的合理性,即先填補后分析其合理性,如此循環反復,方可取得合理、理想的填補效果。
參考文獻:
[1] 鄧銀燕.缺失數據的填補方法研究及實證分析[D].西安:西北大學,2010
[2] 宮悅.基于粗糙集的不完備信息系統數據挖掘方法研究[D].大連:大連海事大學,2008
[3] 張昕.不完備信息系統下空缺數據處理方法的分析比較[J].湖南師范大學學報,2008,21(4):444-447
篇7
句法分析任務是對文本進行分析,將輸入句子從序列形式變為樹狀結構,從而刻畫句子內部詞語之間的組合或修飾關系。這是自然語言處理領域的核心研究課題,已經廣泛應用到其它自然語言處理任務中,如機器翻譯、自動問答、信息抽取等。和其他句法分析形式如短語結構句法分析相比,依存句法分析具有形式簡單、易于標注、便于學習、分析效率更高等優點[1,2]。另外,依存句法描述詞和詞之間的關系,因此更適合于表達非連續的、遠距離的結構,這對于一些語序相對自由的西方語言非常重要。依存語法歷史悠久,最早可能追溯到公元前幾世紀Panini提出的梵文語法。依存語法存在一個共同的基本假設:句法結構本質上包含詞和詞之間的關系。這種關系稱為依存關系(Dependency Relations)。一個依存關系連接兩個詞,分別是核心詞(Head)和修飾詞(Dependent)。依存關系可以細分為不同的類型,表示兩個詞之間的句法關系(Dependency Relation Types)。目前,依存語法標注體系已經為自然語言處理領域的許多專家和學者所采用,并應用于不同語言中,且對其不斷地發展和完善。研究者們提出并實現了多種不同的依存分析方法,達到了較好的準確率。近年來,依存句法分析多已廣泛用于統計機器翻譯[3]、自動問答[4]和信息抽取[5]等任務,并取得了良好的效果。
依存句法分析任務的輸入是一個已完成分詞的自然語言句子。形式化地,輸入句子可以表示為:x=W0W2…Wi…Wn,其中,wi表示輸入句子的第i個詞;W0表示一個偽詞,指向整個句子的核心詞,也就是根節點(ROOT)。圖1表示輸入句子“剛滿19歲的歐文現在效力利物浦隊。”的依存樹。
[JZ][HT5”H]圖1 依存樹示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse
最一般地,一個依存句法樹由多個依存弧構成,表示為:d={(h,m,l):0≤h≤n,0
依存句法分析的目標是給定輸入句子x,尋找分值(或概率)最大的依存樹d*,具體公式為:
因此,依存句法分析存在四個基本問題:
(1)如何定義Score(x,d),即采用哪種方式將依存樹的分值分解為一些子結構的分值。這是模型定義問題;
(2)采用哪些特征來表示每一部分子結構,即特征表示問題;
(3)如何獲取特征的權重,即模型訓練算法問題;
(4)給定模型參數,即已知特征的權重,如何搜索到分值最大的依存樹。這是解碼問題。
2依存句法分析的方法
數據驅動的依存句法分析方法主要有兩種主流的方法:基于圖(Graph-based)的分析方法和基于轉移(Transition-based)的分析方法。這兩種方法從不同的角度解決這個問題。CoNLL上的評測結果表明這兩種方法各有所長,并且存在一定的互補性[2,6]。下面對各類方法展開細致分析。
2.1基于圖的依存句法分析方法
基于圖的依存分析模型將依存句法分析問題看成從完全有向圖中尋找最大生成樹的問題。一棵依存樹的分值由構成依存樹的幾種子樹的分值累加得到。模型通過基于動態規劃的解碼算法從所有可能的依存樹中搜索出分值最高的依存樹。相關的研究工作主要包括:
(1)模型定義。根據依存樹分值中包含的子樹的復雜度,基于圖的依存分析模型可以簡單區分為一階、二階和三階模型。一階模型中,依存樹的分值由所有依存弧的分值累加得到,即依存弧之間相互獨立,互不影響[7]。二階模型中,依存樹的分值中融入了相鄰兄弟弧(Sibling)和祖孫弧(Parent-child-grandchild)的分值[8,9]。三階模型中,進一步增加了祖孫兄弟弧(Grandparent-parent-sibling)等三條依存弧構成的子樹信息[10]。
(2)特征表示。在上述模型定義的基礎上,研究人員也提出了相應的一階、二階、三階子樹特征[7-10]。每種子樹特征考慮句子中的詞語和詞性信息、依存弧的方向和距離信息等。隨著高階子樹特征的使用,依存句法分析模型的準確率也有較大幅度的提高。
(3)訓練算法。基于圖的依存分析方法通常采用在線訓練算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被動進取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在線學習算法以迭代的方式訓練特征的權重。一次迭代中遍歷整個訓練數據集合,每次根據一個訓練實例的分析結果對當前的權重向量進行調整。
(4)解碼算法。一階模型對應的解碼算法為Eisner算法[14]。Eisner算法的本質是動態規劃,不斷合并相鄰子串的分析結果,直到得到整個句子的結果,其時間復雜度為O(n3)。進而,McDonald和Pereira (2006)對Eisner算法進行擴展,增加了表示相鄰兄弟節點的數據類型,時間復雜度仍為O(n3)。Carreras (2007)同樣對Eisner算法進行擴展,得到面向二階模型的基于動態規劃的解碼算法,時間復雜度為O(n4)。Koo和Collins (2010)提出了面向三階模型的解碼算法,時間復雜度為O(n4)。一些研究者提出采用基于柱搜索的解碼算法,允許模型方便地融入更高階的解碼算法,同時保證較低的時間復雜度[15,16]。
2.2基于轉移的依存句法分析方法
基于轉移的依存分析模型將依存樹的搜索過程建模為一個動作序列,將依存分析問題轉化為尋找最優動作序列的問題。模型通過貪心搜索或者柱搜索的方式找到近似最優的依存樹。其優點在于可以充分利用已形成的子樹信息,從而形成豐富的特征,以指導模型決策下一個動作。相關的研究工作主要包括:
(1)模型定義。基于轉移的依存句法分析方法提出早期,研究者們使用局部分類器(如最大熵分類器)決定下一個動作,選擇概率最大的動作[17,18]。這樣,一個依存樹的概率由其對應的動作序列中每一個動作的概率累乘得到。近年來,研究者們采用線性全局模型來決定下一個動作,一個依存樹的分值為對應動作序列中每一個動作的分值的累加[19-21]。
(2)特征表示。基于轉移的依存句法分析方法的優勢在于可以充分使用已構成的子樹信息。Zhang和Nivre (2011)在前人工作的基礎上,提出了豐富的特征集合,如三階子樹特征,詞的配價信息等[21]。
(3)訓練算法。早期,研究者們在訓練語料上訓練出一個局部分類器,在解碼過程中重復使用,決定下一個動作。通常采用的分類器有基于記憶的分類器、支持向量機等。近年研究發現采用全局線性模型可以提高句法分析的準確率,通常采用平均感知器在線訓練算法。
(4)解碼算法。其任務是找到一個概率或分值最大的動作序列。早期采用貪心解碼算法,即每一步都根據當前狀態,選擇并執行概率最大的動作,進入到下一個狀態。如此反復直至達到接收狀態,形成一棵合法的依存樹[17,18]。進而,研究者們提出使用柱搜索的解碼方式擴大搜索空間,即同時保留多個分值最高的狀態,直到搜索結束時選擇最優的動作路徑[22,19]。Huang和Sagae (2010)提出在柱搜索中加入動態規劃,通過合并等價狀態進一步擴大搜索空間[20]。隨著搜索空間的增大,依存句法分析的準確率有顯著提高。
2.3模型融合的方法
基于圖的方法和基于轉移的方法從不同的角度解決問題,各有優勢。基于圖的模型進行全局搜索但只能利用有限的子樹特征,而基于轉移的模型搜索空間有限但可以充分利用已構成的子樹信息構成豐富的特征。McDonald和Nivre (2011)通過詳細比較發現,這兩種方法存在不同的錯誤分布。因此,研究者們使用不同的方法融合兩種模型的優勢,常見的方法有:stacked learning [2,23];對多個模型的結果加權后重新解碼[24,25];從訓練語料中多次抽樣訓練多個模型(Bagging)[26,27]。
2.4詞性標注和依存句法分析聯合模型
依存句法分析模型中,詞性是非常重要且有效的特征。如果只使用詞語特征,會導致嚴重的數據稀疏問題。自然語言處理中,詞性標注和依存句法分析這兩個問題通常被當成兩個獨立的任務,以級聯的方式實現。即對于一個輸入句子,假定其分詞結果已知,先對句子進行詞性標注,然后在詞性標注結果的基礎上進行依存句法分析。這種級聯的方法會導致錯誤蔓延。也就是說,詞性標注的錯誤會嚴重影響依存分析的準確率。由于漢語缺乏詞形變化信息(如英語中的詞后綴變化如-ing,-ed,-es,-ly等),因此漢語的詞性標注比其他語言如英語更具挑戰性。近年來,研究者們通過建立詞性標注和依存句法分析聯合模型,在同一個模型中解決這兩個緊密相關的任務,允許詞性信息和句法結構互相影響和幫助,取得了不錯的效果。一方面,聯合模型中,句法信息可以用來指導詞性標注,從而幫助解決一部分需要句法結構才能夠消解的詞性歧義。另一方面,更準確的詞性標注,也可以反過來幫助依存分析。Li等通過擴展基于圖的依存句法分析模型,首次提出漢語詞性標注和依存句法分析聯合模型[28],并且提出了適用于聯合模型的訓練算法[29],顯著提高了詞性標注和依存句法分析的準確率。進而,一些研究者們提出基于轉移的詞性標注和依存句法分析聯合模型[30,31]。Ma等(2012)嘗試了基于Easy-first的漢語詞性標注和依存句法分析聯合模型[32]。
2.5基于多樹庫融合的方法
對于統計的數據驅動的分析模型而言,標注數據的規模很大程度上影響著分析結果的準確率。依存句法分析是一種結構化分類問題,比二元分類和序列標注問題更具挑戰性,因此依存句法分析更容易受到數據稀疏問題的影響,樹庫規模對依存句法分析的準確率影響很大。然而,標注樹庫是一件艱巨的任務,通常需要耗費很大的人力和物力。目前的研究結果表明在一個樹庫上訓練出的句法分析的模型似乎很難進一步提高句法分析的準確率。然而,漢語存在多個樹庫。這些樹庫由不同的組織或機構標注,遵循不同的標注規范,面向不同的應用。盡管各個樹庫遵循不同的標注規范,但卻都是根據人們對漢語語法的理解而標注,因此包含很多共性的標注結構。同時,不一致的標注結果應該也是有規律可循的。所以,一些研究者們嘗試同時利用多個樹庫,幫助句法分析的準確率。李正華等(2008)曾嘗試統計和規則相結合的方法,將短語結構的源樹庫CTB轉化為符合CDT標注規范的依存結構,然后將轉化后的樹庫和CDT合并,提高訓練數據的規模,以提高依存句法分析準確率[33]。Niu等(2009)提出一種基于統計的樹庫轉化方法,將依存結構的CDT樹庫轉化為滿足CTB標注規范的短語結構樹庫,進而使用語料加權的方式增大訓練樹庫的規模,提高了短語結構句法分析的性能[34]。Li等(2012)提出一種基于準同步文法的多樹庫融合方法,不是直接將轉化后的樹庫作為額外的訓練數據,而是使用準同步文法特征增強依存句法分析模型,從而柔和地學習標注規范中規律性的不一致,提高依存句法分析的準確率[35]。
3依存句法分析面臨的挑戰
自從2006年開始,CoNLL國際評測一直關注依存句法分析,不但提供了多語言、高質量的樹庫,并通過對各種方法的比較分析,讓研究者們對依存分析問題的理解更加清晰,極大地促進了依存句法分析的發展。依存分析已經成為自然語言處理的一個熱點問題,方法也越來越成熟,并且在許多領域得到了應用。然而,目前依存句法分析還存在很多挑戰,這些挑戰也可能是未來依存分析發展的趨勢。具體分析如下:
(1)提高依存分析準確率。目前主流的兩種依存分析方法都存在一定的缺陷。基于圖的方法很難融入全局特征。而基于轉移的方法雖然原理上可以利用豐富的特征,但是實際使用的特征還是屬于局部特征,另外也還存在錯誤級聯的問題(柱搜索只能緩解這個問題)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比較有限。研究可知,只有從新的角度理解這個問題本身,提出新的建模方法,或者應用新的機器學習方法,才有望大幅度提高依存分析性能。一些學者提出的利用未標注數據幫助依存分析模型是一個很好的思路,值得深入研究。
(2)提高依存分析效率。基于圖的依存分析方法融入高階特征可以提高性能,但是效率很低,無法適應實際應用的需求。在不明顯降低分析性能的前提下,如何提高依存分析效率也是一個很有實際價值的問題。
(3)領域移植問題。研究發現,當訓練數據領域與測試數據領域不相同時,即使差距不大,也會導致句法分析性能下降很大。以英語為例,從華爾街日報樹庫移植到Brown語料時,句法分析性能下降近8%。目前依存樹庫所覆蓋的領域、規模都很有限,而標注樹庫的代價很大。因此解決領域移植問題,對于依存分析的實際應用至關重要。
(4)語言相關的依存分析。目前最主流的兩種依存分析方法都是語言無關的,純粹依靠機器學習方法從數據中學習,加入人類知識只能限于特征選擇。然而,每種語言都有其特點。因此語言相關的依存分析研究,如針對每種語言的特點設計更有效的模型和算法,利用一些語言特有的資源等,也是很有必要的。近年來,國內學者已經在漢語依存句法分析上做出了很多成績,然而如何利用漢語的特點,提高漢語句法分析的準確率和效率,仍然是一個開放的問題。
篇8
UK
Larry Kerschberg George Mason University
USA
Peter J.H.King University of London UK
Alexandra Poulovassilis University of
London UK (Eds.)
The Functional Approach To
Data Management
Modeling, Analyzing And Integrating
Heterogeneous Data
2004,483pp.
Hardcover EUR:69.95
ISBN 9783540003755
數據管理的功能方法
建模、分析和綜合異質數據
彼得M.D格林萊瑞.克斯伯格,
彼得J.H 金, 亞歷山大.波洛瓦斯里斯 著
功能數據模型和功能編程語言首次引入到計算領域已有20多年的歷史了。隨著數據庫技術在生物信息、國家安全、犯罪調查和高級工程領域的卓越應用,數據庫技術的重要性日漸凸現,本書所提出的更成熟的方法就越顯得重要。
本書分為五部分。第一部分介紹了如何將數據管理與功能語言融合在一起的方法。功能語言是最新發展起來的運用于計算和規范用途的工具,在本書中主要是數據模型和計算的功能方法,能夠帶來語義網絡的新時代和網絡世界的資源分流。這比相關模型更具靈活性,而且很適合半結構數據。
第二部分是介紹異質數據庫和生物信息學的一體化數據。在這部分中介紹了有關異質數據庫和生物信息學的一體化數據新近的研究成果。至關重要的觀點就是功能性的提取數據創造了獨特的觀察數據的方法,不論這些數據是如何被存儲的,這對于程序員來講或許有些陌生,主要是因為他們習慣了操作數據內部的特定排列或者憑借記憶中記錄的結構。不過當來自不同信息源的資料一體化之后,隱藏存儲細節并且在一個更高的概念層次上作業就變得重要了。
第三部分是理解力表。從計算的角度講,功能方法允許我們調定功能然后重新書寫并利用有參考性的圖片轉化功能表達。在這一部分中,將運用到設計、常規分析和功能數據語言最優化,包括了重要的精煉理解,并以數學結構為基礎,這些原理的應用貫穿了全書。
第四部分介紹關于管理半結構化的數據、信息和知識的功能方法。本部分各章均采用XML語言來描述半結構化數據,或者使用以XML語言為基礎的開放標準的描述語言。XML語言能夠將數據描述語言和數據本身放在一起,使描述數據的元數據成為數據自描述的一種形式。本章還強調了不同來源的信息源數據整合和互操作。當來自不同信息源的異質數據放到一起時,需要通過數據整合來構建一個分布式資源的概念模型。這部分內容向人們展示了功能方法在建模、執行、管理和整合這些系統中的效用。
第五部分為指南。它能夠使讀者將全書的各部分統觀貫穿起來,并加深對其他部分的理解和應用。
本書適合于有志鉆研本項目的讀者研讀、學習。對于正在這一領域工作的人來說本書不啻為有價值的參考資料。
劉麗,副教授
(中國農業大學管理工程學院)
篇9
【關鍵詞】高中數學;舉例方法;抽象
引 言
數學課程是我們每一位從學習生涯走過來的人必須學習的一門基礎課程,數學作為一門基礎課程,又是一門工具課程,它的學習效果不僅關系著數學這門課程的學習成績,而且與其他課程的學習也息息相關,學好數學對于學生的整個學習生涯以及日后的工作和生活都至關重要.
一、高中數學的特點
小學數學、初中數學、高中數學、高等數學是我們大多數人都要學習的四個階段的數學課程.對于這四個階段課程的學習,每個階段都有其各自的特點,就整體而言,從小學數學到初中數學再到高中數學,它們的難度在一步步遞增,知識從直觀變得越來越抽象.下面著重介紹高中數學的特點.
1.高中數學具有明顯的抽象性
相對于小學數學和初中數學來講,高中數學具有明顯的抽象性.我們在學習小學數學或者初中數學的時候,老師所講的知識都是可以用圖示直觀地展現出來的.例如,我們在小學數學中學習數字的時候,我們可以直觀地看見每個阿拉伯數字的寫法,不需要我們進行想象,我們只需要努力將它們的樣子和次序記住,再掌握一定的數字技巧即可.在初中數學階段中,數學被分為代數和幾何兩門課程學習,在學習幾何課程的時候,我們會感覺非常的直觀.例如在學習平行線的時候,我們可以直觀地看見兩條直線的相互位置關系,而不需要我們任何的想象,可以說抽象性幾乎為零.但是高中數學卻不是這樣的,相對于小初中數學來講,抽象性是高中數學最明顯的一個特征,在高中數學知識的學習過程中,很多知識我們是不能通過眼睛的觀察直接得出的,而是必須在腦海里進行一定的構思和想象,利用自己的空間想象能力來學習高中數學.例如,在高中數學中,我們學習立體幾何部分的時候,以正方體為例,立體幾何的六個面不可能同時在二維的黑板上被展現出來,這時我們必須運用空間想象能力,將正方體的六個面在腦海中想象出來,作為輔助幫助學生進行高中數學知識的理解.
2.高中數學的難度較大
高中數學的學習最終要接受高考的檢閱,高考作為我國的一個重要的選拔性考試,考試試題在難度上比較大,所以相應的高中數學知識在日常的學習過程中理解起來難度也比較大.在我們的日常生活或者學習的過程中,我們經常會遇到一種人,他們在小學和初中的學習過程中,數學成績一直全班名列前茅,但是到了高中數學成績卻一落千丈,甚至墜入無底深淵,從此跟不上數學的教學進度,從一定程度上講這種現象就是由高中數學的難度大而導致的.在小學和初中的數學過程中,知識相對來說難度較低,也不需要學生過多地進行想象理解,但是到了高中以后,任何一道題目的解答,都需要進行想象,難度也比較大,在高中數學的學習過程中,僅僅依靠努力學習是不夠的,還必須掌握一定的數學學習方法和解題技巧,才能將高中數學課程學好.
3.高中數學知識與知識之間的聯系更加緊密
其實對于數學這門課程來講,無論是小學數學還是高中數學又或者是初中數學,知識與知識之間都具有一定的聯系,但是這種知識點之間的聯系在高中數學中體現得更加明顯.在小學數學或者初中數學中,這種知識與知識之間的聯系僅僅體現在日常的新課程學習過程中,而在考試試卷中出現得非常少,它們只是將上節課學習的舊知識作為這節課學習的新知識的基礎而已;在高中數學中,知識與知識之間的聯系不僅僅是體現在日常的數學知識學習過程中,而且在高中數學考試中體現得也非常多,在高中數學考試的解題過程中,我們必須由已知的知識信息通過轉化推理推算出未知的信息,而且很多的高中數學題目僅僅依靠一次推理是做不出來的,而必須經過兩次或者三次,在推理的過程中,只要一個知識點存在漏洞,整道題目將會沒有答案.
4.高中數學相對于小初中數學來講具有嚴密性
數學這門課程本身就是一門比較嚴密的課程,邏輯思維和正確的推理是在數學課程的學習過程中經常需要用到的工具.但是高中數學相對于小初中數學來講更加嚴密,在小學數學或者初中數學的學習過程中,由于我們的數學知識或者解題技巧相對比較欠缺,如果按照正常的數學思維去教學,學生很難理解,甚至還會使學生混淆不清,鑒于此,為了更好地對學生進行教學,在小學數學和初中數學的教學過程中,很多推理是不嚴密的,而這種不嚴密性會隨著我們數學學習階段的不斷轉變一一被化解.高中數學的學習相對來講就要嚴密得多,因為有了小學數學和初中數學的知識作為學習的基礎,再加上隨著學生的年齡增長而增長起來的理解能力,使得高中生能夠對嚴密的數學推理進行深入細致的理解.
二、高中數學舉例教學方法的策略
1.重視對高中數學抽象知識的舉例講解
高中知識相對于小學數學和初中數學而言更加抽象,這一點大家都不否認.但是并不是所有的高中數學知識點都是抽象性比較強,也有的知識點是直觀地可以讓學生看見或者理解的,所以,在高中數學的教學過程中必須有側重點地進行教學.對于那些抽象性比較強的知識點要進行重點講解,而對那些非常直觀的知識點老師只需在課堂上一帶而過即可.而對于抽象性問題的教學,利用舉例的方法是最合適的,舉例的方法可以將本來抽象的方法具體化,通過舉例的方法讓學生對抽象的知識產生一目了然的感覺.例如在講解立體幾何知識點的時候,以長方體為例,在二維的黑板上我們不能把長方體的六個面全部直觀地展現出來,我們可以在現實生活中找一個長方體實物作為課堂道具來輔助老師進行長方體的教學,也可以就地取材,例如利用長方體的黑板擦作為道具等等.利用舉例的教學方法可以將抽象的問題具體化,讓學生更好地掌握高中數學中的抽象知識和內容.
2.加強高中數學知識點與知識點之間聯系的舉例教學
高中數學中知識點與知識點之間的聯系比較緊密,而有的知識點與知識點之間的聯系具有非常微妙的關系,利用單純的數學邏輯進行推理很難讓大部分學生深刻理解,針對這種情況,我們可以將理論聯系實際,利用生活中的例子來比喻這兩個知識點之間的相互關系,高中生以生活中的事物為載體來正確理解這兩個知識點之間的關系,進而在以后的知識學習或者考題解答的過程中靈活地在兩個知識點之間進行轉換.
3.高中數學舉例教學要具有一定的嚴密性
數學本身就是一門嚴密性非常強的學科,高中數學相對于小學與初中數學來講嚴密性更強,在高中數學的日常教學過程中,無論是對知識點的教學還是為了讓學生最大限度地掌握知識而采取的教學方法都有具有一定的嚴密性.在高中數學教學過程中經常用到的舉例教學方法也是如此,在應用舉例的辦法幫助高中生理解知識點的時候,所舉的例子必須做到恰到好處,首先不能是不健康的例子或者是不適合高中生了解的例子,而且所舉的例子還必須與所要表達的知識點的意思高度相似,避免學生在以老師所舉的例子為載體進行知識點的學習時,理解出現偏差,不能幫助學生正確地理解知識,反而把學生的思維向相反的方向帶.
4.高中數學舉例教學要堅持簡潔性原則
在高中數學的教學過程中,舉例子是經常用到的教學方法,但是我們知道高中數學的知識點大都比較繁瑣復雜,特別是在兩個知識點之間進行相互聯系的時候.雖然高中數學的知識點相對來說比較復雜,知識點與知識點之間的聯系也比較繁瑣,但是,我們在利用舉例子的方法進行知識點的講解時,必須堅持簡潔性原則,盡量利用最簡單易懂的例子將問題解釋清楚,而且所舉的例子要盡量地貼合實際,便于高中生進行深入理解,這也是我們所說的深入淺出.
三、結 語
高中數學的抽象性比較強,而且相對而言難度較高,知識點與知識點之間的關系錯綜復雜,而且具有很好的嚴密性等等,這些特點就導致學生在學習數學課程的過程中難以對知識點進行徹底的理解和掌握.實踐證明,采用舉例教學的方法可以很好地解決高中數學所面臨的一系列難題,通過舉例教學讓抽象的問題具體化、復雜的問題簡單化,有效地提高了高中數學的學習效率,為以后學習更加抽象、復雜的問題奠定堅實的基礎.
【參考文獻】
篇10
關鍵詞 科技信用 關聯分析 數據庫
中圖分類號:F272.5 文獻標識碼:A DOI:10.16400/ki.kjdkx.2017.01.085
0 引言
科技研發活動為社會提供高科技含量的產品和服務、推動企業的轉型升級,但科技活動高收益背后是其面臨的高風險,導致高技術企業社會認可的障礙。對企業進行科技信用評價,有助于提高企業的社會認可度、弱化科技活動的風險,提升自主創新的效率和效能。
企業的信用評價是指根據一定評價指標體系和評價方法,對被評估對象履責能力和可信程度進行評價,并以一定方式標示其信用等級的行為。企業科技信用評價一般由政府部門或獨立評級機構開展,對參與政府科技項目、科技成果產業化等事項的企業執行相關法律法規及政策、遵守公認行為準則、履行相關合約的能力和意愿進行綜合評價。
1 科技信用評價研究相關工作
國內外學者對企業科技信用評價的機制、路徑、評價監管體系、模型算法和數據獲取開展了大量的研究。
國際上評級機構標準普爾、惠譽、穆迪在歐債危機的演化中發揮了重要的作用。但國內中小企業信用評級面臨金融體系不完善、缺乏統一管理、缺少權威性、缺乏科學的評級體系、市場需求少、權威性不高等問題。萬超等分析了中小企業信用評級的現狀,就評級機構素質、評級監管體系、評級業務提升等方面提出建議。
企業信息數字化和電子商務帶來了海量數據積累和數據挖掘技術的突飛猛進,大數據分析技術突破技術壁壘和信息獲取隔閡,提高了科技活動主體間的信息透明度,成為科技信用評價的主戰場。在評價方法上,李杰群以AHP分析法為基礎,提出基于回歸分析的聚類算法用于信用評價,舒歆研究了評價指標和評價體系的構建,霍海濤基于專家咨詢法和文獻學習法,選取合適指標構建了科技型企業的信用評價體系。高麗君采用拔靴生存模型等多種算法,驗證了科技型中小企業的信用狀況。
互聯網征信主要是通過采集個人或企業在互聯網交易或使用互聯網各類服務過程中留下的信息數據,并結合線下渠道采集的信息數據,利用大數據、云計算等技術進行信用評估的活動。張健華提出將互聯網征信作為傳統征信的有益補充,推動傳統信用評分模式的轉變。吳晶妹研究了政府、行業和地方等不同層面的金融、行政管理和商業征信體系的融合與應用。
為提高中國科技型企業的計劃項目的管理,提高科技研發領域的信用意識和科研成果質量,運用信用評級方法,對企業的科技活動和科技行為主體進行失信甄別,為促進我國科技研發能力的增強提供體制上的保障。
2 科技信用評級體系和模型
科技信用評級所評價的目標是信用主體按合同約定如期履行義務的能力和意愿。科技信用評級是獨立的第三方利用其自身的技術優勢和專業經驗,就信用主體信用風險大小所發表的一種專家意見。企業的信用要素一般包括主體的品格、能力和資本、擔保和環境狀況等。
從基礎數據分類建模,利用數據綜合加工獲取一個企業科技信用評價的綜合得分,綜合考量數據存儲代價、數據獲取能力、信息安全保護,以及數據質量等多方面的因素,我們從科技企業基礎數據庫中篩選出反映企業科技信用方方面面的58個基礎變量,并通過歸一化方法形成了5個維度的評分指標,每一個維度的評價結果都會影響企業科技信用的總體得分,每個維度的飽滿程度也都是該維度各個因素的質量情況。
企業科技信用評價采用標準化建模方法,如圖1所示體系和模型。首先梳理可以獲取的企業運營基礎數據,篩選模型指標作為建模基礎。然后,定義科技信用好和壞的具體標準,提取樣本后,通過相關性分析,最終確定各個指標的評分權重,確定各指標的評分規則,從而計算出得分范圍內的科技信用評分。
根據目前常用的評級策略,我們選擇將所有指標統一標準化,賦予相同的權重,并采用德爾菲法打分法,對各指標賦分并根據所有指標的得分考核評級。以企業團隊的能力評價為例,在能力的40分總分中,分別考慮科研能力(30分)和管理能力(10分),細化收集基礎數據,如科研能力方面,項目負責人在該領域職稱、經驗、獲獎、知識產權等,根據具體情況將總分30分細化指標并分別評分。
3 基于數據關聯的企業科技信用評級實證分析
為了分析企業科技信用評級的效果,我們利用關聯分析的方法設立了評價模型,并從待研究的企業基礎庫中抽取可信樣本進行了實證分析。下面我們介紹基于關聯分析的效果評價模型建模過程。
企業科技信用評價的指標體系涉及各種類型的基礎數據,利用德爾菲法完成各種指標評分,形成各個指標綜合的判斷矩陣,進一步數據處理,可以進行層次單排序并判斷矩陣的一致性,進而確定各個指標評價因素應當占據的權重,并形成各指標最終評價權重,形成最終評價權重序列。
企業科技信用評價所選取的評價指標分有各種類型,包括類別(如職稱)、數值(如資金額度)、名稱(如設備)等,即使數值也要細分為效益型(越大越好)和成本型(越小越好),為了消除不同指標和量綱的影響,針對不同類型的指標采用無量綱化處理,將其規范為[0,1]區間。標準化公式為:
根據處理后的評價指標體系,構建遞階層次模型,包括目標層、準則層、指標層,甚至子指標層等。構造各單層的模糊判斷矩陣。如果有部分模糊判斷矩陣不滿足一致性檢驗,那么根據模糊一致矩陣的性質,對判斷矩陣進行一致性z驗和調整。再進行層次單排序。求出每一層對應上一層次的相對重要性權重。層次總排序計算指標層各因素相對于目標層相對重要性權重。權重值為各指標相對所屬準則層的權重與所屬準則層相對于目標層的權重之積。
從工作中積累的企業科技基礎數據庫中抽取相關數據,人工對熟悉的100家企業進行科技信用的實證分析。經分析,如果某企業通過基于多影響因素的科技信用評價模型計算出的信用評級和日常工作中積累的信用評分差異超過兩個級別,則基本能夠檢查出該企業人工評級存在一定程度的疏漏和偏差,或者基礎數據存在關鍵數據的缺失現象。當然本文提出的信用評價模型不能絕對準確地反映企業的科技信用情況,但較人工評價而言,現有的科技信用評價模型給出了一定的高效率、低成本的替代方法。總之,科技信用評價的影響因素有很多,算法研究上也需要進一步的研究。
4 結論
科技型企業基礎數據庫為構建科技信用評價提供了現實可行性,基于大數據的科技信用評價依托累積的企業基本信息、科技人員信息、財務信息、知識產權等海量數據有效拓展了數據來源,克服了信息不共享、平臺不對接、內容不完善等問題。我們利用關聯分析方法對企業科技信用評價進行了實證分析,避免主觀判斷影響的同時,又兼顧了不同評價指標的重要程度,為企業科技信用評價提供了新的思路。
參考文獻
[1] 張建波.中小企業信用擔保市場低效率的原因及對策[J].華東經濟管理,2009.23(12):78-80.
[2] 萬超,孫侃文,莊健絢.從歐債危機看我國中小企業信用評級未來發展[J].當代經濟管理,2012.34(12):53-57.
[3] 李杰群.基于AHP法的科技型中小企業信用評級研究[J].征信,2014.32(1):55-59.