期刊審稿專家評價方法及有效性
時間:2022-11-02 02:39:17
導語:期刊審稿專家評價方法及有效性一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1引言
同行評議是科學評價最重要、最普遍的方式,在論文評審、項目遴選、職稱評定、學術榮譽授予等眾多科學評價過程中被廣泛采用,用于鑒別科研價值、保障科研質量[1]。對于期刊論文評審,審稿專家對研究工作的重要性、有效性、創新性等進行評定,同時向作者提供有關錯誤校正、理論/方法改進等方面的建議[2]。有效的同行評議過程是保證稿件質量、提高期刊聲譽與影響力的重要保障[3,4]。同行評議相關問題得到了國內外學者們比較廣泛的關注與研究[5]。考慮到同行評議結果受專家個體差異性的影響,如主觀意志的影響、專業知識水平的局限以及評議過程中其他偶然因素,容易產生偏見與片面性[1],學者們開始著手研究評議專家“反評估”方法,以期評估專家的評審行為,為評議專家遴選提供參考,以盡可能提高同行評議結果的公平與公正[6-12]。文獻[6]基于評議專家的基本情況、修養和工作業績三個方面對評議專家進行評估,奠定了評議專家“反評估”的基本指標體系。作者指出,工作業績指標可基于歷史評議數據計算得出,具有較好的可獲得性。其下屬指標包括評議項目累計數、(評分數據的)離散率、命中率(推薦項目數/立項項目數)、算數偏差(與其他專家意見的偏差)等維度。文獻[7-12]在文獻[6]的框架下,從數學意義與物理意義討論了指標體系的合理性[7],設計了更加細粒度的指標體系及相應的權重分配[8,9],對評估數據進行預處理以提高評估可靠性[10],基于不同案例對指標體系進行驗證分析[7-9,11]。文獻[12]針對期刊評議,從審稿時長、審稿意見長度以及審稿意見與編輯意見的一致性三個維度出發,設計了F3指數用于輔助期刊評審人選擇,整體而言也并未超出文獻[6]所給出的指標體系范疇。上述工作較大地推進了評議專家評估指標體系的建立與應用,然而還存在以下可改進之處:(1)文獻[6]中“工作業績”指標的核心理念為,在存在大量評議數據時,評議專家的業績可基于該專家與其他專家的一致性程度進行刻畫(一致性越高業績更好)。因而,在文獻[6]的框架下,現有研究中工作業績指標均只考慮了蘊含于評議過程與評議結果數據中的專家知識,而未考慮更廣大的學術共同體的認可度。(2)現有研究對指標的驗證分析往往退化為指標的應用分析。即針對某組評議案例計算指標值,進而從數值分布的角度分析指標的合理性。缺乏評議專家(的評分)與評議對象(如被學術共同體認可程度)的交叉驗證。針對上述問題,本文針對期刊評議,同時考慮蘊含于評議數據中的專家知識與蘊含于發表文獻的計量數據中的學術共同體知識,提出一種審稿專家一致性評價方法,基于《長江流域資源與環境》期刊評議數據與已發論文的計量數據計算一致性指數,設計假設檢驗方法檢驗一致性更高的專家是否能對論文做出更為準確的評價。本文的方法有望輔助期刊編輯從數據的角度了解審稿專家,從而為專家遴選提供參考。
2一致性指數
針對期刊論文評議,本文的核心思想為,審稿專家的評議意見應契合于論文的學術水平。在評審階段,論文的學術水平應契合于評審論文的(所有)專家的整體意見;后,論文的學術水平應契合于學術共同體的認可程度。換言之,審稿專家的業績可基于其與(其他)審稿專家的一致性程度(簡稱“評審一致性”)以及其與學術共同體認可度的一致性程度(簡稱“學術共同體一致性”)刻畫。因而,本文的一致性指數C定義如公式1所示:(1)rpC=C+−C(1)其中,Cr與Cp分別為評審一致性與學術共同體一致性,一致性指數C為Cr與Cp的線性疊加,(0,1)為疊加權重,用于決定評審一致性與學術共同體一致性在最終一致性指數中的占比。在實際應用中,可設置α=0.5以表達評審一致性與學術共同體一致性在構成一致性指數時同等重要[13]。對于評審一致性,考慮到每篇論文需要多個專家評審,大部分專家具備審理多篇論文的經歷,令1,mS=ss,isS為專家對其所審理的論文i的評分,1,mE=ee,ieE為審理論文i的所有專家評分的平均值,則評審一致性Cr定義如公式2所示:(,)rC=rSE(2)其中,r()[−1,1]返還兩個給定向量的皮爾森相關性系數[14],用于反映兩個變量的一致性程度。si的取值決定于審稿數據所使用的評分量表。現行審稿制度中,李克特量表由于其易于編制和較高的信度成為應用最為廣泛的一種量表形式。而我國期刊評審主要采用李克特量表的3、4與5分制量表[15]。具體到本文的研究,由于后續所使用的《長江流域資源與環境》期刊的評議數據遵循4分制量表,公式2中,{1,2,3,4}iisSs(其中1至4分別對應拒稿,重大修改,修改后錄用,錄用)。在使用論文平均值表征所有審稿專家的綜合意見的情況下,公式2表達了專家的評審歷史中,對論文的評價與其他專家的一致性程度。對于學術共同體一致性,后,論文的下載、引用等計量指標可表征學術共同體對論文的關注、認可程度[16]。本文基于論文的被引次數表征論文被學術共同體的認可程度。其中“認可程度”不對論文的質量或學術創新性進行評價,而代表學術共同體認為該論文對推進某方面研究具備(正向或負向)借鑒意義。因而,給定1,mTC=tctc,itcTC為i的被引次數,則學術共同體一致性Cp定義如公式3所示:(,)pC=rSTC(3)公式3表達了有專家審理且發表的論文,專家對論文的評價與學術共同體對論文認可度的一致性程度。由一致性指數的定義可知,一致性指數是文獻[6]中“工作業績”指標下屬“算數偏差”指標的改進與擴展。一致性指數的計算蘊含了專家需具備一定的審稿量(累計數),論文評分具備一定的離散度(否則無法計算一致性1),所評審論文具有一定的命中率(即錄用率,否則無法計算共同體一致性)。換言之,本文所設計的一致性指數是一個較為綜合的工作業績指標。下面將探討一致性指數是否可用于表征審稿專家對論文做出準確評價的能力。
3有效性分析
3.1檢驗方法。基于一致性指數的定義可知,相較而言,一致性更高的專家應對論文的評價應更契合于(其他)審稿專家以及學術共同體對論文的認知。考慮到后,對論文進行“審閱”的讀者比審稿專家更多,同時也更具多樣性(學術領域多樣性、學術成就多樣性等),本文基于已的被引次數檢驗一致性指數的有效性。具體而言,給定專家集合R,評分集合S、發表文獻集合P及其對應的被引次數集合TC,首先基于公式1計算所有審稿專家的一致性指數集合C。對iRR,令ijsS為專家Ri對論文jpP的評分,ijtcTC為專家Ri對論文pj的評分,則專家區分度集合D定義如公式4所示:{{}{}}hliiD=AvgTCAvgTC(4)其中,Avg{}返還給定數值集合的均值,,,,hlijiijikiiktcTCsHtcTCsL,H與L用于定義高/低評分論文,如可定義H={3,4},L={1,2}用于表達直接錄用或修改后錄用為高評分論文,否則為低評分論文。由公式4可知,對于每個審稿專家,專家區分度給出了該專家所評審的高評分論文的平均被引次數相對低評分論文的平均被引次數的倍數關系,該值越大,表明專家區分論文的學術共同體認可度的能力越強。令idD為專家Ri的區分度,icC為專家Ri的一致性指數,定義{|}hiiD=dDc為高一致性專家的區分度集合,其中為給定參數,用于決定高一致性專家的最低一致性指數值。令lhD=D−D為(相對)低一致性專家的區分度集合。使用Mann-WhitneyU檢驗Dh與Dl是否具有顯著的差別,以回答高一致性專家是否可更有效地區分論文的學術共同體認可度。考慮到一致性指數的定義中“學術共同體一致性”作為合成指標之一,一致性指數的計算過程理應邏輯蘊含“高評分論文組平均被引次數高于低評分論文組平均被引次數”的趨勢,本文進一步從數據上將一致性指數的計算過程與檢驗過程進行物理分割。針對給定數據集,基于給定年份Y將數據分割為兩個互斥的子集。基于早于或等于該年份的數據集計算高一致性專家hpreR的區分度hpreD,進而基于晚于該年份的數據集計算hpreR中的專家在后續年份中的區分度hpstD,使用Mann-WhitneyU檢驗hpreD與hpstD是否具有顯著的差別。此方法具有兩個優勢:1)由于數據的物理分割,基于更早數據計算的一致性指數將不再蘊含新數據中“高評分論文組平均被引次數高于低評分論文組平均被引次數”的趨勢;2)檢驗結果可用于回答“具備高一致性指數的審稿專家對論文學術共同體認可度的辨識能力隨時間的推移可以得到保持”,從而驗證基于歷史數據計算一致性指數并輔助審稿專家遴選是否具備可行性。3.2樣本數據。本文將基于《長江流域資源與環境》期刊評議數據與已發論文的被引數據計算審稿專家一致性指數,并對專家區分度進行檢驗。《長江流域資源與環境》創辦于1992年,刊物立足于長江流域,面向國內外,圍繞長江流域的資源開發與利用保護、生態環境、社會經濟可持續發展、河流流域綜合管理、湖泊富營養化、濕地恢復與保護、自然災害等重大問題,報道原創性的研究成果。創刊以來,在近30年的辦刊過程中積累了大量專家評議數據(由于數字化原因,審稿數據主要集中于2009至今,本次樣本數據截止2019年4月)。由于一致性指數的計算要求審稿專家具備一定數量的關聯審稿意見,同時檢驗分析需基于已開展,定義至少具備m個審稿意見的論文為有效論文,選取至少審理過n篇已發表的有效論文的專家作為有效專家。不同m與n的設定將導致有效專家數的不同,且隨著m與n的增大,有效專家數與有效論文數將(迅速)降低。通過對審稿數據的充分探索,綜合考慮有效數據量以及計算所需的關聯數據量,本研究初定m=2,n=6進行計算與檢驗。經過篩選,共177位有效專家所涉及的3114篇有效論文作為本研究的樣本數據進行檢驗分析。3114篇中,1245篇論文已發表,1869篇論文最終未能獲得錄用。所有3114篇論文均將用于計算評審一致性,最終獲得錄用的1245篇論文將用于計算學術共同體一致性。數據的詳細統計信息如圖1-圖4所示。圖1給出了177位有效專家審理的有效論文數與有效數,其中審理的有效論文數分布于[6,75]之間,均值約為28篇,審理的有效數分布于[6,23]之間,均值約為9篇。圖2給出了3114篇有效論文的審稿專家數分布。論文的審稿專家數分布于2-4之間,平均約2.2位專家/篇。經中國知網檢索并采集1245篇的被引次數(檢索日期2020年5月18日),并通過論文標題將論文被引次數與審稿記錄相對應。圖3與圖4分別給出了1245篇已發論文的發文時間分布以及截至檢索時的被引次數分布,可見本案例所使用的絕大部分有效已發論文分布于2010-2019年之間,論文的被引次數分布于[0,343]之間,大體服從長尾分布。結合圖3與圖4可知,已發論文的發文時間以及被引次數均分布于一個較大的區間,年份的不同可能導致被引次數無法合理比較。而由公式3和4可知,被引次數的可比性是一致性指數計算與檢驗的關鍵因素之一。因而,本文使用期刊規范化的引文影響力(JournalNormalizedCitationImpact,JNCI)代替被引次數。JNCI由數據商科瑞唯安提出,定義為論文的被引次數與同出版年發表在同期刊上的論文的期望被引次數的比值,主要用于出版年對被引次數的影響。具體而言,令論文pi的發表年為yi,被引次數為tci,則pi的JNCI值jncii計算如公式5所示。,,{}tijjitcjncitcTCyyAvgTC==(5)基于公式5計算上述1245篇論文的JNCI值,并在公式3與4中,對ip,使用jncii值替換tci值,以消除發文時間的影響。3.3檢驗結果依據。3.1小節所述檢驗方法,設定疊加權重α=0.5以表達評審一致性與學術共同體一致性同等重要,高評分論文評分集合H={3,4},低評分論文評分結合L={1,2},有效審稿意見數m=2,有效審理論文數n=6。177位專家中,7位專家對其審理的已給出的評分均為相同分值,無法計算學術共同體一致性,因而無法計算一致性指數。剩余170位專家的一致性指數分布如圖5所示。由圖5可知,專家一致性指數分布于[-0.049,0.752]之間,均值μ=0.38,標準差σ=0.203,服從正太分布(Kolmogorov-Smirnov檢驗p=0.08)。基于上述170位專家的一致性指數,設定=+k*(一致性指數大于τ為高一致性專家),對專家區分度進行檢驗。在計算區分度的過程中,為了進一步保證計算的準確性,對任意專家,我們進一步要求其審理并發表的(大于6篇的)論文中,高、低評分論文均需至少存在3篇。因而170位專家中,最終有64位專家具備區分度并參與假設檢驗(低一致性專家樣本量+高一致性專家樣本量=64)。使用Mann-WhitneyU檢驗對64位專家的區分度進行檢驗,圖6給出了k=0,0.1,0.2,0.3,0.4,0.5時,高一致性專家與低一致性專家的區分度的均值,以及高低一致性專家均值的比值(即圖6“高低比”),表1則給了更加詳細的統計量(表1中“高”、“低”分別代表高一致性專家與低一致性專家所對應的統計量)。結合圖6與表1可知,整體而言,高一致性專家的所評價的高評分論文的JNCI是其所評價的低評分論文的2倍,且隨著高一致性閾值的增加,高低評分論文的區分度逐漸增加。反觀低一致性專家,其所評價的高評分論文的JNCI與其所評價的低評分論文并無太大差別(在區分度1附近波動)。假設檢驗表明高一致性專家的區分度顯著高于低一致性專家的區分度(以p=0.000拒絕“高低一致性專家的區分度無顯著差異”的零假設),表明高一致性專家更能有效地區分論文的學術共同體認可度。為了驗證本文方法在不同參數設定下的表現,進一步設定m=2,n=8進行計算與檢驗。經篩選,共116位合法專家涉及2489篇合法論文,其中1022篇已發表,1467篇未能錄用。審理的有效論文數分布于[11,75]之間,均值約為32篇,審理的有效數分布于[8,23]之間,均值約為11篇。1467篇有效論文的審稿專家數分布于2-4之間,平均約2.2位專家/篇。116位專家中,113位可計算一致性指數。專家一致性指數分布于[-0.038,0.752]之間,均值μ=0.368,標準差σ=0.17。表2給出了k=0,0.1,0.2,0.3,0.4,0.5時高一致性專家與低一致性專家所對應的統計量。結合表1與表2可知,本文方法在不同參數設置下性能表現一致。如3.1小節所述,以下將通過將數據集進行物理分割以移除一致性指數計算過程與驗證過程之間的相關性,同時考察具備高一致性指數的審稿專家對論文學術共同體認可度的辨識能力隨時間的推移可以得到保持。考慮到專家評審論文的時間也存在較大差異,統一的切分時間可能導致數據切割不均勻。本文針對每個審稿專家,將其所審理的已的發表年按從早到晚排序,選取排序中值的論文的發表時間作為切分時間,以保證數據切分的均勻性。進而設定α=0.5,H={3,4},L={1,2},m=2,n=8,10,12計算歷史數據(切分時間前的數據)審稿專家一致性指數hpreD,基于τ=μ確定高一致性專家,基于驗證數據(切分時間后的數據)計算高一致性專家在驗證數據中的一致性指數的hpstD,并使用Mann-WhitneyU檢驗hpreD與hpstD是否具備差異,結果如圖7所示,其中紅色與藍色數據點分別代表基于驗證數據與歷史數據計算的區分度。詳細檢驗統計量如表2所示(“前”、“后”分別代表歷史數據與驗證數據)。其中,n的取值(8,10,12)盡可能權衡了計算一致性指數所需的數據量與最終可參與檢驗的專家數,隨著n的變化,最終檢驗專家數會有所不同。結合圖7與表3可知,歷史數據中的高一致性專家在歷史數據與驗證數據上的區分度并無顯著差別(分別以p=0.482,0.613,1保持“歷史數據與驗證數據上高一致性專家的區分度無顯著差異”的零假設),驗證了審稿專家對論文學術共同體認可度的辨識能力隨時間的推移可以得到保持,基于歷史數據計算一致性指數并輔助審稿專家遴選具備可行性。
4總結與討論
本文針對期刊評議,設計了一種審稿專家一致性評價方法以綜合考察專家對稿件的認知相對其他專家以及學術共同體的一致程度,基于《長江流域資源與環境》期刊評議數據與已發論文的引用數據計算了部分審稿專家的一致性指數。設計了假設檢驗方法,基于整體數據以及劃分數據檢驗了一致性指數對專家區分度的決定能力。分析表明高一致性專家更能有效地區分論文的學術共同體認可度(能獲得更多的引用),且該能力隨時間的推移可以得到保持,基于歷史數據計算一致性指數并輔助審稿專家遴選具備可行性。值得注意的是,評議專家評價是一個復雜的問題。本文從數據的角度對論文審稿專家進行了定量刻畫與解讀,而專家遴選過程中,對專家的定性了解同樣十分重要。因而,本文的專家一致性指數不是要替代期刊編輯進行專家選擇,而是希望在期刊編輯選擇審稿專家時為其提供客觀的數據參考,以提高遴選效率與效果。此外,由于論文的學術性、創新性評價也是一個復雜的問題,本文在專家一致性指數的計算與檢驗過程中,論文被引次數僅用于表征學術共同體認可其對推進某方面研究具備(正向或負向)借鑒意義,而不對其學術性進行解讀。在實際的計算過程中,被引次數也可替換為其他相關指標,如Altmetrics指數。最后,本文以《長江流域資源與環境》為案例檢驗了一致性評價在期刊評審人遴選上的輔助作用。在合理的指標選擇下,本文的方法可遷移至項目評審人一致性評價。如對于學術共同體對項目執行效果的認知,可基于項目的獲獎情況、項目發文的被引情況等進行刻畫。考慮到本文驗證數據的來源與規模,后續研究將進一步擴充評議數據量(如采集數據完整的開放評議數據),以在更大規模的樣本上驗證本文方法的有效性。
作者:岳名亮 李富山 湯宏波 呂新華 馬廷燦
- 上一篇:電力企業班組安全管理水平提升探究
- 下一篇:高職畢業教育實踐育人研究