作者特征和期刊特征論文被引要點
時間:2022-09-15 11:36:33
導(dǎo)語:作者特征和期刊特征論文被引要點一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
學(xué)術(shù)論文作為知識的有形載體在學(xué)術(shù)交流和科技進(jìn)步中起到極大的促進(jìn)作用,學(xué)術(shù)論文的被引頻次反應(yīng)了其研究成果的科研水平和應(yīng)用價值。對于已經(jīng)發(fā)表2-6年的論文,我們可以通過被引頻次評估其影響力。事實上,作者、科研機構(gòu)和期刊編輯人員更關(guān)心之前的被引頻次,作者和科研機構(gòu)關(guān)注研究成果未來的被利用情況,可預(yù)測其研究成果的應(yīng)用價值,期刊編輯關(guān)注論文的被引用情況,可預(yù)估期刊的影響力。目前,國外已有不少學(xué)者研究了學(xué)術(shù)論文被引頻次的影響因素。早在1983年Stewart,J.A就發(fā)現(xiàn),作者的聲譽會影響其論文的被引量【1】;VanDalen【2】認(rèn)為,作者的一些特征是引用分配的決定因素;之后VanDalen等【3-4】發(fā)現(xiàn)作者過去的表現(xiàn)在某種程度上可以預(yù)測其科研成果的影響力,并指出論文的可獲取性、作者聲譽和期刊特征是影響論文被引頻次的最重要因素;JoyceCW等【5】通過文獻(xiàn)計量分析,發(fā)現(xiàn)論文的研究內(nèi)容、論文所在期刊的特征以及作者特征是影響論文被引頻次的主要因素;MingyangWang等人【6】通過研究四種特定期刊的文章,發(fā)現(xiàn)第一作者的h指數(shù)是影響論文被引頻次的關(guān)鍵因素;GiovanniAbramo等人【7】發(fā)現(xiàn)高被引論文與高產(chǎn)作者具有強相關(guān)關(guān)系,高被引論文還受學(xué)科因素的影響;TianYu等【8】研究了論文作者特征、引文特征和期刊特征等對論文未來被引用頻次的影響。國內(nèi)學(xué)者對論文被引頻次的影響因素也進(jìn)行了深入廣泛的探討,其代表性研究有:邱均平等【9】通過實證研究,證明了中的馬太效應(yīng),即越是出名的作者越容易獲得在眾多核心期刊發(fā)表的機會;之后,侯劍華等【10】在研究中進(jìn)一步證實了發(fā)文作者中的馬太效應(yīng),作者的聲譽可能會影響期刊論文被引用的頻次;孟凡蓉等【11】以5本高被引核心期刊論文為樣本,實證研究了論文被引頻次與論文刊載時間、論文所在期刊的影響因子、論文研究方法、論文作者特征等有關(guān);王海濤等【12】利用負(fù)二項回歸模型研究了論文作者數(shù)量對論文被引頻次的影響規(guī)律;鮑玉芳等【13】從作者因素、文章因素、期刊因素、計量方法因素等方面建立了影響論文被引頻次的指標(biāo)體系;肖學(xué)斌等【14】在研究中發(fā)現(xiàn)作者人數(shù)與論文被引頻次呈正相關(guān)。前人的研究成果為本文從作者、期刊視角進(jìn)行論文被引頻次預(yù)測的研究奠定了良好的基礎(chǔ)。但已有研究多是利用傳統(tǒng)的學(xué)術(shù)影響力指標(biāo)如發(fā)文量、被引次數(shù)、h指數(shù)、影響因子等研究論文的被引頻次,很少關(guān)注論文被引頻次預(yù)測的研究【15】,國內(nèi)更是鮮有綜合多因素對學(xué)術(shù)論文被引頻次進(jìn)行預(yù)測的研究。本文擬在前人研究的基礎(chǔ)上,選取論文作者和論文所在期刊兩大特征指標(biāo)來構(gòu)建影響論文被引頻次的空間向量,通過多元統(tǒng)計分析,探析作者特征、期刊特征與論文被引頻次的相關(guān)性,并給出學(xué)術(shù)論文未來被引頻次的預(yù)測模型,為科研人員、科研機構(gòu)以及期刊編輯人員分析論文質(zhì)量、預(yù)測論文未來的影響力提供參考依據(jù)。
2影響論文被引頻次的作者特征與期刊特征
高水平作者因其具有較高的學(xué)術(shù)產(chǎn)出和學(xué)術(shù)影響力對期刊學(xué)術(shù)水平和影響力的提升起著十分重要的作用【16】。而高水平作者通常由其發(fā)文量、論文總被引次數(shù)、篇均被引次數(shù)和h指數(shù)等指標(biāo)來衡量。故本文選取的論文作者特征指標(biāo)包括:論文對應(yīng)的作者數(shù)量、作者h(yuǎn)指數(shù)、作者發(fā)文量、作者已見刊論文的被引量和篇均被引量;期刊被引指標(biāo)直接反映論文的被引頻次,根據(jù)《中國科技期刊引證報告(2012年版)》中給出的期刊被引指標(biāo),本文選取期刊影響因子、期刊即年指標(biāo)、期刊h指數(shù)作為反映論文被引頻次的期刊特征指標(biāo)。初步選取的影響學(xué)術(shù)論文被引頻次的13個指標(biāo)見表1。
3學(xué)術(shù)論文被引頻次預(yù)測
3.1研究工具與方法。本文利用Excels工具完成數(shù)據(jù)統(tǒng)計,運用SPSS統(tǒng)計分析中的相關(guān)分析對影響論文被引頻次的指標(biāo)進(jìn)行初步篩選,利用SPSS統(tǒng)計分析中的逐步回歸分析構(gòu)建論文未來被引頻次的預(yù)測模型。相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,測度各個變量之間關(guān)系的一種統(tǒng)計方法。在相關(guān)分析中,變量之間關(guān)系的密切程度用一個數(shù)值來表示。一般根據(jù)相關(guān)度數(shù)值的大小,將相關(guān)度r分為4個等級:0<|r|<0.3,為微弱相關(guān);0.3≤|r|<0.5,為低度相關(guān);0.5≤|r|<0.8,為顯著相關(guān);0.8≤|r|<1,為高度相關(guān)【17】。逐步回歸分析是一種在多元回歸模型中選擇變量的方法,該方法從包含多個自變量組合的回歸方程中逐個檢驗回歸系數(shù),剔除對因變量作用不顯著的自變量,對剔除后剩下的自變量建立對因變量的多元回歸方程,再逐個檢驗回歸系數(shù),剔除不顯著的變量;重復(fù)上述步驟,直到保留在回歸方程中自變量的作用都顯著為止,最后一個方程給出的便是獨立變量的最佳組合。所以,該方法不僅保證了所選變量的有效性和重要性,也減少了額外引入冗余變量;不僅能夠提取隱藏在大量數(shù)據(jù)集中的重要信息,還可以使用有效變量來預(yù)測和控制一個特定的變量。逐步回歸分析包括向前選擇、向后淘汰和雙向消除,本文選擇雙向消除法。在實際應(yīng)用中,相關(guān)分析與逐步回歸分析有著密切關(guān)系。在相關(guān)分析中,所討論變量的地位一樣,分析側(cè)重于隨機變量之間的相關(guān)特征,根據(jù)相關(guān)性顯著與否可對變量進(jìn)行初步選取;而在逐步回歸分析中,所關(guān)心的是一個隨機變量對另一個或多個隨機變量依賴關(guān)系的函數(shù)形式,因此,在相關(guān)分析初步選定變量的基礎(chǔ)上,通過逐步回歸分析對變量進(jìn)行再次篩選,可以獲取利用關(guān)鍵變量表征某一變量的預(yù)測模型。3.2數(shù)據(jù)準(zhǔn)備。由于影響學(xué)術(shù)論文被引頻次的因素很多,為凸顯作者和期刊兩大特征對學(xué)術(shù)論文被引頻次的影響,弱化其他因素的影響,特做如下的限定:①限定所選的數(shù)據(jù)庫。由于數(shù)據(jù)庫對論文的被引頻次有影響【18】,保持論文被收錄數(shù)據(jù)庫的一致性可弱化數(shù)據(jù)庫對論文被引頻次的影響,所以限定CNKI數(shù)據(jù)庫作為本文的采樣數(shù)據(jù)源。②限定所選的學(xué)科。UgoFi⁃nardi和GiovanniAbramo分別在研究中發(fā)現(xiàn),期刊論文的被引頻次與學(xué)科有關(guān)【7】【19】;鮑玉芳也指出論文被引頻次與學(xué)科具有相關(guān)性【13】,為弱化學(xué)科因素對論文被引頻次的影響,本文限定圖書情報學(xué)期刊論文為研究對象。另外,預(yù)測學(xué)術(shù)論文被引頻次時,預(yù)測時間的長短要考慮學(xué)科論文的被引高峰期,預(yù)測時間過長或過短,遠(yuǎn)大于或遠(yuǎn)小于被引高峰期,都會失去預(yù)測原本的意義。盛麗娜【20】通過對SSCI收錄的35種信息科學(xué)與圖書館學(xué)期刊被引高峰期的分析,發(fā)現(xiàn)信息科學(xué)與圖書館學(xué)期刊被引高峰期的時間平均為6.25年。“信息科學(xué)與圖書館學(xué)”和“圖書情報學(xué)”屬于同一類學(xué)科,因此,本文將預(yù)測時間定為7年,選取2011年第1期、第2期的論文為研究對象,將論文作者特征作為自變量,選取上述論文2017年12月31日之前的被引頻次為因變量。數(shù)據(jù)獲取的具體過程為:首先選定圖書情報學(xué)領(lǐng)域的17種核心期刊(2011年南大CSSCI期刊目錄中,給出18種圖書情報學(xué)期刊,由于《情報學(xué)報》沒有被CNKI收錄,考慮到數(shù)據(jù)獲取的方便性,沒有選取《情報學(xué)報》),以2011年第一期論文為數(shù)據(jù)樣本,共526篇。然后,在CNKI數(shù)據(jù)庫高級檢索界面“主題”中輸入樣本論文的題目,檢索到的時間、論文作者及單位,記錄每篇論文的作者數(shù)目x1和該論文的被引頻次y。之后刪除“主題”中的論文題目,以“作者姓名+作者單位+年份”的檢索策略進(jìn)行檢索,檢索時間設(shè)置為該日期的前一日。對涉及多個單位的作者,根據(jù)其研究方向,修改作者單位后進(jìn)行多次檢索,以降低檢索噪聲,得到作者本之前的所有論文。最后將檢索到的論文按被引量降序排列,統(tǒng)計每位作者的發(fā)文量、每篇論文的被引量、所有論文中的最大被引量、總被引量和作者h(yuǎn)指數(shù),統(tǒng)計每篇論文所有作者中的最大發(fā)文量和最大被引量等,作為作者特征指標(biāo)的原始數(shù)據(jù)。統(tǒng)計發(fā)現(xiàn),526篇論文的累計被引頻次為4884。少數(shù)論文被引頻次較高,多數(shù)論文被引用了少數(shù)幾次,被引頻次為0次的論文有50篇,全部526篇論文的被引頻次呈長尾分布,符合圖書情報學(xué)學(xué)科領(lǐng)域集中分散的引用分布規(guī)律,說明本文選取的數(shù)據(jù)是有效的。從《中國科技期刊印證報告(2011年版)》中選取并記錄上述17種期刊對應(yīng)的期刊影響因子、期刊即年指標(biāo)、期刊h指數(shù)三個期刊引文指標(biāo),作為影響論文被引頻次的期刊特征數(shù)據(jù)。將獲取到的數(shù)據(jù)做如下的處理:對每種期刊所有論文對應(yīng)的每個指標(biāo)[包括期刊特征指標(biāo)Ji(i=1、2、3)和作者特征指標(biāo)Ak(k=1、2、…、10)]分別求和后取均值作為該期刊對應(yīng)指標(biāo)Ji、Ak的值,將“論文-被引頻次-影響特征指標(biāo)”關(guān)系轉(zhuǎn)變?yōu)椤捌诳?被引頻次-影響特征指標(biāo)”關(guān)系;之后,為消除各指標(biāo)因單位不同帶來的數(shù)量上的差異,將所有期刊對應(yīng)的Ji、Ak值作歸一化處理,見表2。以此作為后續(xù)論文被引頻次y與Ji、Ak相關(guān)性分析的數(shù)據(jù)基礎(chǔ)。33.3相關(guān)性分析將表2數(shù)據(jù)導(dǎo)入SPSS進(jìn)行相關(guān)性分析,各指標(biāo)與論文7年后被引頻次y之間的相關(guān)系數(shù)如表3所示。表3給出了論文被引頻次y與選定的3個期刊指標(biāo)Ji和10個作者特征指標(biāo)Ak的相關(guān)系數(shù)。根據(jù)相關(guān)分析中相關(guān)度r的4個等級標(biāo)準(zhǔn)【17】不難發(fā)現(xiàn),期刊h指數(shù)J3、作者數(shù)量A1與論文被引頻次y呈微弱相關(guān),作者數(shù)量A1與論文被引頻次y的相關(guān)度最小,為0.262,說明作者數(shù)量與論文被引頻次關(guān)系不大,期刊h指數(shù)的高低對論文被引頻次的影響也不明顯。與論文被引頻次y顯著相關(guān)的指標(biāo)有J2、A2、A3、A5、A6、A7、A8、A9、A10。其中,與A10的相關(guān)性最高,為0.710。說明期刊即年指標(biāo)、一篇論文所有作者中作者h(yuǎn)指數(shù)的最大值、第一作者的發(fā)文量、所有作者被引頻次的最大值、第一作者的最大被引頻次、所有作者中總被引頻次的最大值、第一作者的總被引頻次、第一作者的h指數(shù)對論文被引頻次具有明顯的影響;而第一作者之前的篇均被引頻次對論文被引頻次的影響最為顯著。說明上述作者特征指標(biāo)具有高度一致性,它們從相似或等同的視角反映了論文的學(xué)術(shù)影響力。考慮到表3中A2、A3、A5、A6、A7、A8、A9、A10之間的相關(guān)度較高,為避免重復(fù)計算同等或相似的特征指標(biāo),本文利用逐步回歸分析確定對論文被引頻次貢獻(xiàn)突出的指標(biāo),將貢獻(xiàn)不突出的指標(biāo)自動剔除,從而保證所選變量的有效性和重要性,以建立最優(yōu)的回歸方程。3.4學(xué)術(shù)論文被引頻次預(yù)測模型構(gòu)建。根據(jù)相關(guān)分析結(jié)果,選取與被引頻次y具有顯著相關(guān)關(guān)系的J1、J2、J3、A2、A3、A5、A6、A7、A8、A9、A10指標(biāo)作為自變量,y為因變量,做逐步回歸分析處理。利用逐步回歸構(gòu)建預(yù)測模型時,要求樣本數(shù)量至少是變量數(shù)的五倍以上,樣本越多,得到的預(yù)測模型預(yù)測效果越好【21】。鑒于此,本文以526篇論文為樣本數(shù)據(jù),樣本數(shù)(526)是變量數(shù)[1(y)+3(Ji)+10(Ak)=14]的37倍以上。利用SPSS19.0對526篇論文“論文-被引頻次-影響特征指標(biāo)”的歸一化數(shù)據(jù)進(jìn)行逐步回歸分析,結(jié)果見表4。由表4發(fā)現(xiàn),第一作者的篇均被引量A10和期刊即年指標(biāo)J2的t值分別為3.930和2.942,均大于2,Sig(P值)分別為0.001和0.008,通過了顯著性檢驗。表3同時給出了回歸系數(shù)B,由此確定:論文被引頻次可由第一作者之前的篇均被引量A10和期刊即年指標(biāo)J2來預(yù)測,其預(yù)測模型為:y=0.781J2+1.176A10-0.052。3.5模型評估與結(jié)果分析。從上述17種期刊中隨機選取8種期刊,如《中國圖書館學(xué)報》《大學(xué)圖書館學(xué)報》等,利用給出的預(yù)測模型對其2011年第2期152篇論文(第2期超過20篇論文的,選取其前20篇論文)7年后的被引頻次進(jìn)行預(yù)測,并與同一篇論文7年后的實際被引頻次進(jìn)行對比,對比結(jié)果在Excels中按每個數(shù)值所占大小的變化趨勢呈現(xiàn),如圖1所示。圖1預(yù)測結(jié)果顯示,對8種期刊論文而言,回歸方程的整體預(yù)測結(jié)果比較令人滿意。但仍存在一定的誤差,誤差產(chǎn)生的主要原因是:(1)論文作者因素。影響預(yù)測結(jié)果的作者因素是多方面的:①一些作者的發(fā)文量較少,但被引量卻很高。如王妙婭發(fā)表“國內(nèi)圖書館服務(wù)博客調(diào)查分析”(發(fā)表于《情報資料工作》2011年第2期)一文之前僅發(fā)表了一篇論文“國內(nèi)圖書館微博應(yīng)用現(xiàn)狀及建議”,但其被引頻次卻達(dá)到140次,這屬于“非高產(chǎn)作者成為高影響力作者的可能性極低”【9】的現(xiàn)象。②作者發(fā)表的多篇論文中每篇論文的被引頻次差異較大。如王知津在2011年1月份之前被CNKI收錄的期刊論文共100篇,有的被引次數(shù)很高,有的被引次數(shù)較低,比如2006年發(fā)表在《圖書與情報》中的“網(wǎng)站評價指標(biāo)體系的構(gòu)建方法與過程”一文,被引頻次達(dá)122次;2007年發(fā)表在《圖書館雜志》中的“基于改進(jìn)遺傳算法的XML信息檢索研究”至今沒有被引用,其篇均被引頻次雖為11.07次,但本文選取的王知津2011發(fā)表在《圖書情報知識》第一期的“企業(yè)競爭情報作戰(zhàn)室運行準(zhǔn)備機制研究”至今被引用2次。模型出現(xiàn)類似預(yù)測誤差的還有鄭建明的論文“傳承歷史探索發(fā)展——《中國目錄學(xué):理論、傳統(tǒng)與發(fā)展》評薦”(刊登于《圖書情報知識》,發(fā)表時間為2011年第2期)、孫瑞英的論文“基于‘非零和博弈’視角的公共圖書館立法與運行研究”(刊登于《圖書館》2011年第2期)等。分析發(fā)現(xiàn),這些點對應(yīng)的作者多屬于圖書情報學(xué)研究方向的知名學(xué)者,這一現(xiàn)象提示我們:基于作者特征建立預(yù)測模型時,需要根據(jù)作者之前影響力的不同對作者特征賦予適當(dāng)?shù)臋?quán)重系數(shù),以減小預(yù)測誤差。③論文作者位次的不同會導(dǎo)致預(yù)測不準(zhǔn)。如南京理工大學(xué)的章成志2011年1月份之前被CNKI收錄的期刊論文共15篇,以第一作者身份發(fā)表的期刊論文7篇。以第二作者身份發(fā)表的兩篇論文“國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望”和“互聯(lián)網(wǎng)輿情分析及應(yīng)用研究”被引頻次分別高達(dá)243次和119次,而以第一作者身份發(fā)表的論文“自動標(biāo)引研究的回顧與展望”最高被引頻次61次,多數(shù)論文的被引頻次一般在幾次左右,有的為0次。說明第一作者之前發(fā)表的論文中,作者署名位次的不同對論文的被引頻次有影響。統(tǒng)計以第一作者身份的被引頻次,以此為模型指標(biāo)得到的預(yù)測效果可能會更理想。(2)論文所在期刊因素。對比圖1給出的各期刊論文被引頻次的預(yù)測結(jié)果,發(fā)現(xiàn)預(yù)測效果因期刊而異。模型對一些期刊的預(yù)測效果比較理想,如《大學(xué)圖書館學(xué)報》《圖書情報工作》《國家圖書館學(xué)刊》《情報資料工作》《圖書館工作與研究》,其論文的預(yù)測被引頻次占比曲線與實際被引頻次占比曲線吻合度較高;對一些期刊的預(yù)測效果一般,如《中國圖書館學(xué)報》《圖書情報知識》《圖書館》,兩曲線的吻合度不甚理想。說明學(xué)術(shù)論文被引頻次的預(yù)測效果與期刊有關(guān)。這種預(yù)測結(jié)果的差異性提示我們:研究學(xué)術(shù)論文被引頻次的預(yù)測模型時,需要把樣本數(shù)據(jù)范圍作更嚴(yán)格的限定,即不僅限定到某一學(xué)科,還應(yīng)限定到學(xué)科內(nèi)具體的某個期刊,這樣預(yù)測效果或許能得到一定的改善。(3)論文研究內(nèi)容和研究方法因素。本文是在限定學(xué)科和數(shù)據(jù)庫的前提下研究作者、期刊對論文未來被引頻次的影響作用的。實際上,除了數(shù)據(jù)庫、學(xué)科、作者、期刊因素外,論文的研究內(nèi)容和研究方法對其未來的被引頻次也會產(chǎn)生一定的影響。研究內(nèi)容與方法決定了論文的類型,如有的論文屬于理論型、有的論文屬于應(yīng)用型、還有的論文屬于實踐型;有的屬于專題性,有的屬于綜述性等。由于研究者的研究興趣和研究習(xí)慣不同,其引用論文的類型也有差異。所以,需將論文研究內(nèi)容和研究方法作為論文的重要特征指標(biāo)納入預(yù)測模型中,以進(jìn)一步提高預(yù)測效果。