期刊自引知識擴散速度研究

時間:2022-03-11 05:00:33

導語:期刊自引知識擴散速度研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

期刊自引知識擴散速度研究

科學出版物構成一個巨大的知識擴散系統,引文作為研究者在獲取和利用知識過程中留下的痕跡,常用于揭示知識擴散的特征與規律[1]。引文分為自引和他引兩類,自引是科學引文系統的有機組成部分,也是引文知識交流的一種特殊形式。依據引用主體的層次差異,自引可分為作者自引、期刊自引、學科自引、語種自引、機構自引等不同類型。和他引一樣,自引可以借助數學工具和模型進行計量分析[2]。以往學者們常常從評價計量學角度切入,探討自引所導致的引文指標膨脹對科學評價效果的影響,研究內容多圍繞期刊自引可能引發的強制自引、不當自引、過度自引等負面問題展開,而忽視了自引在科學交流方面發揮的積極價值和功效,關于自引知識擴散速度研究相對有限[3]。Bonzi和Snyder、Shah等人曾先后證實作者自引比他引更具時效性,研究者對自己的前期成果非常熟悉,所以會優先引用自己新近發表的成果,甚至不必等待漫長的出版周期,在文獻正式發表之前就將其納入參考文獻列表當中,使其提前進入引文交流系統,從而有效地降低了引用時滯;而他引往往需要研究者從浩如煙海的文獻中進行搜尋和比較、閱讀和吸收,并最終施以引用,這一過程既耗時又費力,導致他引明顯滯后于自引[4-5]。Lin和Huang的研究結果表明,平均而言作者自引確實更具時效性,但是對于新近發表的被引文獻來說,自引與他引之間無明顯的差別;作者認為開放獲取、電子預印本等新興的出版模式,縮減了文獻發表周期,并提升了文獻的可獲得性,這在一定程度上削弱了自引在引文時效性方面的優勢[6]。上述幾項成果都是針對作者自引現象開展的研究,至于期刊自引在知識擴散的過程中是否也具有同樣的時效性優勢,仍未可知。引用延時(也稱引用時滯或引文滯后)是指文章從發表到獲得引用的時間間隔,常以年為單位,由施引文獻的發表年份減去被引文獻的發表年份計算獲得。引用延時指標在衡量以引文為載體的知識擴散(或稱知識傳播、知識交流、知識流動)速度方面獲得了廣泛的引用:Nakamura等描述了供應鏈各個子領域之間的知識速度[7];湯易兵等刻畫了供應鏈研究分支領域知識擴散的速度以及知識整合的情況[8];Wang和Zhang比較了國內與國外的引用延時差異,發現國內引用較之國外引用更具時效性,能夠更早達到引用高峰[9];王亮等將引用延時賦值為邊權,構建引文時序網絡,并測量知識擴散速度[10]。此外,引用延時指標被引入專利計量中,用于考察專利技術傳播與擴散的速度,例如,貴淑婷和彭愛東以專利文獻為節點、以引用延時為邊權建立加權有向時序網絡,對技術擴散速度及其演化過程進行定量分析[11];Wang等借鑒引用延時概念,將技術學習時滯定義為專利從獲得授權到被新專利引用的時間間隔,用于測度企業學習授權專利的速度[12]。縱觀國內外相關研究發現:一方面,關于自引知識擴散速度的研究成果較少,且都是針對作者自引的計量分析;另一方面,引用延時指標被廣泛地應用于衡量知識擴散速度,其有效性已經獲得了充分的檢驗,但是相關研究并未區分自引與他引。鑒于以上情況,本文計劃從期刊自引角度切入,圍繞“自引較之他引是否更具時效性冶這一問題進行實證研究,計算2009—2018十年間WebofScience(WoS)收錄的管理學文獻的自引與他引的引用延時,借此考察期刊自引與他引的知識擴散速度,從共時和歷時兩個維度對引用延時的分布規律和變化趨勢進行展示和分析,重點通過自引與他引的引用延時的比較,揭示自引這一特殊的引文交流形式在知識擴散過程中的速度優勢。

1數據與方法

期刊自引是指施引文獻與被引文獻來自于同種期刊的現象,一篇文章若包含適當數量的自引,說明文章與期刊的主題契合度較高,一種期刊若擁有適當比例的自引,說明期刊的報道方向連續和穩定[13]。本文以JCR在2009—2018年間收錄的管理學期刊為樣本,從WoS中獲取樣本期刊十年間的發文及引文數據,分別計算自引與他引的引用延時。WoS收錄了各個學科具有較高質量和影響力的國際期刊,采用該平臺數據可以在一定程度上保證樣本的代表性與權威性,也可適當規避由于考慮期刊聲望等引用動機導致的引用偏離[14]。本研究采用的樣本數據的獲取、處理及計算的具體步驟如下:第一步,下載2009—018年每個年度JCR在“管理學(Management)冶學科類別下收錄的期刊列表,通過WoS、Scopus數據庫以及各個期刊的官方網站對每種期刊的刊名進行逐個核查,盡可能細致全面地收集其自創刊以來的更名信息以及刊名的各種拼寫和縮寫形式。第二步,從WoS核心合集中進行刊名檢索,時間區間限定為2009—2018,所有文獻類型都包含在內,下載各篇文獻的題錄信息(含參考文獻),并導入Excel中加以匯總和整理,數據下載時間為2019年6月22日。第三步,結合每篇文獻題錄信息中包含的SO(出版物名稱)、J9(長度為29個字符的來源文獻名稱縮寫)、JI(來源文獻名稱縮寫)、CR(引用的參考文獻)等字段,對施引和被引文獻的來源期刊(刊名)進行匹配,匹配過程中期刊更名以及名稱縮寫等情況都考慮在內,識別出期刊自引關系對。第四步,提取施引文獻和被引文獻的發表年份信息,將樣本集合中的被引文獻分為自引和他引兩類,計算每篇被引文獻的引用延時(施引文獻的發表年份減被引文獻的發表年份),以單篇文獻為計算單位。據初步統計,2009—2018十年間管理學期刊發表各類文獻101057篇(施引文獻),共包含參考文獻記錄5562215條(被引文獻),其中,308646條為期刊自引,占全部參考文獻的5.55%,各年度的相關統計數據如表1所示。•2•參考文獻分為自引和他引兩類,表中的自引證率與他引證率是指參考文獻集合中自引與他引的占比。參考文獻數=自引文獻數+他引文獻數,自引證率=自引文獻數/參考文獻數,他引證率=他引文獻數/參考文獻數,自引證率+他引證率=1。上述施引文獻和被引文獻的題錄信息及其引用延時數據構成本研究的樣本集合,隨后開展的統計分析均以此為基礎展開。

2研究結果

2.1自引與他引引用延時分布情況的共時分析。首先計算各個引用延時對應的被引文獻在全部被引文獻中所占的比例,自引與他引文獻分類統計,如圖1所示,實線顯示了相應引用延時的自引文獻在全部自引文獻中的比例,虛線顯示了相應引用延時的他引文獻在全部他引文獻中的比例。然后,計算各個引用延時所對應的被引文獻集合中自引文獻和他引文獻各自的占比,即不同引用延時所對應文獻集合的自引證率與他引證率,結果分別如圖2的實線和虛線所示。此外,我們還將引用延時20年以內的曲線放大后放置于坐標圖中,以便更為清晰地顯示自引與他引的引用延時分布規律及其差異。統計結果顯示,單篇文獻的引用延時相差很大,其中,最大引用延時達到118年,覆蓋了WoS收錄的最大時間范圍(WoS收錄的文獻可追溯至1900年,而本文獲取的發文數據截止至2018年)。由圖1可知,分別有3.86%的自引和0.64%的他引為即年引用(引用延時為0);當引用延時為2年時自引曲線達到峰值,他引曲線的峰值卻出現在引用延時為4年時,也就是說,自引的高峰出現在文獻發表后的第3年,而他引的高峰則出現在文獻發表后的第5年;在2年及以下、5年及以下、10年及以下三個引用延時的時間區間內,自引的比例分別為21.80%、47.86%、74.58%,他引的比例則分別為7.97%、24.96%、50.76%,可見相比較于他引來說,自引更為集中地分布在較短的引用延時范圍以內;自引和他引的兩條曲線在引用延時為8年時出現了交叉,當引用延時小于8年時自引文獻的比例明顯大于他引,而在發表時間超過8年(相對陳舊)的被引文獻中,自引的比例小于他引。圖2顯示出不同引用延時所對應的被引文獻集合中,自引文獻與他引文獻各自的占比,我們將其稱為參考文獻集合的自引證率和他引證率。全部參考文獻中,自引證率和他引證率分別為5.55%和94.45%,我們以此平均值為參照,對各個引用延時所對應的被引文獻集合的自引證率與他引證率進行比較,統計結果顯示:發表當年就獲得引用的文獻集合中(引用延時為0),自引證率為26.30%,他引證率為73.7%;引用延時為1年和2年時,被引文獻集合中的自引比例分別為14.12%和11.69%,遠大于5.55%的平均自引證率;隨著引用延時增大,自引證率不斷降低,而他引證率則持續上升,兩者之間的差距越來越大;同樣以8年為界,當引用延時小于8年時,各個引用延時所對應文獻集合的自引證率普遍大于平均自引證率(5.55%),而當引用延時超過8年時,自引證率開始小于平均自引證率。可見,自引更多地出現在引用延時較短的情況下,而他引則更多地出現在較為陳舊的被引文獻中。綜上,通過自引與他引的引用延時分布規律的共時分析與比較,本文證實了自引較之他引確實更具時效性,引用延時越低,自引文獻的比例越大,自引證率越高,而且自引比他引提早兩年達到引用高峰。自引文獻更為集中地分布在引用延時較短的區間之內,以引用延時8年為界,引用延時較短的被引文獻中自引的比例較大,而較為陳舊(引用延時大于8年)的被引文獻中他引的比例更大。在關于不同引用延時對應文獻的自引證率和他引證率的比較中也發現,自引更多地出現在新近發表(引用延時較小)的文獻中,而在較為陳舊的被引文獻中自引的比例很低,新舊文獻的劃分同樣以8年為界。隨著引用延時增加,自引證率降低而他引證率增大,兩者之間的差距不斷加大,顯然期刊自引更傾向于選擇新近發表的文獻。2.2自引與他引引用延時的歷時變化規律。歷時分析以2009-2018十年間管理學期刊各年度刊載的施引文獻及其包含的被引文獻為對象,展示自引與他引的引用延時在各年度的分布情況,并考察其在整個觀察期內的變化趨勢。歷時的分析和比較從多個角度展開,相關統計數據分別如圖3-圖6所示,橫坐標為施引文獻的發表年份。前文的共時分析初步證實自引更具時效性,而歷時分析則主要是為了驗證在較長的時期內,自引的時效性優勢是否長期而穩定的存在于各個年度,這種優勢又是否隨著時間變化加強或者減弱。(1)圖3小提琴圖是根據各年度發表的施引文獻所包含的參考文獻的平均引用延時(或稱平均年齡)繪制而成,展示了各年度自引與他引的引用延時的整體分布情況,左右兩側分別代表自引和他引,兩類文獻的引用延時差距一目了然。自引的引用延時普遍小于他引,中位數和上下四分位數都明顯低于他引。十年間自引與他引的引用延時的極大值有所增大,但整體分布情況并沒有顯著變化。圖3各年度自引與他引引用延時的整體分布情況(2)由圖4可知,十年間全部樣本文獻的自引與他引的平均引用延時分別為7.82和13.36;各年度自引的引用延時平均值(即參考文獻的平均年齡)分布在7.22-9.09之間,中位數為5或6;各年度他引的引用延時平均值維持在12.87-13.70,中位數在9-11年間變化;自引文獻的平均引用延時(平均年齡)低于他引5-6年。從平均值和中位數的歷時變化趨勢來看,自引和他引的引用延時平均值都略有增長,但是增長勢頭并不顯著;自引與他引在平均值和中位數兩個方面的差值保持基本穩定,十年間并未呈現出明顯的增長或者下降的趨勢。(3)為了更為直觀地比較自引與他引在不同引用延時時間段內的分布情況,我們以每5年作為一個引用延時區間,統計各個區間內自引文獻和他引文獻的比例,結果如圖5所示。約40%的自引文獻引用延時在5年以內、約70%的自引文獻引用延時在10年以內;對于他引文獻來說,引用延時在5年以內的文獻比例約為20%,10年以內的文獻比例約為45%-50%;具體數值在不同年度略有波動,但整體上自引與他引的引用延時分布規律的差異是顯而易見的,在任意一個年份,自引文獻都更為集中地分布在較短的引用延時區間內,自引的時效性遠大于他引。(4)常見的期刊評價指標,如即年指標、兩年影響因子和五年影響因子,分別建立在即年、兩年和五年引文數據之上,所以即年、兩年和五年可以視為引文分析的三個關鍵時間區間。鑒于此,本文分別統計各個年度,上述三個時間區間內(即引用延時分別為0年、1-2年、1-5年)的自引文獻和他引文獻分別在全部自引文獻和全部他引文獻中的比例。由圖6可知,各年度即年自引文獻(引用延時為0年)在全部自引文獻中的比例保持在3%-5%之間,而即年他引文獻在全部他引文獻中的占比僅為0.6%-0.8%;兩年自引和兩年他引的比例分別為15%-20%和7%-8%;五年自引和五年他引的比例分別保持在40%-50%和24%-26%。可見,上述三個關鍵的引用延時區間內,自引文獻與他引文獻比例的差距很大,也就是說,相比較于他引,自引更加集中地分布在上述三個關鍵時間段內,自引文獻在發表當年就獲得引用的比例遠遠大于他引,兩者相差5-7倍;而在兩年和五年時間段內,自引的比例約為他引的2倍。可見,期刊自引在文獻的及時性方面更具優勢。就十年間的變化趨勢來看,上述三個關鍵時間區間內的自引文獻和他引文獻在全部自引文獻和全部他引文獻中的比例都呈現出一定的下降趨勢,說明管理學期刊所包含的參考文獻的及時性整體有所下降,這也與圖4中自引和他引文獻平均年齡有所增加的研究發現相吻合。6所展示的相關統計數據從多個方面證實了自引較之他引更具時效性,主要研究發現包括:自引更加傾向于選擇新近發表的文獻,較為新穎的文獻獲得自引的可能性更大,自引文獻的年齡也明顯低于他引,參考文獻越新,自引文獻與他引文獻占比的差別越大。就十年間的歷時變化情況來看,自引在時效性方面的優勢并非偶然或者暫時的,而是一種長期而普遍的存在。此外,從發展趨勢來看,自引與他引在引用延時方面的差距保持較長時期的穩定性,沒有呈現出明顯的增強或者減弱的趨勢。2.3文獻自引證率與其引用延時的相關分析。文獻的自引證率,即單篇文獻所包含的參考文獻列表中的自引占比,是文獻自引程度的衡量指標。單篇文獻所包含的參考文獻的平均引用延時,代表著其知識來源的新穎程度。將上述兩類指標的年度值導入SPSS,逐年進行Spearman相關性分析,我們將其相關系數匯總如圖7所示。相關分析結果顯示,在0.05的顯著性水平上,單篇文獻的自引證率與平均引用延時(即參考文獻的平均年齡)之間存在著顯著的負相關關系,且這種負相關關系普遍存在于各個年度。上述兩類指標之間的負相關關系可以解釋為,一篇文獻包含的自引參考文獻越多,則其引用延時的平均值越小,來源知識越是新穎及時。從歷時變化情況來看,Spearman相關系數值在不同的年份有所波動,但是十年間整體呈現出下降的趨勢,從2009年的-0.135降至2018年的-0.240,說明負相關的程度不斷加強。通過相關分析再次證實期刊自引有助于降低參考文獻的平均年齡,加快知識擴散的速度。綜上所述,在以引文為載體的知識擴散過程中,自引與他引是兩種不同的引文形式,也代表著兩種不同的知識來源,反映了一篇文獻的作者在研究過程中對于其來源期刊內部和外部知識的利用程度,而引用延時則表征著知識來源的新舊程度。本文借助文獻計量手段,從多個角度證實了在以引文為載體的知識擴散過程中,期刊自引作為一種特殊的引文形式,其時效性更強,知識擴散的速度更快。換而言之,借助期刊自引所獲得的知識更為新穎及時,而研究者從外部渠道所獲得的知識總是具有一定的滯后性。

3結論與討論

本文以2009—2018十年間JCR收錄的管理學期刊為例,將其包含的參考文獻分為自引和他引兩類,分別計算自引和他引的引用延時,展示其分布及變化規律,比較其引用延時的差異,綜合各方面的統計數據和研究發現,充分證實了自引相較于他引,時效性更強,對新知識的捕捉和反映速度更快,有助于加快知識擴散速度。自引的引用延時普遍低于他引,兩者的平均值相差約5-6年。文獻發表后能夠快速地獲得自引,而他引則明顯滯后于自引,自引的引用高峰早于他引2年。自引更為集中地分布于較短的引用延時區間內,而相對陳舊的文獻中他引的比例更高。當引用延時為0年時,對應自引證率的最大值和他引證率的最小值;隨著引用延時增加,自引證率不斷降低而他引證率則持續增加,兩者之間的差別越來越大。單篇文獻的自引證率與其平均引用延時之間存在顯著的負相關關系,從另一角度證實自引是更為新穎及時的知識來源,其知識擴散速度更快。此外,針對各個年度相關數據的歷時分析結果表明,自引的時效性優勢是一種長期而穩定的存在,十年間自引與他引在引用延時方面的差距保持基本穩定,沒有呈現出明顯的增強或減弱的跡象。自引源于科學研究的連貫性與繼承性,也反映了學者們在發文和引用過程中的選擇偏好性。早在1934年,布拉德福發現了文獻序性結構的經驗定律———若將科學期刊按照其刊載某學科主題的論文數量以遞減順序排列,則可以把期刊分為面對該學科主題的核心區、相關區和非相關區[15]。隨后,加菲爾德證實了引文分布同樣呈現出集中離散分布規律,以SCI數據庫為例,75%的參考文獻來自不足1000種被引期刊,500種期刊發表的被引文獻占SCI收錄參考文獻總量的70%[16]。布拉德福定律描繪的“核心區冶是根據期刊的學科主題相關度及其刊載的文獻主題集中分布情況而劃定,加菲爾德發現的“核心冶期刊更多地體現出期刊(及其刊載論文)質量的差異。而無論是主題差異還是質量差異都使得核心區的期刊更受關注,這部分期刊在學科領域更為活躍,在知識傳播過程中也發揮著更為關鍵的作用。與此同時,隨著科學的飛速發展,各個學科普遍呈現出信息爆炸之勢,期刊種類越來越多、刊載的論文數量越來越大。以本研究選取的“管理學冶學科為例,2009—2018十年間,WoS收錄該學科的期刊數量由112種增長至217種、年度論文數量由8565篇增長至11769篇。而學者們的注意力卻是有限的,能夠獲取和閱讀的文獻數量不可能同步增長。當學者們憑一己之力已經無法遍歷整個學科的全部文獻時,通常會選擇本學科領域的少數幾種核心期刊作為相對固定的知識來源,長期追蹤、閱讀和引用這些期刊上發表的文章,并優先將自己撰寫的文章發表在這些期刊上。由此可見,某個學科領域快速增長的文獻數量與學者們有限的注意力之間的矛盾,進一步增強了學者們在發文和引文過程中對于核心期刊的傾向性選擇,并加劇了發文和引文的集中離散分布特征。自引與他引的時效性差異,可以理解為某一學科領域的知識擴散遵從于“從內向外、由近及遠冶的基本原則,即一篇文章發表后最先獲得來自本期刊內部讀者群體的認可和使用(表現為期刊自引),隨后擴散到更大的讀者群體而吸引更多的外部引用(他引),由此導致期刊自引的知識擴散速度領先于他引。自引與他引的時效性差異可以從以下幾個方面解釋:第一,對于某種期刊來說,尤其是那些在某一學科影響力大、認可度高、刊載主題論文較多的核心期刊,通常都有相對穩定的讀者群和作者群,并且這兩個群體的重合度很高,即群體內的許多學者兼具讀者和作者兩種身份,往往對該期刊所報道的新知識的捕捉和反應速度更快,對該期刊前期成果的利用程度更高,總是優先引用該期刊新近發表的文章,而作者也會優先選擇該期刊來發表自己的文章。第二,學科分化加劇,學科壁壘加深,不同學科之間知識流動的阻力較大,學科內和跨學科的知識交流成本存在顯著差異。學者們對于自己所屬的學科內部核心區期刊的關注程度更高,對其刊載的文獻更為了解和熟悉,信息搜尋的成本較低,知識擴散的速度更快;相比較而言,從非核心區獲得所需文獻往往需要花費更大的時間和精力進行查找、閱讀、比較和選擇,從而導致引用延時增加。第三,自引所具有的自我推薦和傳播功效[17],顯著地提升了被引文獻及其來源期刊在科學交流系統中的可見度,使其能夠得到更廣泛的傳播和交流,獲得更多的外部引用(即來自相關或相近學科領域的他引),雖然無法準確判定哪些他引源于自引的推薦,但是可以肯定的是這種經由自引推薦而獲得的他引明顯滯后自引。第四,考慮到期刊不當自引(例如強制自引)行為的存在,這種自引多以人為操縱影響因子為目的,而影響因子計算過程中真正起決定性作用的是兩年被引頻次,也就是說兩年自引對影響因子的操縱力更強,所以期刊會刻意提升兩年自引量[18]。國內外的統計結果表明不當自引雖不十分普遍,但現實中屢有發生[19]。盡管不當自引的比例尚不明確,但其刻意增加兩年自引的行為使得不當自引的參考文獻的年齡偏低,這也在一定程度上增強了自引的時效性。

本文以管理學期刊為例,借助引用延時指標考察了期刊自引的知識擴散速度,揭示了自引與他引在引文時效性方面的差異。相關的研究發現不僅能夠增進人們對于以引文為載體的知識擴散速度的認識和了解,而且有助于減少一直以來大家對于期刊自引持有的偏見和誤解。事實證明,無論自引在科學評價方面的作用是正向還是負向,并不影響自引在促進科學交流、加快知識擴散等方面所能發揮的積極功效,自引有助于加快知識擴散速度。本文只是針對期刊自引的知識擴散速度問題進行初步地探索,研究過程中還存在一些問題和不足:一是僅以管理學期刊為例,對期刊自引和他引的引用延時進行計算和分析,研究發現和結論僅適用于管理學領域,至于期刊自引的時效性優勢是否也存在于其他學科還有待檢驗;二是以往曾有研究證實作者自引能夠有效縮短引用延時,本文僅從期刊自引角度比較自引與他引的時效性差別,至于作者自引與期刊自引的關系問題,尤其是作者自引是否會對期刊自引的時效性產生影響以及影響程度如何,需要在后續研究中加以檢驗。