我們評價一名學者經常會以他/她的論文引用數量作為標準,但這種被沿用數十年的慣例真的有效嗎?以色列本古裡安大學(BGU)的軟體和資訊系統工程助理教授Michael Fire最近撰文介紹了自己對於20世紀以來大量學科研究的引用數、H-index和影響因子等的統計分析,結果表明,這些標準已經失去意義。
發表學術論文非常具有挑戰性、刺激性,但也讓人有點困惑。挑戰性在於,你的研究可能遭遇滑鐵盧。刺激性在於,研究之初的設想是一回事,實際產出可能和設想的完全不同。困惑之處在於,論文寫好之後,你還必須找到一家知名的機構發表研究。
實際上,最後這一部分不僅令人困惑,還很不合邏輯。我幾乎從不知道一篇論文將會被哪裡接收。我有一些論文發表在公認的知名期刊上,但同樣的論文卻被不那麼知名的期刊拒絕了。論文的提交、評審過程是相對隨機和主觀的。當前的狀況更是如此:根據 SCImago Journal Rank (SCImago 期刊排名,SJR),目前共有 34000 多種期刊參與排名,其中 AI 領域的期刊就有 1000 多種(見圖 1)。你幾乎可以無休止地尋找出版期刊。
AI 期刊的逐年數量
作為一名研究者,我對學術出版物多年來的演變過程很感興趣。我想看看那些常用的學術指標(如影響因子、h-index)在衡量學術成就方面是否真的發揮作用。我想知道究竟是什麼因素使得某些論文可以發表在 Science、Nature 等頂級期刊上。
為了開展這項研究,我和 Carlos Guestrin 開發了一個開源的程式碼框架,進而分析幾個大規模資料集,它們包含 1.2 億份論文、5.28 億條參考文獻和 3500 萬名作者,有的論文可以追溯到 20 世紀初。我們發現,學術出版在數量和速度方面都發生了很大變化。1950 年的論文發表數量大約為 17.4 萬,到 2014 年激增到 700 萬。例如,根據 SJR 的統計,排名期刊上發表的 AI 論文數量大幅增長,從 1999 年的 7000 多份增加到 2016 年的四萬六千多份。而且,研究者分享、發表研究的速度也大為提高。今天的研究者不僅可以在數量不斷增加的傳統出版物(如會議和期刊)上發表論文,還可以選擇在發表速度更快的預印版電子平臺和 mega-journal 上發表。
從我們的分析可以準確、全面地看出學術出版界的演變。我們發現學術界在不同層次上出現廣泛的潛在變化:
論文:研究發現,隨著時間的推移,論文篇幅變短了,但標題、摘要、作者名單卻變長了。參考文獻數量和自引數量顯著增加,但不加任何引用的論文數量也增長很快。
作者:研究發現,新的作者大批湧現。相比於前些年學術生涯長度相同的研究者,這些新作者發表論文的速度要快得多。此外,隨著時間的推移,每位作者的平均合著者數量顯著增加。最後,我們發現,近年來越來越多的作者選擇在會議上發表文章。
學術生涯長度 vs 平均發表論文數量
期刊:期刊數量激增,每年都有數百份新的期刊。此外,我們發現,2017 年大部分發表論文刊登在 Q1 區期刊。例如,2017 年超過 53% 的 AI 論文發表在 Q1 區期刊。我們還觀察到期刊排名受論文平均引用量影響很大,而 h-index 指標隨著時間增加而下降。在分析頂級期刊的趨勢後,我們發現每種期刊的論文發表數量都出現了急劇增長,一作和最後一作的學術生涯長度也出現了顯著增長。例如,在《人工智慧研究雜誌》(Journal of Artificial Intelligence Research)上,最後一作的平均學術生涯長度從 1993 年的 8.7 年上升到了 2014 年的 15.8 年。此外,近年來 returning author 的期刊文章發表比例急劇增長。例如,2014 年 Nature 雜誌有超過 76% 的論文的至少一作者曾經在 Nature 上發表過文章,而這一比例在 1999 年才 45.5%。
研究領域:我們分析了 19 個主要研究領域(如生物和電腦科學)和 2600 個子領域的屬性,發現不同領域的屬性值跨度很大。即使同一領域的不同子領域的平均引用量也大不相同(參見:http://sciencedynamics.cs.washington.edu/fields_stat.html)。
五大重要見解
我們從該研究中發現了以下五個重要洞見:
一,研究結果支援古德哈特定律,即當傳統指標(如論文數量、引用數量、h-index 和影響因子)成為目標後,這些指標也就失去了重要性/影響力。把論文寫短一點、和更多作者合作可以幫助研究者在同等時間下產出更多論文。此外,論文結構的主要變化與高引用量有關。作者可以使用較長的標題和摘要,或者在標題中使用問號或感嘆號,使論文更有吸引力,從而增加引用量,即「學術界的標題黨」……這些結果支援我們的假設:學術論文為了複合目標指標而不變變化。
二,論文引用量成為很多研究者的目標。我們觀察到研究者在新研究中引用其以往研究的頻率呈增長態勢,一些作者甚至數十次甚至數百次引用自己的論文。此外,大量論文——超過 72% 的論文和具備至少 5 個參考文獻的論文中有 25% 的研究在發表 5 年後就沒有人引用了。很明顯,大量資源被花費在影響有限的論文上了,這可能表明研究者發表更多低質量論文的目的在於增加論文發表數量。我們還注意到,不同年代的論文引用量分佈差異很大。因此,對比曾在不同時間段發表論文的研究者的引用量資料很有難度。
自引數量的時間變化趨勢
第三,我們觀察到發表論文的新研究者數量出現指數增長,這可能是學術生涯壓力造成的。我們還觀察到在學術生涯中,年輕學術研究者的論文發表數量較他們的前輩多得多。此外,我們看到,早期學術生涯研究者作為一作發表論文的比例低於他們的前輩。在「要麼發表要麼出局」的環境激勵下,研究者透過彼此之間更多的合作(新增到更長的作者列表中)以及發表更多的會議論文來提高發表量。
一作論文發表頻率
第四,某些趨勢正在塑造頂級期刊論文發表格局。特定頂級期刊中的論文數量隨著作者學術年齡增長和 returning author 比例提升而出現了顯著增加。近年來,向《Science》等頂級期刊投稿的數量急劇增長,但是很多此類期刊主要發表的論文中至少有一位作者曾在該期刊中發表過論文。我們認為這種情況也是古德哈特定律的結果。研究者追求的是高影響因子,因此這些頂級期刊每年的投稿數量大大增加。大量的論文投稿使這些期刊的編輯們不堪重負,因此他們可能秉持安全而非冒險的審稿原則,僅選擇那些知名且經驗豐富研究者的投稿論文。
使用基於引用量的方式來「區分科學家」就像比較蘋果和橘子一樣。透過比較 2600 多個科學研究子領域的學術指標,我們可以觀察到不同領域的論文存在巨大差異。即使在同一領域內的論文也存在著廣泛的屬性,包括引用文獻的數量和引用中間值。這些結果表明,在比較不同領域的研究人員時,甚至在比較同一個子領域的研究人員時,使用引用數量、h-index 和影響因子等指標都是無用的。
第五,使用這些評價指標來比較學術研究實體會極大地影響資源分配,從而損害研究。例如,由於這些指標可以提升大學的世界排名,因此他們會選擇在電腦科學和生物領域投入更多,而不是經濟、心理學等引用量較少的學科。即使是在同一個系裡,選擇新教員的評判標準也會因為這些指標而變得有所偏差。電腦科學系會願意僱傭引用量更高領域的研究員,而不是那些致力於研究冷門方向的研究員。隨著時間的推移,這可能會導致高引用量研究領域的過熱,而忽視了其他同樣重要的領域。
我們應該重新考慮評價論文的方式了。基於被引用量的評判標準已經使用了數十年之久,而它遠非完美。事實上,基於有效引用數量的論文評判方式已經淪陷,它的實用性正在被人不斷質疑。古德哈特定律正在學術出版領域顯現。
相關論文:Over-optimization of academic publishing metrics: observing Goodhart’s Law in action
論文地址:https://academic.oup.com/gigascience/article/8/6/giz053/550490