一項針對預印本伺服器(arXiv)上數十萬研究的新分析,提供了有關科學剽竊的影響和地理分佈的有趣資訊。在一些國家,從其他論文上覆制文字更普遍,但這些存在大量抄襲行為的作者幾乎面對同樣的結果:他們論文的引用率不高。

1418687399e337aa701edabfa6

自1991年啟動以來,arXiv成為物理、數學等領域成果的世界最大“集散地”。每個人都能在這裡發表論文,並且不需要完整的同行評議。但論文需要接受質量控制程式。一個計算機程式會對論文進行最終檢查:將該論文的文字內容與其他發表在arXiv上的論文進行比較。目標是標記可能存在較高剽竊風險的論文。

“文字重疊”是技術用語,有時它也能證明論文是“清白的”。例如,一篇綜述文章可能引用大量內容,或作者會再利用和略微修改之前文章的語句。arXiv剽竊監測系統會讓這類論文通過。“這是一個非常智慧的機器。”美國康奈爾大學物理學家、arXiv創始人Paul Ginsparg說,“它有特殊的方法檢測大塊引用、斜體字文字、引號內容以及數學定理陳述,以避免出現主動錯誤資訊。”

Ginsparg和該校物理學博士生Daniel Citron比較了1991~2012年提交給arXiv 的75.7萬篇文章。結果發現,一篇論文引用的已發表內容越多,其被引用率就可能越低。他們還注意到,“文字再使用”驚人地普遍。過濾掉綜述文章和合理引用後,每16位arXiv作者中,就有1位存在大段抄襲其已發表文章的行為。更令人擔憂的是,每1000位作者中就有1人從其他論文中抄襲了近1段文字,但沒有標註出處。

另外,作者在向arXiv提交論文時,會註明自己的居住國。因此這將揭示哪些國家剽竊率最高。不過,Ginsparg表示,其研究中的文字重疊並不一定是剽竊。資料顯示,來自美國、加拿大以及歐洲和亞洲少數工業化國家的研究人員提交的論文佔arXiv論文的最大份額,而且剽竊率也更低。例如,有20%的保加利亞作者被標記(38/186),這是紐西蘭(5/207)的8倍多。日本約為6% (269 / 4759),而伊朗超過15%。

自 生物360