如果你非常確定自己想要找什麼,比如知道論文的名字(演算法的名字)或者作者的名字,直接去Google Scholar上搜尋是最快的。然而如果你並不是很確定自己想要什麼,只是想要看看某個領域的最新發展,知道大家都在幹什麼,然而卻發現Google Scholar給你的結果多半不靠譜,請讀下去。
引子
最近半年,在我身上時常發生下面這類對話:
“Hey, 你知道XXXXXXXXXXXXX問題怎麼解決嗎?”
“哦,我剛好讀過兩篇相關的論文,等下發給你。”
……
尷尬的沉默,一般來說拿到文章之後對方就再也不會來找我了,雖然我是真心的想要交流,然而有一些好學的孩子會接著問:
“你的論文是哪裡找到的呢?”
鑑於論文背景不同,我會丟一個連結過去——這個連結(網站)在大部分數學/物理/計算機/統計領域裡面,都是https://arxiv.org/。
Arxiv是什麼
arxiv設計的初衷是一群物理學家們想要交流自己將要發表的論文,可以想象一下,在上世紀九十年代,人們用的還是軟盤(包括5.25吋軟盤和3.5寸什麼的,儲存空間可以說以KB計算),郵箱也不例外,投稿高峰期分分鐘幾百個KB的郵箱就會被文章塞滿。Paul Ginsparg一看這不行,論文如果想要很好的被分享並稽核,大約是需要集中儲存的,就在1991年於LANL(http://www.lanl.gov/ 洛斯阿拉莫斯國家實驗室)建立了arxiv的雛形,如下圖所示。
當時有個萌萌的域名:http://xxx.lanl.gov/ ,到現在也可以被訪問。不過由於LANL作為一個嚴謹的科學實驗室實在是懶得運營這個網站,後來就被康奈爾大學接管支援。
然而,今天當我們談到arxiv,就不能不說Open Access【開放獲取】。 我們都知道,以前看文章是要錢的,直到今天,看大部分的文章也是要錢的。如下圖所示,看一篇Nature一般要20美元,摺合100多人民幣。
這個價格吧,說貴不貴說便宜不便宜,在大部分有錢公司和牛逼學校買個site license或者報個銷都是不成問題的,但是對那些有科研興趣的個人或者是那些落後地區的學校,就很成問題了。像馬拉維啊中非啊這種國家,到2016年,官方資料中人均GDP才400美刀(大約20篇文章),你讓人家怎麼玩嘛。難道要讓知識像財富一樣集中在少數人手裡麼?
就好像我們一直希望網際網路擁有中立性(電信運營商、有線電視公司等網際網路服務提供商應當平等地對待所有通過他們網路的流量,網路服務提供商有區別地對待不同的流量可能會使大公司能夠限制消費者的自由)一樣,我們並不希望因為錢而阻擋了知識的傳播。 所以,我們有了布達佩斯宣言:
There are many degrees and kinds of wider and easier access to this literature. By ‘open access’ to this literature, we mean its free availability on the public internet, permitting any users to read, download, copy, distribute, print, search, or link to the full texts of these articles, crawl them for indexing, pass them as data to software, or use them for any other lawful purpose, without financial, legal, or technical barriers other than those inseparable from gaining access to the internet itself. The only constraint on reproduction and distribution, and the only role for copyright in this domain, should be to give authors control over the integrity of their work and the right to be properly acknowledged and cited.
作為開放獲取的先驅者,我們要為arxiv——這一開放獲取的先驅鼓掌!為我們帶來的好處就是,免費!免費!免費!
基於我的個人訪問經驗,大家如果想知道都有哪些雜誌或者期刊提供免費的資源,可以參考這個列表:https://en.wikipedia.org/wiki/List_of_open_access_journals 圖中是“數學”類目下提供開放獲取的期刊。
實在找不到免費文章咋辦?
我一般會直接發郵件問作者要,順便聊聊自己的研究領域以及跟這篇文章相關的幾個最新問題,成功率還是蠻高的,還可能交到好朋友。
說到Arxiv還有一樣不能不說的就是LaTex——個人認為最美的文字編輯器(或者語言?),只是從學術圈兒跳出來之後發現大家好像都懶得用,在此由於篇幅所限,不再贅述。
Arxiv有什麼
由於各種歷史原因,Arxiv中文獻的主要研究領域還是數理哲學,包括數學/物理/計算機/統計/天文/定量生物/定量金融等領域。截止到2016年的發表量統計可以參考下面這張圖。
左圖中是每年新提交的文章數目,右圖是每年的發表量所佔百分比(總和為1), “hep-“代表高能物理學,(hep-th+hep-ph+hep-lat+hep-ex), “cond-mat” 代表凝聚態物理學, “astro-ph” = 天體物理學, “math” 代表數學, “other physics” 表示物理學的其他領域( physics+nucl+gr-qc+quant-ph+nlin) “biology” 指的是量化生物學,“finance” 指的是量化金融,“cs”指的是電腦科學。
我們可以看到,在2002年之前,電腦科學領域的佔比幾乎可以忽略不計,然而到2016年已然佔據了近五分之一,並且還在以極快的速度增長。而1992至1996年間佔據了大半江山的高能物理學,到了今天地盤幾乎被蠶食殆盡,只剩約10%的份額苟延殘喘。滄海桑田,可見一斑。
還有論文發表總量如下圖:
(資訊來自:https://arxiv.org/help/stats/2016_by_area/index )
從圖中,我們可以清楚的發現三個事情:
- 所有論文發表量都在時間軸上爆發式的增長,在上面這張歷史發表總量圖中體現的尤為明顯;
- 數學一家獨大,不管是在年度發表量還是歷史發表總量上;
- 計算機(cs)在歷史發表總量中只佔了8.3%,然而2016年的提交量佔了18.3%,結合提交數量圖的分析,真是長勢喜人、值得期待。
- 每個月近10000篇文章提交(正式接受的會少一些,如果精準到感興趣的垂直領域會更少)。
那麼,不想只關心數理領域的咋辦?
很簡單,就好像任何市場一樣,arxiv火了之後大批人跟風,所以我們現在有了生物學版本arxiv https://www.biorxiv.org/,心理學版本arxiv https://psyarxiv.com/ ,等等等等。當然,知識的沉澱往往需要時間,這些垂直領域的“arxiv”們到目前為止還不是非常成熟,所以我仍然建議大家結合上文提到的Open Access列表裡的機構,去尋找想要的免費資源。
Arxiv怎麼用
就像我在本文開頭提到的那樣,這個引擎最大的效果是當你並不確定自己想要什麼的時候,去看看領域的最新發展,知道大家都在幹什麼。它最大的好處是值得信任。 當然,同樣值得信任的還有很多——雖然它們大部分都要錢,針對大多數期刊們,可以按照影響因子從大往小排個序(眾所周知,影響因子這個評定標準就像高考成績一樣非常片面,然而這也是目前最普遍的解決方案了),前文中提到的Nature系列和Science系列,都非常值得信任。不做贅言。
很高興的一點是,收費(還收的比較貴的)基本都是期刊,然而與其他領域尤其是生物學方向不太一樣,計算機方向最頂級的往往是會議而不是期刊,而會議往往是不收費的!這裡舉個例子,International Conference on Machine Learning 【ICML】,機器學習方面的頂級會議之一,其中所有的文章都可以在下面的連結裡找到。https://icml.cc/Conferences/2017/Schedule?type=Poster
太幸福了!——這個也是我最最最推薦大家找到值得讀的文章的辦法:盯著領域著名會議列表刷(雖然有個缺點,就是刷到啥算啥)。
但是,往往新入門的人往往沒有辦法靠關鍵字搜尋【看臉】來分辨哪個期刊哪個會議才是真正有價值的。每年的會議不知凡幾,我在wikiCFP上隨便搜了一下人工智慧,在接下來一年內僅僅這個垂直領域就有3130個會議。平心而論,有多少是真正有價值的呢?每個會議按照50篇paper來算,15萬篇paper,一個人類就是不吃不睡不工作全職看一年paper,能看幾篇?
當然,據個人經驗,關於計算機方向的會議排名,大家可以參考下面的連結 https://www.aminer.cn/ranks/conf ,我擷取了AI/PR (人工智慧/模式識別)領域排名靠前的一段,如下圖。有想看計算機視覺的可以參考裡面帶”vision”的,具體會議的分析和比較將另文分析,這裡不做贅言。
但是,如果不想這樣盯著列表一個一個會議慢慢看下來呢?如果就是想要找一下某個主題或者關鍵字呢?或者就是想要知道這個月出現了什麼新演算法呢?——會議可都是一年一次的。 這個時候,就是arxiv大放異彩的時候了。它給了我們一個更集中的搜尋平臺,而且相對來說更值得信任(反正比起來什麼都可以搜尋的Google Scholar,使用者要篩選的噪聲少了很多)。
沒有證據都是耍流氓? 請點開下面這個連結 https://arxiv.org/list/cs.LG/recent,這是對Machine Learning領域的一個搜尋。僅僅看這一頁簡介那些熟悉的作者名字,就知道大部分都不會讓你失望的。
儘管arxiv定位是preprint,但其中也囊括了各種已經被NIPS,AAAI等等行業頂級會議接受的文章。而且,所有這些,都有直接的pdf原文可以免費下載。搜尋和篩選成本都低到極致。同時,只需要點選感興趣的作者名字,所有他發表過的文章都會被列出來(如下圖中的Lei Shu),而完全不用擔心其他搜尋引擎中常常發生的同名同姓作者的麻煩——這一點相信搜尋過中文名拼音的都深有體會——張王李趙遍天下絕對不是說說的。
得資料庫如此,夫復何求?
作為對比,下面是我在Google Scholar同樣搜尋Machine Learning關鍵字得到的結果。大家可以自行體會時效性,相關度和質量。
當然,時效性這個可以通過點選左手邊的“Sort by date”來解決,然而點選了之後是這個樣子的:
——反正前面Springer家的都是要錢的,質量不提,單單是能下載的pdf也真的不常有。
更重要的是,google作為跨平臺老牌全網搜尋引擎,看到某個關鍵字的時候並不會針對特殊的領域進行搜尋,所以大批量主題無關的文章(不信的可以搜一下lenet,vgg這類,看看搜尋結果),就會干擾搜尋結果。
所以,當你要找的參考文獻屬於數理領域尤其是AI/ML/Stat相關,而Google Scholar又沒能給你滿意的結果(又或者很貴),就試試看arxiv吧!