死磕論文前,不如先找齊一套好用的工具

機器之心發表於2018-11-14

選自 Medium,作者:Eddie Smolyansky,機器之心編譯,參與:劉曉坤、王淑婷。

還在機器學習論文的海洋裡忘我沉淪?先花幾分鐘學些新工具,不虧,論文閱讀、評論、社交、管理、搜尋、復現、寫作全不誤。

作為像深度學習這樣高產領域的研究人員,我們經常會發現自己被論文的汪洋所淹沒。這些論文是如此之多,想全部讀完並跟蹤最新研究似乎很難很難。我覺得形成這種局面的一個重要原因是,我們沒有充分利用現有工具和服務來讓工作變得更加簡單。另一個原因是缺少能夠在一個介面下滿足我們所有需求的真正好產品,不過說到這個就得另寫一篇部落格了。

最近,我開始瞭解 ML 的一個子領域,對該子領域相關文獻的優先排序、閱讀和管理讓我感到非常沮喪……最後我選擇找些工具來幫忙處理這項任務,我想把這些好用的產品和服務分享給你們。希望能夠幫那些需要和科學論文打交道的人改善工作流程。

我主要關注的是論文閱讀和展示的問題(而非寫作):

  1. Reference Manager(也叫論文庫)

  2. 用社交平臺來分享知識

  3. 運用自動論文分析演算法來獲取額外的後設資料(關鍵詞、相關資料集、重要引用等)

Reference Manager(也叫論文庫)

你可以在這些平臺上建立和管理所有以前和未來的閱讀清單,新增個人筆記並和小組分享。這些庫會被同步到雲端,也就是說你在任何地方都能開啟論文。看書可以用 goodreads,不過看論文的話,最好從下列工具中選擇:

  1. Mendeley:這款產品雖然顏值不咋地,但它有免費的商業模式,支援 web、PC、Mac 和移動手機等多個平臺。除了一般的論文筆記,你還可以直接註釋和高亮顯示 PDF。它的雲端儲存是有限額的,超過幾百篇論文之後就得付費。

  2. Paperpile:它需要付費訂閱(沒有免費版本,可以用谷歌賬號免費試用 30 天),但看起來很潮,用起來也感覺不錯。你可以非常輕鬆地把論文庫從其它服務平臺上匯入到這款產品中。你還可以把庫同步到自己的谷歌雲,這算是它的一個優勢。目前它只能在谷歌瀏覽器上使用。

  3. Zotero:這是一個免費和開源的實現,你只需為超額的雲端儲存付費。類似 Mendeley,不過功能沒它多。

  • Mendeley:https://www.mendeley.com/

  • Paperpile:https://paperpile.com/

  • Zotero:https://www.zotero.org/

當然,你還有很多選擇,不過這幾個是我用過並且感覺還不錯的。如果讓我選的話我會選 Mendeley,因為它支援很多平臺而且還免費。

死磕論文前,不如先找齊一套好用的工具

Mendeley 的介面

死磕論文前,不如先找齊一套好用的工具

Zotero 的介面

arXiv 進化版

arXiv 於 1991 釋出,並在近十年內鮮有變化,儘管論文發表數大幅增長(到 2016 年 10 月提交論文數已經達到了每月超過 10000 篇)。當然,我們現在對論文資源庫提供的功能已經有很多新的需求。我們想要能執行論文分析的演算法,想找到實現論文結果的程式碼,希望有能共享資訊的社交平臺,我們還可能對雙列格式的 pdf 文件感到厭煩。

在網上搜尋現有解決辦法之後,我找到很多此類工具。


社交平臺

  1. Shortscience:這是一個能共享論文概述的平臺,目前有超過 1000 篇論文概述,並仍在持續增長;

  2. OpenReview:這是一個能提供公開論文評審過程的平臺,所有提交的論文會公開作者姓名等資訊,同時接受同行的評價及提問,可以匿名或實名地對論文進行評價。公開評審結束後,論文作者也能夠調整和修改論文。Openreview 目前僅對特定學術會議提供評審功能,例如 ICLR,並且由於受到廣泛質疑,ICLR 在 Openreview 上的評審也被改成了雙盲評審。除了官方評審之外,近期很多論文的評論區也能看到讀者和作者之間的積極交流。

  3. Scirate:能看到熱度較高的 arXiv 論文,並按學科分門別類,還能瀏覽相關論文的評論。但其熱度排序基於該網站內的點贊數,而這個網站的活躍度並不高。

  • Shortscience:http://www.shortscience.org/

  • OpenReview:https://openreview.net/

  • Scirate:https://scirate.com/

死磕論文前,不如先找齊一套好用的工具

Shortscience 的論文概述示例

Openreview 上的 ICLR 2019 論文及評審示例

找到論文的程式碼實現

  1. Papers With Code:自動把論文連線到實現程式碼的 GitHub 資源庫和資料集,並根據 GitHub 的收藏量排序。每篇論文可能有多個合併的條目。

  2. Github pwc:以相當簡潔的列表關聯論文和程式碼實現,包含最新的 NIPS 論文。

  3. GitXiv:每個專案可以方便地展示為 arXiv+GitHub+連結+討論,可惜的是這個專案不再維護了。

  • Papers With Code:https://paperswithcode.com/

  • Github pwc:https://github.com/zziz/pwc

  • GitXiv:http://www.gitxiv.com/

死磕論文前,不如先找齊一套好用的工具

Papers With Code 介面。

死磕論文前,不如先找齊一套好用的工具

GitHub pwc 頁面上的一些連結。

其它工具

  1. arXiv-sanity:相比於 arXiv 有很大的改進,包括在瀏覽中顯示摘要、評論和非常基本的社交、庫功能。這個整合了很多便捷功能的網站,是 Andrej Karpathy 在空閒時開發的。

  2. arXiv-vanity:可以將來自 arXiv 的論文渲染成響應式網頁,從而讓人們不用再看 pdf 文件。

  • arXiv-sanity:http://arxiv-sanity.com/

  • arXiv-vanity:http://arxiv-vanity/

死磕論文前,不如先找齊一套好用的工具

arXiv-sanity 介面

死磕論文前,不如先找齊一套好用的工具

死磕論文前,不如先找齊一套好用的工具

arXiv-vanity 轉換論文示例

論文搜尋和分析

  1. Google scholar:如今搜尋論文的首選,可以在這裡檢視論文統計和引用參考文獻,還能通過關注作者或者論文獲得新論文更新提醒,以及利用自動化推薦來提供一個基本庫。

  2. Semantic scholar:可以結合外部材料整合進行論文的語義分析。功能包括:展示引用和參考文獻、度量論文影響力、展示論文圖表、自動生成關鍵詞(根據標題)、分析作者、在網際網路尋找額外資源(例如,相關 youtube 視訊),以及推薦論文。

  • Google scholar:https://scholar.google.co.il/

  • Semantic scholar:https://www.semanticscholar.org/

  • Semantic Scholar: author profile page

死磕論文前,不如先找齊一套好用的工具


Semantic Scholar:作者簡介介面

適用於作者的工具

  1. Overleaf:支援多人協作的線上 LaTeX 編輯器,好比用谷歌文件寫論文,很好實現。

  2. Authorea:一種支援多人協作線上撰寫論文的方法,旨在減少 LaTeX 的使用,支援現代 WYSIWYG 編輯器。支援內聯程式碼和資料,促進可復現性,支援內聯公共評論和其它合理功能。

  3. Code ocean:基於雲端計算的再現性平臺。我的理解是你將自己的研究作為 Jupyter 環境程式碼上傳,然後線上執行,並復現作者曾取得的相同圖表/輸出。

  • Overleaf:https://www.overleaf.com/

  • Authorea:https://www.authorea.com/

  • Code ocean:https://codeocean.com/

[如果你覺得前文太長,可以選擇……不看]

我的建議

  • 管理閱讀庫:Mendeley

  • 閱讀和寫論文評論:shortscience 和 openreview

  • 將論文和 GitHub 資源庫匹配:paperswithcode 和 pwc

  • 論文和作者分析:Semantic scholar

  • 寫論文:Overleaf

順便提一下,谷歌最近釋出的 Dataset Search 也是搜尋資料集的神器哦。

最後,希望這篇部落格裡推薦的服務平臺中至少有一個能讓你改善工作流程。嘻嘻~

死磕論文前,不如先找齊一套好用的工具

arXiv 上不同主題的提交量,資料來自其統計頁面。

原文地址:towardsdatascience.com/finding-and…



相關文章