作為像深度學習這樣高產領域的研究人員,我們經常會發現自己被論文的汪洋所淹沒。這些論文是如此之多,想全部讀完並跟蹤最新研究似乎很難很難。我覺得形成這種局面的一個重要原因是,我們沒有充分利用現有工具和服務來讓工作變得更加簡單。另一個原因是缺少能夠在一個介面下滿足我們所有需求的真正好產品,不過說到這個就得另寫一篇部落格了。
最近,我開始瞭解 ML 的一個子領域,對該子領域相關文獻的優先排序、閱讀和管理讓我感到非常沮喪……最後我選擇找些工具來幫忙處理這項任務,我想把這些好用的產品和服務分享給你們。希望能夠幫那些需要和科學論文打交道的人改善工作流程。
我主要關注的是論文閱讀和展示的問題(而非寫作):
Reference Manager(也叫論文庫)
用社交平臺來分享知識
運用自動論文分析演算法來獲取額外的後設資料(關鍵詞、相關資料集、重要引用等)
Reference Manager(也叫論文庫)
你可以在這些平臺上建立和管理所有以前和未來的閱讀清單,新增個人筆記並和小組分享。這些庫會被同步到雲端,也就是說你在任何地方都能開啟論文。看書可以用 goodreads,不過看論文的話,最好從下列工具中選擇:
Mendeley:這款產品雖然顏值不咋地,但它有免費的商業模式,支援 web、PC、Mac 和移動手機等多個平臺。除了一般的論文筆記,你還可以直接註釋和高亮顯示 PDF。它的雲端儲存是有限額的,超過幾百篇論文之後就得付費。
Paperpile:它需要付費訂閱(沒有免費版本,可以用谷歌賬號免費試用 30 天),但看起來很潮,用起來也感覺不錯。你可以非常輕鬆地把論文庫從其它服務平臺上匯入到這款產品中。你還可以把庫同步到自己的谷歌雲,這算是它的一個優勢。目前它只能在谷歌瀏覽器上使用。
Zotero:這是一個免費和開源的實現,你只需為超額的雲端儲存付費。類似 Mendeley,不過功能沒它多。
Mendeley:https://www.mendeley.com/
Paperpile:https://paperpile.com/
Zotero:https://www.zotero.org/
當然,你還有很多選擇,不過這幾個是我用過並且感覺還不錯的。如果讓我選的話我會選 Mendeley,因為它支援很多平臺而且還免費。
Mendeley 的介面
Zotero 的介面
arXiv 進化版
arXiv 於 1991 釋出,並在近十年內鮮有變化,儘管論文發表數大幅增長(到 2016 年 10 月提交論文數已經達到了每月超過 10000 篇)。當然,我們現在對論文資源庫提供的功能已經有很多新的需求。我們想要能執行論文分析的演算法,想找到實現論文結果的程式碼,希望有能共享資訊的社交平臺,我們還可能對雙列格式的 pdf 文件感到厭煩。
在網上搜尋現有解決辦法之後,我找到很多此類工具。
社交平臺
Shortscience:這是一個能共享論文概述的平臺,目前有超過 1000 篇論文概述,並仍在持續增長;
OpenReview:這是一個能提供公開論文評審過程的平臺,所有提交的論文會公開作者姓名等資訊,同時接受同行的評價及提問,可以匿名或實名地對論文進行評價。公開評審結束後,論文作者也能夠調整和修改論文。Openreview 目前僅對特定學術會議提供評審功能,例如 ICLR,並且由於受到廣泛質疑,ICLR 在 Openreview 上的評審也被改成了雙盲評審。除了官方評審之外,近期很多論文的評論區也能看到讀者和作者之間的積極交流。
Scirate:能看到熱度較高的 arXiv 論文,並按學科分門別類,還能瀏覽相關論文的評論。但其熱度排序基於該網站內的點贊數,而這個網站的活躍度並不高。
Shortscience:http://www.shortscience.org/
OpenReview:https://openreview.net/
Scirate:https://scirate.com/
Shortscience 的論文概述示例
Openreview 上的 ICLR 2019 論文及評審示例
找到論文的程式碼實現
Papers With Code:自動把論文連線到實現程式碼的 GitHub 資源庫和資料集,並根據 GitHub 的收藏量排序。每篇論文可能有多個合併的條目。
Github pwc:以相當簡潔的列表關聯論文和程式碼實現,包含最新的 NIPS 論文。
GitXiv:每個專案可以方便地展示為 arXiv+GitHub+連結+討論,可惜的是這個專案不再維護了。
Papers With Code:https://paperswithcode.com/
Github pwc:https://github.com/zziz/pwc
GitXiv:http://www.gitxiv.com/
Papers Wih Code 介面。
GitHub pwc 頁面上的一些連結。
其它工具
arXiv-sanity:相比於 arXiv 有很大的改進,包括在瀏覽中顯示摘要、評論和非常基本的社交、庫功能。這個整合了很多便捷功能的網站,是 Andrej Karpathy 在空閒時開發的。
arXiv-vanity:可以將來自 arXiv 的論文渲染成響應式網頁,從而讓人們不用再看 pdf 文件。
arXiv-sanity:http://arxiv-sanity.com/
arXiv-vanity:http://arxiv-vanity/
arXiv-sanity 介面
arXiv-vanity 轉換論文示例
論文搜尋和分析
Google scholar:如今搜尋論文的首選,可以在這裡檢視論文統計和引用參考文獻,還能透過關注作者或者論文獲得新論文更新提醒,以及利用自動化推薦來提供一個基本庫。
Semantic scholar:可以結合外部材料整合進行論文的語義分析。功能包括:展示引用和參考文獻、度量論文影響力、展示論文圖表、自動生成關鍵詞(根據標題)、分析作者、在網際網路尋找額外資源(例如,相關 youtube 影片),以及推薦論文。
Google scholar:https://scholar.google.co.il/
Semantic scholar:https://www.semanticscholar.org/
Semantic Scholar: author profile page
Semantic Scholar:作者簡介介面
適用於作者的工具
Overleaf:支援多人協作的線上 LaTeX 編輯器,好比用谷歌文件寫論文,很好實現。
Authorea:一種支援多人協作線上撰寫論文的方法,旨在減少 LaTeX 的使用,支援現代 WYSIWYG 編輯器。支援內聯程式碼和資料,促進可復現性,支援內聯公共評論和其它合理功能。
Code ocean:基於雲端計算的再現性平臺。我的理解是你將自己的研究作為 Jupyter 環境程式碼上傳,然後線上執行,並復現作者曾取得的相同圖表/輸出。
Overleaf:https://www.overleaf.com/
Authorea:https://www.authorea.com/
Code ocean:https://codeocean.com/
[如果你覺得前文太長,可以選擇……不看]
我的建議
管理閱讀庫:Mendeley
閱讀和寫論文評論:shortscience 和 openreview
將論文和 GitHub 資源庫匹配:paperswithcode 和 pwc
論文和作者分析:Semantic scholar
寫論文:Overleaf
順便提一下,谷歌最近釋出的 Dataset Search 也是搜尋資料集的神器哦。
最後,希望這篇部落格裡推薦的服務平臺中至少有一個能讓你改善工作流程。嘻嘻~
arXiv 上不同主題的提交量,資料來自其統計頁面。
原文地址:https://towardsdatascience.com/finding-and-managing-research-papers-a-survey-of-tools-and-products-9151810d1b4d
死磕論文前,不如先找齊一套好用的工具
還在機器學習論文的海洋裡忘我沉淪?先花幾分鐘學些新工具,不虧,論文閱讀、評論、社交、管理、搜尋、復現、寫作全不誤。
相關文章
- 死磕 Elasticsearch 方法論Elasticsearch
- 死磕Synchronized底層實現--概論synchronized
- 死磕Synchronized底層實現–概論synchronized
- 死磕Java——volatile的理解Java
- 死磕Java——ReentrantLockJavaReentrantLock
- 死磕阻塞佇列佇列
- 騰訊死磕SLG!
- 死磕The Swift Programming Language——學Swift
- 死磕Spring之IoC篇 - Bean 的“前身”SpringBean
- 死磕synchronized底層實現synchronized
- 騰訊雲死磕政務雲?
- 【死磕NIO】— NIO基礎詳解
- 死磕 java魔法類之Unsafe解析Java
- 死磕 java集合之終結篇Java
- 死磕JavaScript-垃圾收集機制JavaScript
- 死磕Spring原始碼-依賴注入Spring原始碼依賴注入
- 論文多到讀不完?不如看看我們為你精選的這 15 篇
- 死磕Spring之IoC篇 - Bean 的建立過程SpringBean
- 死磕Tomcat系列(1)——整體架構Tomcat架構
- 死磕 java集合之LinkedList原始碼分析Java原始碼
- 死磕 java集合之ConcurrentLinkedQueue原始碼分析Java原始碼
- 死磕 java集合之PriorityQueue原始碼分析Java原始碼
- 死磕以太坊原始碼分析之state原始碼
- 死磕以太坊原始碼分析之txpool原始碼
- 死磕 java集合之TreeSet原始碼分析Java原始碼
- 死磕 java集合之WeakHashMap原始碼分析JavaHashMap原始碼
- 死磕Synchronized底層實現–偏向鎖synchronized
- 死磕 java集合之ArrayList原始碼分析Java原始碼
- 死磕 java集合之HashMap原始碼分析JavaHashMap原始碼
- 死磕 java集合之CopyOnWriteArrayList原始碼分析Java原始碼
- 死磕 java集合之LinkedHashMap原始碼分析JavaHashMap原始碼
- 死磕演算法之氣泡排序演算法排序
- 死磕演算法之插入排序演算法排序
- 無法復現的“慢”SQL《死磕MySQL系列 八》MySql
- 聊聊MySQL的加鎖規則《死磕MySQL系列 十五》MySql
- 死磕Spring之IoC篇 - 開啟 Bean 的載入SpringBean
- 死磕Spring之IoC篇 - 除錯環境的搭建Spring除錯
- MySQL強人“鎖”難《死磕MySQL系列 三》MySql