無論是研究方向是 AI 方面的學生,或者是做機器學習方面的演算法工程師,在掌握基礎的機器學習相關知識後,都必須掌握搜尋論文的技能,特別是研究或者工作領域方向的最新論文,更進階一點的技能,就是可以復現論文的演算法,這是在論文作者沒有開原始碼的時候的一個解決辦法,但是在能夠掌握這項技能前,我們希望能夠搜尋到其他人復現的程式碼。
因此,今天我會推薦兩個相關的網站,並且都是同個團隊的成果,這個兩個網站,一個可以用於展示帶有程式碼實現的論文演算法,另一個給出了多個領域最新最好的演算法論文結果。
1. Papers with Code
首先給出這個網站的網址:
這是 Reddit 的一個使用者 rstoj 做的一個網站,將 ArXiv 上的最新機器學習論文與 Github 上的程式碼(TensorFlow/PyTorch/MXNet/等)對應起來。相比之前推薦的閱讀 ArXiv 的網站,這位使用者做出了滿足更多研究者的最大需求--尋找論文演算法實現的程式碼!
這個專案索引了大約 5 萬篇論文(最近 5 年釋出在 arxiv 上的論文)和 1 萬個 Github 庫。
你可以按標題關鍵詞查詢,或者研究領域關鍵詞,如影象分類、文字分類等搜尋,也可以按流行程度、最新論文以及 Github 上 Star 數量最多來排列。這個網站能讓你跟上機器學習社群流行的最新動態。
首先是看下這個網站大概長什麼樣的:
上圖給出的是按照流行程度來排列,對每篇論文給出了題目、作者、投稿的會議或者頂會,一些簡介,比如是否當前領域最先進演算法,標籤(即關鍵詞,論文研究的方向)和採用的程式碼框架(比如是 Pytorch 還是 TensorFlow 或者其他框架),論文和程式碼連結,還有當前 Github 的 Star 數量,以及每小時增加的 Star 數量。
如果是按照 Github Star 數量最多排列,如下圖所示:
可以看到最多 Star 數量前兩位都是 TensorFlow ,第三位是 Caffe 框架。
另外,如果我們在搜尋框輸入研究領域的關鍵詞,比如影象分類--Image Classification,搜尋結果如下所示:
它會展示當前包含該領域帶有論文的共 250 篇論文,然後是展示幾個資料集上效果最好的演算法和論文,以及開源專案(如果開源了),然後就是子領域--Subtasks,最後是該領域的有程式碼的論文,按照 Github 上 Star 數量來排列。
2. Browse state-of-the-art
同樣先給出網址:
這個網站主要是解決另一個問題--尋找一個領域目前最好的(State of the art, Sota)演算法的論文以及實現程式碼。這也是剛接觸到一個新領域時候,必須要做的事情,先找到最新最好的演算法論文,然後根據這篇論文的程式碼實現,先跑下程式碼,接著再去了解細節,或者是根據它的參考論文,來學習這個領域最近幾年的論文(一般是 3 年到 5 年內的),逐漸熟悉這個領域的研究方向和難點所在。
還是 Papers with Code 的團隊做出了一個可以查詢領域最新演算法的網站,它總共包含了 16 個大類,950+的單獨子類任務,500+個評估結果(包含 Sota 結果)、700+資料庫,8000+論文。如下圖所示:
16 個分類包括:
- 計算機視覺
- 自然語言處理
- 醫療
- 研究方法
- 雜類
- 語音
- 遊戲
- 圖(Graphs)
- 時間序列
- 音訊
- 機器人
- 音樂
- 推理
- 計算機編碼
- 知識庫
- 對抗性(Adversarial)
點選計算機視覺這個大類,可以看到具體又劃分了450+個子任務,如下圖所示:
這裡可以繼續點選進去每個子任務,比如影象分類,然後會得到如下圖所示:
上圖其實就是在剛剛介紹 Paper with Code 網站時候,介紹搜尋領域關鍵詞例子中的圖例了。
最後,再給出兩個網站的網址:
有了上述兩個網站幫助,相信可以幫助大家更好的去學習和熟悉研究領域方向的工作了!
歡迎關注我的微信公眾號--機器學習與計算機視覺,或者掃描下方的二維碼,大家一起交流,學習和進步!
往期精彩推薦
學習筆記
- 機器學習入門系列(1)--機器學習概覽
- 機器學習入門系列(2)--如何構建一個完整的機器學習專案(一)
- 機器學習資料集的獲取和測試集的構建方法
- [GAN學習系列] 初識GAN
- [GAN學習系列2] GAN的起源
- [GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(上)