15大領域、127個任務,這裡有最全的機器學習SOTA模型

機器之心發表於2019-09-27

想象一下,你是一位從事機器學習的研究者,需要持續瞭解最前沿研究進展;或者你希望將最前沿的機器學習研究應用於自己從事的領域。為此,當你在浩瀚無邊的論文海洋中暢遊時,你最需要的找到的是 SOTA 論文。

SOTA,全稱「state-of-the-art」,用於描述機器學習中取得某個任務上當前最優效果的模型。例如在影像分類任務上,某個模型在常用的資料集(如 ImageNet)上取得了當前最優的效能表現,我們就可以說這個模型達到了 SOTA。

那麼,怎樣才能高效找到 SOTA 論文呢?遺憾的是,經過多年的發展,現在依然沒有一個平臺能夠完整地彙總、整理、歸檔所有 SOTA 論文。在全世界最著名的論文預印發布平臺 arXiv 上,搜尋 SOTA 的結果也非常雜亂無章。此外,即使有類似於 GLEU leaderboard 之類的網站可以看到一些 SOTA 模型,但也只是機器學習龐雜體系下的一小部分。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

在 arXiv 上搜尋 state-of-the-art 時,返回的結果會很多,但仍然不夠系統。想要知道達到了 SOTA 的論文是關於什麼任務、使用了什麼資料,需要點進去一一檢視。

機器之心作為專業的人工智慧資訊平臺,有著多年的學術資源積累。經過對大量資料的分類與彙總,機器之心再次上線新產品:SOTA模型。你可以根據自己的需要尋找機器學習對應領域和任務下的 SOTA 論文,平臺會提供論文、模型、資料集和 benchmark 的相關資訊。

訪問地址:www.jiqizhixin.com/sota 

前沿研究觸手可及

在「SOTA模型」首頁,你可以直接搜尋技術任務,系統會立刻返回任務定義、取得 SOTA 的模型名稱、研究中最常用的模型和最熱門的資料集。

如果你繼續向下瀏覽網頁,就可以看到此技術任務下所有使用過的資料集和模型,並且可以按照資料或模型的型別進行篩選。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

想知道歷史 SOTA?完整榜單送給你

當然,這還遠遠不夠。SOTA 是隨著時間變化的,如果我們想要看到歷史上取得過 SOTA 的模型和論文呢?

再往下拉頁面,就可以看到歷史上在該任務上取得過 SOTA 的榜單了。

你也可以點選「資料集」、「模型」或「Metrics」進行排序。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

如果你對某個研究感興趣,可以展開詳情,檢視研究的出處論文。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

某個 SOTA 研究的詳細資訊。可以點選「檢視詳情」閱讀論文

這樣一來,「SOTA模型」如同一個強大的論文搜尋引擎,為你直接尋找機器學習中各種各樣的 SOTA 研究。它不僅僅會告訴你是什麼研究,還會提供研究使用的資料集、模型、取得的 SOTA 指標數值,以及什麼時候取得的 SOTA 結果。

全面系統的知識點歸檔

當然,你可能是一位剛剛入門機器學習的初學者,對於機器學習中的各項任務不太清楚。這時候,「SOTA模型」會是你很好的入門學習夥伴。如下圖所示,「SOTA模型」首頁會提供各個機器學習子領域的入口。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

以「計算機視覺」為例,你可以點選這一子領域,「SOTA模型」會提供這一領域的定義,並提供這一領域所涉及的基礎概念和技術方法。你可以根據需要選擇檢視。

而在這一頁的下方,「SOTA模型」提供了這一領域所有涉及到的任務。如邊緣檢測、人臉識別等。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

這時候,你就可以知道是否有自己需要了解的機器學習任務了。你可以點開其中的任務檢視。對於一些非常火熱或成熟的研究領域,「SOTA模型」還提供了相關的活動、會議和期刊。

15大領域、127個任務,這裡有最全的機器學習SOTA模型

人臉識別」任務下,提供了相關會議和期刊的資訊

海量知識庫加持的模型庫

能夠提供如此豐富的 SOTA 論文資訊,得益於機器之心背後強大的資訊平臺支援。在前幾個月,機器之心已上線了機器之心Pro,一個為企業、學者等各方提供專業人工智慧資訊服務的平臺。在 Pro 平臺上匯聚了海量機器學習相關資訊,為「SOTA模型」提供資料加持,使得「SOTA模型」能夠更進一步,提供最為前沿的研究領域 SOTA 資訊和系統的機器學習知識。

目前「SOTA模型」中已涵蓋 15 個機器學習領域大類,共計 127 個機器學習任務,共收錄 SOTA 論文 1174 篇,歸檔模型 2031 個,有記錄的資料集總數為 561 個。我們也將持續更新資料。

能夠囊括如此之多的資訊,離不開機器之心在機器學習領域的投入研究。為了提供 SOTA 論文的資料,「SOTA模型」投入了多資料來源的自動化爬蟲和資料清理工具,使用了機器學習和自動化工具,對特定型別的資料進行結構化處理、資料校驗和去重工作。在論文資料方面,使用了論文文字資料分析和資訊提取相關技術。

論文爆炸時代,更需要為讀者提供精準服務

每年,機器學習領域都會有大量的投稿論文,例如 2019 年的 CVPR 大會投稿數量就超過了 5000 篇,是 2018 年投稿數的兩倍。泥沙俱下的研究,增加了業內人士篩選優秀論文的成本。「SOTA 模型」產品的上線,標誌著機器之心資訊服務進入了新的階段。

接下來,「SOTA 模型」將會進一步完善內容,增加更多、更為清晰和完善的資料。如果在現有的版本中沒能找到自己想要的資料,稍安勿躁,我們近期也將會新增近一倍的資料。假期歸來,想要了解某個技術領域或者做專案需要查詢資源時,你就能用到。

同時我們也會提供更多的分析專案,並努力和機器之心現有的知識庫、新聞庫等模組關聯。產品也會根據使用者的需求提供更為精準完善的資料分類和推薦、資料對比和視覺化功能。

如果您在使用「SOTA 模型」過程中,有任何反饋,可以發郵件至sota@jiqizhixin.com溝通交流(請備註「SOTA模型反饋」)。

相關文章