機器學習免費跑分神器:整合各大資料集,連線GitHub就能用,還能驗證
栗子 魚羊 發自 凹非寺
量子位 報導 |
搞機器學習的小夥伴們,免不了要在各種資料集上,給AI模型跑分。
現在,Papers with Code (那個以論文搜程式碼的神器) 團隊,推出了自動跑分服務,名叫sotabench,以跑遍所有開源模型為己任。
有了它,不用上傳程式碼,只要連線GitHub專案,就有云端GPU幫你跑分;每次提交了新的commit,系統又會自動更新跑分。還有世界排行榜,可以觀察各路強手的成績。
除了支援各大主流資料集,還支援使用者上傳自己的資料集。
也可以看看,別人的論文結果,到底靠譜不靠譜。
比如說,fork一下Facebook的FixRes這個專案,配置一下評估檔案:
然後一鍵關聯,讓Sotabench的GPU跑一下ImageNet的影像分類測試。
就能得到這樣的結果:
Top-1準確率,Top-5準確率,跟論文的結果有何差距(見注),執行速度,全球排名,全部一目瞭然。
注:ε-REPR,結果與論文結果差距在0.3%以內時打勾,差距≥0.3%且比論文結果差顯示為紅叉,比論文結果好顯示為勾+
這個免費的跑分神器,釋出一天,便受到熱烈歡迎:推特點贊600+,Reddit熱度270+。
網友紛紛表示:這對開發者社群來說太有用了!
那麼,先來看一下sotabench的功能和用法吧。
用法簡單,海納百川
團隊說,sotabench就是Papers with Code的雙胞胎姐妹:
Papers with Code大家很熟悉了,它觀察的是論文報告的跑分。可以用來尋找高分模型對應的程式碼,是個造福人類的工具。
與之互補,sotabench觀察的是開源專案,程式碼實際執行的結果。可以測試自己的模型,也能驗證別家的模型,是不是真有論文說的那麼強。
它支援跟其他模型的對比,支援檢視速度和準確率的取捨情況。
那麼,sotabench怎麼用?簡單,只要兩步。
第一步,先在本地評估一下模型:
在GitHub專案的根目錄裡,建立一個sotabench.py檔案。裡面可以包含:載入、處理資料集和從中得出預測所需的邏輯。每提交一個commit,這個檔案都會執行。
然後,用個開源的基準測試庫來跑你的模型。
這個庫可以是sotabench-eval,這個庫不問框架,裡面有ImageNet等等資料集;也可以是torchbench,這是個PyTorch庫,和PyTorch資料集載入器搭配食用更簡單。
一旦成功跑起來,就可以進入下一步。
第二步,連線GitHub專案,sotabench會幫你跑:
點選這個按鈕,連到你的GitHub賬號,各種專案就顯現了。選擇你要測試的那個專案來連線。
連好之後,系統會自動測試你的master,然後記錄官方結果,一切都是跑在雲端GPU上。
測試環境是根據requirement.txt檔案設定的,所以要把這個檔案加進repo,讓系統捕捉到你用的依賴項。
從此,每當你提交一次commit,系統都會幫你重新跑分,來確保分數是最新的,也確保更新的模型依然再工作。
這樣一來,模型出了bug,也能及時知曉。
如果要跑別人家的模型,fork到自己那裡就好啦。
目前,sotabench已經支援了一些主流資料集:
列表還在持續更新中,團隊也在盛情邀請各路豪傑,一同充實benchmark大家庭。
既支援建立一個新的benchmark,也支援為現有benchmark新增新的實現。
你可以給sotabench-eval或torchbench專案提交PR,也可以直接建立新的Python包。
一旦準備就緒,就在sotabench官網的論壇上,釋出新話題,團隊會把你的benchmark加進去的:
好評如潮
這樣的一項服務推出,網友們紛紛點贊,好評如潮,推特點贊600+。
有網友表示:
太棒了!對剛入門的新手來說,資料集獲取、預處理和評估的自動化和標準化很有用。
透過分析不同模型及其超引數結果,來評估這些模型,本身是挺困難的一件事,你得在各種論文中查閱大量的非結構化資料。有了這個,這件事就輕鬆多了。(部分意譯)
許多網友對這個專案進行了友好的探討及建議,而開發人員也線上積極回應。
比如這位網友建議:能在每次提交的時候報告模型的超引數嗎?
作者很快回復說:英雄所見略同。下次更新就加上!
並且,他們還考慮在將來的更新中,讓使用者把連結新增到生成模型的訓練引數中。
傳送門
sotabench官網:
基準測試庫通用版:
基準測試庫PyTorch版:
— 完 —
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2370/viewspace-2823864/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 深度學習,機器學習神器,白嫖免費GPU深度學習機器學習GPU
- 機器學習之資料集的劃分機器學習
- 免費的大資料學習資料及學習路線、這一份就足夠了大資料
- 什麼是免費SSL證書?免費SSL證書能用嗎?
- 免費!資料科學及機器學習必備書單下載!資料科學機器學習
- 機器學習筆記——資料集分割機器學習筆記
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 機器學習-整合學習機器學習
- 「雜談」GitHub上最全的機器學習和深度學習資料Github機器學習深度學習
- 免費書:最新的《機器學習全面指南》機器學習
- 機器學習之沒有免費午餐定理機器學習
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 免費SSL證書到底能不能用呢
- 遠端伺服器連線(金鑰驗證,跳板機)伺服器
- 機器學習-整合學習LightGBM機器學習
- 祕籍 | 機器學習資料集網址大全機器學習
- spring boot整合cassandra 連線帶安全驗證的方式Spring Boot
- 10門必看的機器學習免費課程機器學習
- 吳恩達【機器學習】免費學習+打卡,只要你堅持吳恩達機器學習
- 機器學習中的有標註資料集和無標註資料集機器學習
- 學習資料科學的五大免費資源資料科學
- SSL證書需要花錢買嗎?免費SSL證書不能用?
- 機器學習高質量資料集大合輯機器學習
- 使用 .NET 5 體驗大資料和機器學習大資料機器學習
- 機器學習基礎——整合學習1機器學習
- 【機器學習】整合學習——Bagging與隨機森林機器學習隨機森林
- 機器學習實戰原始碼和資料集下載機器學習原始碼
- 訓練機器學習的資料集大小很重要 - svpino機器學習
- 機器學習-資料清洗機器學習
- 機器學習 大資料機器學習大資料
- 關於學習Web前端所需要的學習資料(免費送)Web前端
- 12 月機器學習新書:《可解釋機器學習方法的侷限》,免費下載!機器學習新書
- 如何用機器學習在15分鐘內破解網站驗證碼系統?機器學習網站
- 資料庫學習(四)連線查詢資料庫
- 深度學習(一)之MNIST資料集分類深度學習
- Python核心資料:Django+Scrapy+Hadoop+資料探勘+機器學習+Python精選視訊(限時福利免費領)PythonDjangoHadoop機器學習