吳恩達、Jeff Dean力薦機器學習新基準MLPerf，由谷歌、百度等聯手打造

策劃編輯 | Natalie

作者 | John Russell

譯者 | 核子可樂

AI 前線導讀：AI 基準測試大戰已經拉開帷幕。日前，來自學術界與技術業界的多個組織機構——包括谷歌、百度、英特爾、AMD、哈佛大學與史丹佛大學等——聯合釋出了新型基準測試工具 MLPerf。這款獲得 AI 技術大佬吳恩達和谷歌機器學習領頭羊 Jeff Dean 力薦的工具專門用於測量機器學習軟體與硬體的執行速度，它的到來代表著原本市場規模較為有限的 AI 效能比較方案正式踏上發展正軌。說人話就是：以後各大公司釋出的 AI 效能對比不能再王婆賣瓜自賣自誇了，你說 XX 資料集在自己的裝置上訓練比友商快 N 倍，或者自己的模型比現有的模型效能好 N 倍，光說都不算，先拿到 MLPerf 上測測看再說！

更多幹貨內容請關注微信公眾號“AI 前線”，（ID：ai-front）

上週，RiseML 部落格對谷歌 TPUv2 與英偉爾 V100 進行了比較。如今，英特爾公司釋出了另一篇博文，其中提到在利用 RNN 進行機器翻譯資料處理時，“英特爾 Xeon Scalable 處理器的 AWS Sockeye（https://github.com/awslabs/sockeye ）神經機器翻譯模型效能可達英偉達 V100 的 4 倍。”

很長一段時間以來，業界對 AI 基準測試需求的現實意義展開了激烈的探討與爭論。支持者們認為，基準測試工具的缺失嚴重限制了 AI 技術的實際應用。根據 AI 技術先驅吳恩達在 MLPerf 宣告中的說法，“AI 正在給各個行業帶來改變，但為了充分這項技術的真正潛力，我們仍然需要更快的硬體與軟體。”我們當然希望獲得更強大的資源平臺，而基準測試方案的標準化程式將幫助 AI 技術開發人員創造出此類產品，從而幫助採用者更明智地選擇適合需求的 AI 選項。

不止吳恩達，連谷歌機器學習大佬 Jeff Dean 也在推特上強烈推薦這款工具：

大意：谷歌很高興和史丹佛、伯克利、哈佛、百度、英特爾、AMD 等等企業一起，成為致力於將 MLPerf 作為衡量機器學習效能的通用標準的組織之一。

MLPerf 專案的主要目標包括：

通過公平且實用的衡量標準加快機器學習發展程式。
對各競爭系統進行公平比較，同時鼓勵創新以改善業界領先的機器學習技術。
保持基準測試的成本合理性，允許所有人蔘與其中。
為商業及研究社群提供服務。
提供可重複且可靠的測試結果。

對 AI 效能（包括 h/w 與 s/w 兩種方向）的比較此前一直由各既得利益方釋出，此次英特爾公司題為《利用英特爾至強 Scalable 處理器實現令人驚豔的推理效能》的博文正是最好的例子。這裡我們並不針對英特爾——但必須承認，此類比較雖然包含重要見解，但通常也會通過故意設計確保某一供應商的方案表現優於其競爭對手。因此，標準化基準測試的存在將徹底解決這種中立性缺失，從而提供公平且客觀的比較結果。

MLPerf 專案的定位參考了以往的類似方案，例如 SPEC（即標準效能評估集團）。MLPerf 專案宣告指出，“SPEC 基準測試的出現顯著推動了通用計算能力的改進。SPEC 由計算機公司聯盟於 1988 年推出，並在接下來的 15 年內實現了年均 1.6 倍的 CPU 效能提升。MLPerf 結合有原有基準測試領域的最佳實踐，包括 SPEC 使用的程式套件、SOR 使用的效能與創新性分別比較方法、DeepBench 的生產環境內軟體部署以及 DAWNBench 的時間精確性度量標準等等。”

Intersect360 Research 公司 CEO Addison Snell 指出，“AI 已經成為目前眾多企業不可忽視的技術力量，因此任何中立性質的基準指導結論都非常重要——特別是在挑選競爭性技術方案的場景之內。然而，AI 同時也是一類多元化領域，因此隨著時間的推移，任何基準都有可能發展成惟一的主導性選項。五年之前，大資料與分析技術鼓動了整個科技業界的熱情 ; 然而時至今日，這一領域仍未出現一種統一的通用基準。我認為 AI 領域可能也會發生同樣的情況。”

Hyperion Research 公司高階研究副總裁 Steve Conway 表示，MLPerf 代表著“積極且實用的”一步，“因為多年以來買賣雙方一直缺少必要的基準方案，用以證明不同 AI 產品與解決方案之間的差異。原有基準的存在僅僅是為了解決早期 AI 發展階段中的有界類實際問題。而隨著無界類 AI 問題數量的快速增加，我們顯然需要額外的基準工具對其進行評估，這一點在經濟層面極為重要。所謂有限問題通常比較簡單，例如語音與影像識別或遊戲 AI 等等。而無界類問題則包括診斷癌症與閱讀醫學影像內容等，其目標在於真正為複雜的問題提供建議與決策。”

MLPerf 目前已在 GitHub 上釋出，但仍處於早期開發階段。正如 MLPerf 宣告當中所強調，“目前的版本尚屬於‘前 apha’階段，因此在很多方面仍然有待改進。基準測試套件仍在開發與完善當中，請參閱以下建議部分以瞭解如何參與專案貢獻。根據使用者的反饋，我們預計 5 月底將會對專案進行一輪重大更新。”

目前，MLPerf 套件中的七項基準測試皆已提供參考實現方案（摘自 GitHub）：

影像分類– Resnet-50 v1，適用於 ImageNet。
物件檢測– Mask R-CNN，適用於 COCO。
語音識別– DeepSpeech2，適用於 Librispeech。
翻譯– Transformer，適用於 WMT English-German。
推薦– Neural Collaborative Filtering，適用於 MovieLens 20 Million (簡稱 ml-20m)。
情緒分析– Seq-CNN，適用於 IMDB 資料集。
強化– Mini-go，適用於預測遊戲行動。

每套參考實現皆提供以下內容：在至少一套框架當中實現模型的相關程式碼，一個可在容器內執行基準測試的 Dockerfile，一個用於下載對應資料集的指令碼，一個負責執行模型訓練並加以計時的指令碼，外加關於資料集、模型以及機器設定的說明文件。

根據 GitHub 頁面中的說明，此基準測試已經在以下裝置配置中完成驗證：

16 CPU，單個英偉達 P100。
Ubuntu 16.04，包括支援英偉達硬體的 Docker。
600 GB 磁碟（實際上，大多數基準測試並不需要這麼大的儲存容量）。

我們期待看到 AI 行業最終會迎來怎樣的基準測試前景——少數壟斷，還是百家爭鳴。在這樣一個年輕的市場當中，相信會有很多廠商提供基準測試工具與服務。史丹佛大學就是 MLPerf 專案成員，其最近剛剛釋出了首個 DAWNBench v1 深度學習測試結果。

史丹佛大學報告稱：“2018 年 4 月 20 日，第一個深度學習端到端基準測試與效能衡量競賽正式啟動，旨在記錄普通深度學習任務達到最高準確度水平所需的時間和成本，以及達到此最高推理準確度水平的延遲和成本。專注於端到端效能，意味著我們提供一種更為客觀的方法，可用於對不同計算框架、硬體、優化演算法、超引數設定以及影響實際效能的其它因素進行標準化比較。”

作為參賽選手之一，fast.ai——一家年輕的人工智慧訓練與人工智慧軟體工具開發公司——取得了出色的成績。這些基準結果非常重要，史丹佛大學也確實在以嚴肅的態度對待此輪競賽。但除此之外，目前我們顯然還需要更多與之類似的客觀、公平的比較平臺。在這方面，MLPerf 的出現應該能夠幫助我們早日突破困局，真正有理有據地選擇最適合實際需求的 AI 解決方案。

MLPerf 開源專案地址：

https://github.com/mlperf/reference

MLPerf 使用者指南連結:

https://mlperf.org/assets/static/media/MLPerf-User-Guide.pdf

原文連結：

https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/

吳恩達、Jeff Dean力薦機器學習新基準MLPerf，由谷歌、百度等聯手打造

相關文章