一枚晶片的趕考之路：究竟該如何看待“AI評測”？

naojiti發表於2019-01-07

原文網址 : http://blog.itpub.net/31561483/viewspace-2374948/

半導體產業發展了數十年，有一個詞從來沒有離開過，那就是“評測”。

對硬體處理能力的評測，想必今天大家都已經不陌生。“一言不合就跑分”據說是科技行業的慣例;而普通人買手機買電腦，也要先了解一下CPU多少分、GPU處理能力達到多少分之類的資料。

而在AI變得越發重要的今天，是不是也應該有對AI算力進行評測的方案呢?

這個問題值得認真思考一下。

無論是對谷歌、英偉達，還是高通、聯發科而言，今天的AI晶片和AI算力已經成為了CPU和GPU之後的“第三大計算版圖”，評測AI算力的意義是毫無疑問的。然而另一方面，AI面向的並不是單一的計算任務，而是若干種類計算任務、計算架構的集合，這也讓測試AI效能變得史無前例的棘手。

要知道，即使CPU評測這件在今天看起來並沒有難度的事，也是從90年代就開始啟動，由無數公司與產業組織共同努力，才最終完成了行業標準確立。

那麼AI評測這個陌生的東西，需要面對的技術規則挑戰可想而知。然而今天我們在手機晶片等領域，正在不斷看到越來越多的AI評測規則、評測報告出爐。結論往往混亂不堪，吃瓜群眾也搞不清楚這裡的門道到底在哪。

讓我們今天“打破砂鍋問到底”，來看看AI評測“到底是怎麼測的”。

手機晶片領域的AI算力評測，是一項爭議和複雜度遠超想象的工程。今天為數不少的AI評測報告，或許都欠缺一抹嚴肅與邏輯自洽能力。

都想當“江湖百曉生”：風起雲湧的AI晶片評測

看過《小李飛刀》系列的人都知道，排兵器譜的江湖百曉生雖然本身武力值不高，但江湖地位卓然不群。而今在AI高速前行的時代，給AI晶片排名這件“差事”，自然也是誘惑力十足。

在伺服器AI晶片領域，很多組織和機構都在醞釀算力評測方案。國內的中國人工智慧產業發展聯盟(AIIA)已經多次組織學界與產業界研討AI算力評測方案，並已有相關討論稿。而在海外，谷歌、英偉達等AI巨頭也在醞釀AI算力評測的相關章程，希望建立國際範圍內通行的AI晶片測試標準。

而在手機晶片領域，這兩年隨著麒麟970開始搭載獨立的NPU處理單元，之後蘋果在A11中開始跟進，在A12中搭載了具備相當算力的AI加速模組;今年驍龍855也採取了專用加速模組的架構，聯發科也講起了AI故事，手機晶片基本已經在AI方向上達成了共識。那麼如何來評價每一家的AI加速能力，自然成為了新的迫切需求。

目前，移動和電信都在組織自己的手機AI晶片評測報告。魯大師很早就推出過一個AI跑分規則，引發了很多爭議，而它的競品安兔兔也在醞釀AI領域的評測。在國外，蘇黎世理工ETH也釋出了SoC的AI效能評測方案AI Benchmark。

然而如果有朋友看過不同的端測AI評測報告，可能會發現這樣一個問題：各家評測結果出入很大，經常陷入“公說公有理”的狀態。

這背後的根本原因在於，AI加速並不是一個通用計算能力，而是面向不同任務、不同網路模型給出的差異化提速效果。甚至每款晶片能夠覆蓋的AI加速任務種類都有極大不同。舉個例子，短跑選手之間可以比賽排名，田徑隊和體操隊碰上了怎麼比呢?

十分為難的評測方，在今天這個缺乏統一標準的AI評測時代，基本只能採取一種辦法：不管那麼多，先測了再說。

於是，片面的標準和隨之而來的混亂，是AI評測這個行當的當前狀態。

“比武”也要講邏輯：不全面AI評測的隱憂

今天AI評測最大的問題，在於每家晶片廠商最開始做AI專項加速的時候，對這門複雜技術有著不同的理解。摸索期過去，當各自作品“登上舞臺”，評測機構可能會有點傻眼：這誰跟誰都不一樣，可怎麼測啊……

在AI沒有通用介面的前提下，各家SoC廠商可能會選擇各自的相容格式，不同的程式設計介面，以及不同的計算框架。甚至對於AI加速單元到底要為哪些AI任務加速，各家廠商的選擇都是不同的。

在這種情況下，如何將評測專案快速上馬?最簡單粗暴的邏輯，就是找一個大家都能做的來測一下。

魯大師的AI跑分之所以飽受質疑，原因就在於它只用了一個AI識圖的任務來測試不同的手機，然而AI識圖只是眾多應用中很小的一部分。甚至資料集和演算法的不同，也會讓AI識圖這件事產生相差懸殊的結果。這種單一任務決定分數高低的測試方法，有點像一張試卷只有一道選擇題——顯然是無法做到公允的。

即使評測機構想要把邏輯做的更復雜一點，在今天很可能依舊無法擺脫“折中主義”的評測思路。

比如說，不久之前釋出的《中國移動2018年智慧硬體質量報告》把驍龍855和麒麟980的AI效能進行了評測對比。然而我們如果看一下這個評測的邏輯，會發現依舊無法擺脫片面折中的尷尬現象。

由於驍龍晶片和麒麟晶片對於AI加速的理解有很大區別，兩款晶片加速的AI任務也有很大不同。於是在移動端的AI評測中，其邏輯是尋找兩款晶片都能做的AI任務，找到幾個典型演算法和典型場景，然後進行評測對比;評測標準是，在固定時間內，誰能完成更多的突破分類、圖片分割等運算任務，則誰更強。

然而這裡首先暴露出的一個問題就是，折中主義方案下依然可能帶來不公平。因為很多晶片產品真正擅長，能給消費者帶來體驗改進的演算法加速，可能是對方晶片模組中所不具備的能力，結果卻被評測方主動遮蔽了。

這有點像華山論劍中，強行要求東邪西毒南帝北丐分門別類進行比試。主辦方一琢磨，北丐會降龍十八掌，東邪會落英神掌，那公平起見你們就比掌法好了。然而北丐的掌法是看家本領，東邪的掌法只是十大神功之一，彈指神通玉簫劍法之類的，都被主辦方強行禁止了。

不全面的折中方案，其實恰好意味著不公平。然而這也是在倉促起事的AI評測中難以避免的。

更深層次的問題在於，折中主義方案其實是妥協於今天已經比較完善、容易得出分數對比的AI模型，比如影像分類等等。然而問題來了，端側AI必然是不斷髮展的，使用者對AI演算法的複雜度也在日益提升。當AI算力和應用不斷髮展，使用者不會只滿足於拍照識圖這種極簡單，並不需要強勁算力的AI應用。然而對複雜演算法的加速，也因為標準難以統一被今天的AI評測遮蔽了。

比如說，中移動的評測報告中提到了麒麟980對於浮點運算的加速能力更好。遊戲玩家可能更清楚浮點運算這一概念，在遊戲中任務的運動效果、打擊感、與自然環境的貼合度，都是由處理器對浮點型任務的支撐能力決定的。複雜網路和高精度的AI任務想要執行，往往需要強浮點計算能力的支援，而這一點的重要性，顯然在評測中並沒有體現出來，這也導致麒麟980比驍龍855的AI處理能力低了半星。顯然，這個結論很難具備說服力。

這裡引申出的一個問題就是，拋開精度談速率，其實是一種不靠譜的算力比較。這就像答題答得快並不意味著成績好。更快的識圖速度如果建立高錯誤率的基礎上，或者只能固定資料集快速識別，拿到現實生活中就識錯，那顯然也並不意味著AI算力足夠強大。

整體來看，今天快速上馬的AI評測，根本問題在於想要在缺乏行業通用標準的情況下自己搞一個標準。往往是針對於眼前能獲取到的、容易跑分的演算法，並且著眼於各家產品間的能力重疊部分，進行測試。

這套邏輯雖然夠快，但首先沒有看到各家產品的獨特性，也沒有看到未來大負載的複雜AI任務必將成為主流這一核心趨勢。

這種套路下得出的結論，顯然難以令人信服。

如何構建相對公允的AI評測方案?

討論了手機AI晶片評測中的種種不公平，那麼是不是有某種方式可以構建相對公允的AI評測機制呢?

說老實話，在今天AI晶片還缺乏行業統一標準，甚至對於行業目標都不甚清晰的狀況下，公允的AI算力評測方案是很難確立的。這有賴於整個AI產業與半導體產業的長期工作。

而就今天情況來看，至少我們可以預測到未來公允的AI評測方案的幾個主要趨勢：

1、著眼於高精準(High Quality)的AI模型加速，而不是目前簡單易用的AI方案。從CPU、GPU的邏輯來看，複雜任務一定是評測算力的最高標準。比如今天我們在評測GPU時，都知道開一個畫質特別好的遊戲作為標準。沒有人會用90年代的遊戲來評測今天的GPU，這一點在AI評測上同樣適用。

2、分任務類別，進行相對詳細的AI評測。今天的AI評測集中於圖片識別與處理上，然而視訊的AI加速、遊戲的AI賦能、語音類的AI任務，都需要不同的AI算力賦能方式。相對公允的評測方案，應該建立在對AI任務分門別類，構建一整套評測機制的前提下。

3、浮點計算是AI評測的重要方面。AI的精準度，會是未來提升使用者體驗的主要方向。比如說視訊裡的摳圖、高精人像留色等等，這都需要浮點運算能力對AI的支援。這種直接提升使用者體驗的能力，應該納入AI評測重點考慮的範疇。

4、從應用端的體驗來評測AI算力。AI任務的最終目的是應用，那麼從應用體驗角度，通過完整的AI應用來測試加速效果，構建圍繞使用者的核心座標系來反向測評硬體算力，也是一個可以探索的方案。讓AI評測回到以使用者為重心，顯然比折中主義方案更加靠譜。

當然了，到底如何構建一個評測方案，將未來趨勢、使用者體驗等維度完整納入AI算力的測試範疇，是一項任重道遠的工作。而同時我們也應該注意到，在AI晶片領域，絕不應該構建一個“算力跑分為王”的機制，畢竟消費者是否體驗和熱愛AI，才是最好的衡量標準。

AI的本質是“經世致用”：評測之外，更應該關注體驗賽場

不同於CPU和GPU，AI算力不是在加速某一種恆定的運算任務，而是對千奇百怪的任務構建加速體系。

這或許可以看作AI和經典計算在本質上的區別。AI的本質目標是帶來體驗差異化。讓消費者可以獲得有溫度、有感知、千人千面的終端體驗。換句話說，AI在手機中的歸宿，不是資料化表現，而是算力經歷產品化之後帶給消費者的綜合體驗。

而消費者最終的感受，其中很大一部分顯然是無法用資料來衡量的。但這也不是說移動AI就不應該進行資料評測，而是應該認識到這一產業的複雜性，將那些不好量化的體驗維度納入考量體系。

AI最終能否讓消費者體驗到真正的價值，依靠的是手機的產品化能力和應用開發者。如果產品端、開發端沒有將AI算力進行有效利用，那麼再強的算力也是枉然。這就好像倉庫裡有各種名貴食材，然而廚師不會做或者不想做，那食客也只能望著倉庫愴然涕下。

從使用者體驗出發，反向來思考手機AI的問題，我們會發現最重要的是算力-產品-開發者，三方必須構成有效的組織關係。產品端將AI具象成拍照、視訊、遊戲等底層能力，開發者將AI幻化成千變萬化的腦洞，這樣AI才有長治久安的生命力。

這條AI體驗的賽道中，今天來看有三個要素構成了競爭力的核心：

1、算力與硬體裝置一體化聯動能力：為什麼驍龍晶片也在強調AI算力，但是大部分安卓機的AI表現卻參差不齊?原因在於手機制造商與晶片廠商是脫離的，從技術選擇、開發上都將面臨不同的問題。而高通需要保證的是全球市場的價效比和可使用性，也不會為單獨廠商定製AI算力。於是我們看到，蘋果和華為在手機產品的AI化上具有先天優勢，搭載驍龍晶片的安卓機想要追趕，必須在硬體與晶片的一體化能力上下更大功夫才行。

2、開發生態的賦能與扶持：如何引導AI開發者走入演算法的世界，構建腦洞清奇的AI應用開發，這是一項百川歸海的開發者革命。其中需要的或許不僅是強勁算力的支援，還有開發平臺的完善，以及商業生態的勾勒。

3、雲端一體化能力：直到今天，到底用伺服器還是終端來處理AI任務，還是一件具有爭議的事情。從無延遲體驗和安全性上來說，端側AI是大勢所趨。而從未來趨勢上看，雲端一體化的AI體驗或許才是真正的答案。那麼如何從架構、算力、開發平臺等多方面保證雲端可以在手機背後無縫合作，是值得深思的問題，這也是讓使用者收穫AI體驗的關鍵一環。

總而言之，AI的任務是“經世致用”，是讓使用者感覺到裝置變得不同——而不是主動閹割各種能力之後的跑分與評測。

中國人是最瞭解考試這門學問的。今天很多給AI設計的考試，都還處在未經雕琢的原始階段，頗有點讓AI寫八股文的影子。

一場完善的AI考試，是整個行業所強烈期待的，但是心急不能解決問題。無論是AI評測還是AI本身，都還是一場山高路遠的冒險。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561483/viewspace-2374948/，如需轉載，請註明出處，否則將追究法律責任。

中國有機會趕超的就是AI晶片
2018-05-04
AI晶片
英偉達的AI晶片霸主之路！
2019-11-25
AI晶片
AIIA 公佈首輪AI晶片基準評測結果
2019-03-07
AI晶片
報告：公眾是如何看待AI的
2024-06-19
AI
中國電信：2018-2019年AI晶片評測報告
2019-04-28
AI晶片
一枚程式設計師的跑步之路
2020-12-23
程式設計師
AI晶片的長征之路：挑戰與機遇
2019-06-24
AI晶片
《Haven》評測：向單身狗擲出一枚大火球
2020-12-04
你如何看待炸服導致的遊戲差評？
2019-09-23
遊戲
如何看待 AI 和保險的“水土不服”（下篇）
2020-06-05
AI
如何看待AI和保險的“水土不服”（上篇）
2020-06-02
AI
如何選擇AI晶片？
2020-06-28
AI晶片
Yann LeCun：未來的AI晶片應該這樣做
2019-02-19
Yann LeCunAI晶片
企業應該如何看待線上聲譽管理？
2022-03-17
如何構建AI文化：AI的啟蒙之路
2019-01-20
AI
回到工程技術本身：應該如何看待“院士之爭”？
2019-05-03
驍龍855超越麒麟980？手機晶片AI效能最新評測基準出爐
2019-02-13
晶片AI
一個企業好幾朵雲，多雲管理平臺設計定位究竟該如何考慮？
2022-02-16
【等保測評】等保測評師怎麼考，前景怎麼樣？
2022-05-30
Meta轉向火熱的AI賽道，晶片、產品化和配套追趕是難題
2023-04-27
AI晶片
美國晶片製造水平究竟如何？能崛起嗎？
2020-09-18
晶片
高德技術評測建設之路
2020-05-09
AI如何走向精智慧之路？
2022-09-24
AI
m1晶片有多強！MacBook Pro M1晶片評測
2020-12-01
晶片Mac
如何看待測試開發這一職位
2020-07-28
軟考評測師/中級軟考/測試基礎相關思維導圖
2020-12-12
如何看待Steam遊戲因為沒有中文，而被打差評的行為？
2020-07-30
遊戲
AI 客服對話類模型，該如何設計測試用例？？？
2024-04-29
AI模型
哪款安卓手機適合跑AI？移動端晶片效能評測論文出爐
2018-10-09
安卓AI晶片
等級保護測評方案該如何做?這些流程不能少!
2022-03-10
2021年GoDaddy虛擬主機最新評測，建站初期該如何選擇？
2021-09-07
Go
如何看待PHP ? --- 來自大家最關心的話題[來自AI回覆]
2023-10-13
PHPAI
如何看待再獲兩千萬美金融資的梅姐AI創業公司
2020-05-25
AI創業
VOX：美國公眾在疫情期間究竟如何看待科技屆幾大領袖
2021-04-02
AI 時代下關於測開的成長之路
2024-11-04
AI
遙感邂逅AI的浪漫故事，需要一枚“算力戒指”
2019-07-18
AI
我們應該如何看待馬斯克心心念唸的“超迴圈”技術
2019-05-04
馬斯克
一枚iOS程式設計師學習JavaWeb之路(三)-EhCache
2018-04-26
iOS程式設計師JavaWeb

一枚晶片的趕考之路：究竟該如何看待“AI評測”？

相關文章