AI圓舞曲裡,重接骨頭跳舞的展銳

naojiti發表於2019-09-12

剛剛的蘋果秋季釋出會中,我們又一次見證了庫克有多麼熱愛他的晶片——今年釋出會中,蘋果又用非常大的篇幅描述了A13晶片中的AI處理能力,真正晶片中的AI加速已經成為了整場釋出會的核心賣點之一。

換一個角度看待這件事,不難發現移動晶片的AI算力,已經成為了行業焦點以及旗艦晶片的競爭關鍵。有意思的是,這場爭奪並非如很多人想象的那樣,變成一場徹底的寡頭遊戲。

移動AI晶片這個領域的“新玩家”,此刻也在帶給我們驚喜。

7月,蘇黎世聯邦理工學院著名的AI算力評測專案AI Benchmark,公佈了AI晶片的測試榜單。令人驚奇的是,當時佔據榜首的赫然是紫光展銳的虎賁T710。T710的AI算力評測分為 28097分,超過大部分安卓旗艦機所用的高通驍龍855 plus。當時訊息一出,很多媒體和晶片產業關注者是相當錯愕的。

這個錯愕感來自何處?首先是在大部分人的印象裡,展銳主要面向的是非旗艦移動晶片市場。在移動晶片的核心領域超過高通旗艦,顯然是令人意外的。再者,展銳此前似乎並沒有釋出過主打AI的產品,初出茅廬就刷榜,這個氣勢相當了得。

如今,虎賁T710已經正式釋出,並且展銳又在AI領域接連發起了幾個動作,如果我們把這些產品和動作聯絡到一起,或許會發現展銳在AI領域並非淺嘗輒止,而是勇於創新、有清晰定位,並且有方案和步驟的參賽者。

讓我們從虎賁T710當時刷榜的因由開始,逐層剝開這個AI晶片中的“新來者”——放棄低端固有印象,重新接上骨頭來跟AI跳舞的——新展銳。

異構雙核NPU,這個詞背後藏著什麼?

讓我們從一個技術創新,開始整個故事。

虎賁T710在AI Benchmark刷出高分的原因其實很明顯,就是因為這枚4G SoC手機手機,採用了具有獨創性的異構雙核NPU架構。這個技術就像一把刀子,劃開了我們對AI晶片的固有認知。

這裡有必要解釋一下這個“不明覺厲”的片語。我們知道,今天移動晶片中搭載NPU模組已經成為了行業慣例。華為、蘋果皆如此,總是含含糊糊的高通目前也承認了自己有NPU。

而NPU這個在CPU和GPU之後,專門用來提供AI任務所需算力的模組,其特性又是有點不一樣的。

實際上,對於處理器而言,永遠存在通用和專用兩個方向的問題。通用代表著更好相容性,專用代表著更高的效能,但同時通用的代價是低效,專用的代價是相容性不好。這就好比全科醫院和專科醫院,同樣的病症往往專科醫院處理得比全科醫院又快又好,但是它只能處理這一科。回顧一下歷史,移動NPU如今已經算髮展了三代,第一代的NPU解決的就是通用CPU對AI計算的低效問題。第二代開始出現多核NPU,持續加強改進能效。那麼到了第三代,考慮的問題就必須更為細緻,從AI的發展角度看,現在仍然是處於一個快速發展的路上,AI任務不像影象和資料任務,它囊括了千變萬化的演算法可能。其中有一些AI演算法,目前已經非常成熟,比如我們經常用的人臉識別、物體識別。還有一些則代表著未知,而未知演算法往往需要儲備強大的通用算力,以此來支撐大型AI任務的端側處理。

這兩種演算法帶來的算力矛盾,就好像餐廳請廚師的時候,一位廚師只有拿手三道菜,但是口味極佳,另一位則什麼都會做,任憑顧客點菜,但是卻沒有拿手菜,並且薪酬昂貴。這種時候,最好的解決辦法是什麼?

虎賁T710的方案是,兩個廚師都來上班就好了。所謂異構雙核NPU,就是一個NPU專門做顧客經常點的拿手菜,也就是對人臉識別等已經比較成熟的影象類應用,採用8bit定點量化的方式對常用運算元進行加速,大幅的減少計算代價;而面對不確定的AI任務需求,則讓另一個NPU隨時待命,採用INT4、FP16等量化方式來進行浮點計算加速。

在異構雙核NPU的幫助下,虎賁T710的算力達到了4TOPS,能效比 ≥ 2.5TOPS/W。尤其在幾大常用神經網路任務中表現出色,最終出現了AI算力超過高通旗艦的效果。

或許有朋友會問,這種效果這麼好,為什麼旗艦晶片沒有采用?

這就牽扯出虎賁T710背後的產品邏輯:從市場定位上來說,旗艦晶片必須追求各種數值的極致化;而展銳的定位是非旗艦,沒有數值的包袱。就像5星酒店或許可以請很多又有拿手菜又什麼都會的廚師,但是特色餐廳還是要兼顧成本與效果,用創新搭配來花小錢辦大事。而在AI算力超過旗艦晶片的最終結果上來看,異構NPU的創新點成果顯著。在第三代NPU的創新跑道上,並沒有對錯,但相比蘋果、華為和高通這些頂著炫目數字的玩家,展銳的異構雙核就好像AI舞臺上的舞者,用輕盈而優美的方式演繹出對AI需求的理解。

當然,在AI演算法進一步穩定,應用需求與標註不斷統一之後,有理由相信異構NPU會成為主流。

展銳的獨創,更準確表述或許是是超前。但異構雙核NPU背後的技術邏輯,其實指向展銳在AI戰略這樣一個獨特思路:聚焦應用與場景,實實在在鬧革命。

脫胎換骨的展銳衝向AI

虎賁T710,這個聽著就像個什麼武器的名字,當然拿出來就要造成點殺傷力。

在虎賁T710釋出時,展銳給出了一個獨特的定義“AI邊緣計算平臺”。也許有朋友會奇怪,這種描述似乎更多是在to B產業中見到,為什麼出現在了手機晶片當中?

事實上,虎賁T710是手機晶片。但展銳卻和使用者一起發現了它的其他價值,比如說在產業場景中作為邊緣AI算力的提供者。

在深度學習為代表的AI處理能力,開始滲透向各行各業當中時,各行業也就自然而然浮現出對AI算力的需求。比如在醫療場景中,醫療影像識別已經成為了AI的主要應用場景。而這一類任務如果統一上傳到雲端進行推理,很容易造成實際應用時的效率降低,資料阻塞。如果在邊端側發生AI計算,則需要晶片和計算產品的植入。這些實際場景的導流,造成虎賁T710順勢獲得了to C和to B兩種商業模式。這裡有個問題,展銳怎麼會敢做這種創新?

晶片產業格局的朋友,或許還是將展銳的形象,定格在中低端晶片製造商中,從而總是將低端、批量、亞非拉美市場等關鍵詞與展銳的品牌相聯。

從異構雙核NPU的來歷,或許就可以解釋這個問題。

異構雙核到底要不要做,展銳內部有過很多爭論,考慮過單核、多核、大小核等種種方案。

最後團隊把問題直接拋回了出發點:為什麼要做NPU?要知道,CPU+GPU也不是不能處理AI任務,欠缺的就是效率。那麼既然NPU為了滿足效率,就要明確怎麼計算是最高效的,如何處理高效帶來的通用性問題。

最終,雙核異構NPU的思路被確定了下來。

對於展銳來說,這是一個重要的技術思考節點。因為歷史上似乎從來沒有如此認真逐層思考一個技術解決方案。而當研發團隊從跟隨切換到了底層邏輯上的創新,又發現創新之路確實能夠走通,整個團隊也就自然獲得了成就感與興奮感。

習慣了飛翔的鳥,是不願意當爬行動物的——展銳的改變就此而來。

於是我們看到,半年以來展銳在公司申請專利數排名中一舉提升了60位,由此可見創新能力在整個體系內的釋放。

換個角度,或許可以更好理解展銳的蛻變。提到展銳總是會提到聯發科,但在AI這條路上,聯發科被譽為低配版高通,更多是在做高階晶片的低端版,重複大廠的動作。但是展銳,卻不甘只是跟隨,拐彎去開創了另一條新路,這一次不僅僅是勇氣,更重要的是對未來的信心。

在展銳這些變化背後,實際上是一場徹徹底底的重構,全新的目標,全新的文化,全新的組織架構,全新的管理和產品體系,新展銳像極了重生的哪吒,脫胎換骨,正要再創一片天地。

AI當道,展銳還能幹什麼?

可以看到,在AI這條賽道上展銳的一系列產業動作,都可以歸因為一個變化:在幾個新的技術序列成熟與交錯下,展銳可觸及的智慧化需求在發生快速變遷——無論是B端還是C端。這種條件下,展銳似乎還能折騰出不少事情,比如說:

一、產業智慧

虎賁T710應用於產業智慧需求,變成一種to B的算力平臺,這應該是讓很多人難以想象的。然而它確實發生了,這就是因為AI與工業化生產之間的耦合正在此刻不斷加劇,而其對產業配套設施的需求也在加速。

展銳在產業智慧化中的另一個優勢在於,中國企業出於國際經貿環境和供應鏈穩定等考慮,相對更請來中國的算力與解決方案供應商。這個領域通過更整合的方式為使用者創造價值,基於晶片帶來更多智慧與產業的結合,這是展銳AI主要的巨集觀戰略機遇。

二、手機摺疊

回到手機端,我們也很容易發現一些有趣的變化。今天的手機市場,一個顯著變化在於旗艦機與中低端機型,在效能體驗上不斷趨近。其根本原因在於,CPU與GPU等部件的創新空間不斷接近瓶頸。展銳其實是在證明,可以通過優化的設計與創新思路,讓中低端機型獲得高階機型的AI算力與AI應用體驗。

將高階體驗普及到大眾消費者,是展銳在AI相關產品上的設計邏輯與目標,也是未來將繼續執行的重要戰略。

三、5G+IoT

關注晶片產業的都知道,IoT市場一直是展銳的戰略高地;而面向5G時代,展銳已經打造了春藤系列產品,實現“虎賁+春藤”的AI+5G戰略合圍。從未來我們對IoT場景的應用邏輯來看,AI和5G也是相輔相成的關係。AI需要在資料基礎上完成訓練,產生智慧,達成資料、裝置、人三者之間的有效互動。所以最終,未來一定是5G環境下,由AIoT中不斷誕生有價值的應用。

所以能夠看到,展銳今天所執行的策略,就是在AI、5G和IoT三端達成實用化、場景化的技術與產品滲透,最終讓它們的結合點,發生於未來的產業智慧化市場,以及社會廣泛存在的AIoT需求中。

智慧之網,還將孵化出很多東西,其中或許就包括展銳AI的未來。換言之,幾股技術洪流的交錯,是展銳的新戰場。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2656942/,如需轉載,請註明出處,否則將追究法律責任。

相關文章