這兩年,演算法人誓要「造芯」,已不再是新鮮事。
當摩爾定律開始走下神壇,基於 AI 演算法的算力需求卻噴湧而出,供不應求,於是越來越多的團隊嘗試踏入「無人區」,以「晶片+演算法」組合拳打造更牢固的護城河。
但造芯何嘗容易,晶片和演算法之間存在著巨大鴻溝,晶片工藝繁瑣、設計與優化技巧強,試產的風險和投入都極大,讓人望而卻步。
「有錢能做得出演算法,有錢卻不一定能造得了晶片,」晶片老將曾這樣規勸來路上的演算法人。「造芯」的口號固然響亮,如今真正能落地的演算法團隊卻是一個巴掌數得過來。
5 月 9 日,依圖科技帶著 200 路攝像頭來到上海中心,向外界宣講這顆始於兩年前的首款雲端AI晶片「求索」。
「依芯求索」,是一顆能同時兼顧雲端和邊緣端場景的 SoC 級晶片,採用自研架構, 16 nm 製程,功耗單路數小於 1W,效能功耗比為 0.75 TOPS/W。在視訊解析、自動駕駛等場景實測中,表現均高於英偉達同類產品。雲端場景下,依圖單位路數功耗可優出 5-10 倍。
「科技進步極大降低了創新所需的經濟門檻,但是偉大所需的精神門檻——勇氣,從沒有降低過。」
這是依圖創始人兼 CEO 朱瓏為該顆晶片寫下的註解,公司成立7年以來,朱瓏首次為依圖釋出會站臺。依圖的「勇氣」始於 2017 年,當時團隊不過百人規模,公司在資金儲備和經濟實力上都不具備「造芯」的最佳條件,但朱瓏表示,「敢把房子賣了賭今天這個答案非常重要」。
在晶片釋出前夕,機器之心對話依圖首席創新官呂昊,獨家解密依圖首款AI晶片背後的更多故事。通過進一步交流,我們挖掘出這家出色的演算法公司對於行業需求、對於演算法發展趨勢深刻的洞察,以及果斷有力的預判和執行。
呂昊對機器之心說道,「兩年前,我們決定做這款晶片,就非常相信演算法廠商垂直整合的未來趨勢。基於對演算法、對行業的深刻理解,加上晶片的設計能力,從垂直的場景發力,不僅於現在能獲得優勢,未來也會變得越來越強。」
公開資料顯示,依圖最近一輪融資發生在 2018 年 7 月,完成 3 億美元 C+ 輪融資,公司整體投後估值突破 150 億元。談到新輪融資計劃時,呂昊沒有給出直接回應,他表示「我覺得市場往後怎麼看我們,對我們是不是有改觀,是更有趣的事吧。依圖釋出晶片對整個市場也會有一個影響。」
兩年前,正是基於依圖對於演算法發展趨勢的預判有了現在的雲端AI晶片,那麼未來兩年呢?
「整體來說就是兩個趨勢。一個是垂直整合,這是一個非常大的機會,也提供了非常多增強自身產品和未來的機會,另一方面就是『演算法即晶片』。」呂昊說道。
200 路攝像頭現場實測的底氣
依圖雲端 AI 晶片「questcore」,中文名為「依芯求索」,採用 16nm 製程,ARM + ManyCore 組合架構,其中 ManyCore 架構由依圖和 ThinkForce 聯合研發,採用依圖自有優勢演算法,從設計到製造實現了全面國產化,作為伺服器晶片可以獨立使用。目前,該顆晶片已經實現量產。
在效能表現上,questcore 單晶片可支援 64 路視訊高清實時解碼,支援 50 路視訊實時解析,1U 可支援 200 路解析。晶片自帶網路支援,支援虛擬化,支援 Docker,支援通用視覺的檢測、分類、識別、分割、跟蹤等任務。
在相容開發和介面擴充方面,questcore 支援 TensorFlow、PyTorch、Caffe、MXNet 等主流深度學習框架,支援 PCle 3.0 介面。
同時支援雲端、邊緣側計算是 questcore 的最大亮點之一。
在單位路數的功耗對比中,同樣帶動 200 路攝像頭解析和比對,4 顆依圖 questcore 、8 顆英偉達 T4+ 2 顆英特爾 CPU、8 顆英偉達 P4+2 顆英特爾 CPU 實測對比:
8 顆英偉達 T4 + 2 顆英特爾 CPU 方案單位路數功耗是依圖方案的 4.7 倍,
8 顆英偉達 P4+2 顆英特爾 CPU 方案是依圖方案的 9.4 倍。
在路數效能的對比中,依圖前沿系列邊緣盒子是英偉達 TX2 效能的 2 倍。
朱瓏認為,正是晶片單位面積的智慧算力的「斜率」優勢奠定了依圖晶片能在最終效能表現超過巨頭英偉達。
據機器之心瞭解,questcore 針對 int8 資料(8 位整數資料型別)進行加速,能實現效能和功耗比呈量級提升。同等功耗下,questcore 可提供市面現有同類主流產品 2~5 倍的視覺分析效能,強調併發性需求的滿足。
依圖方面認為,與 AI 訓練不同,AI 推理並不需要很高的精度,實際上,int8 的低精度資料型別就足以滿足當前絕大多數的雲端智慧視訊分析/視覺推理計算需求。
依圖強調,questcore 不只是一顆 AI 加速模組,是一顆完整的具有端到端能力的 SoC 級處理器,可獨立於英特爾 x86CPU 使用。為均衡的端到端處理能力,questcore 平衡了 CPU 計算、AI 計算,記憶體和資料通訊等多種需求。
為進一步驗證產品實力,現場依圖搬來 200 個攝像頭進行現場實測。採用 GPU 方案,光是 27 路攝像頭,需要一顆 2000 美金的英偉達 P4 卡才能帶動;200 路視訊流的實時解析和比對則需要 4U 8 塊 CPU,2 塊 GPU,而依圖只需要 1U 4 顆 AI 晶片。
在比對過程中,相似度超過 85 分視為同一個人,現場演示十分鐘左右,未發生一起誤報。
200 路攝像頭足夠滿足一個智慧社群的計算需求,朱瓏表示,採用依圖 questcore 方案只需要 5 分鐘就能搭載後端伺服器。
在銷售模式方面,questcore 晶片將與依圖的智慧視覺分析軟體結合,作為軟硬體一體化的解決方案對外銷售。主要面向對雲端智慧視訊實時分析等應用具有強需求的企業環境,比如交通運輸、公共安全、智慧醫療和智慧零售等行業。
目前,questcore 依圖主要推出雲端、邊緣端兩類產品方案。前沿系列邊緣盒子,高效能、低功耗的小型智慧處理邊緣節點,可支援 16 路實時視訊分析,功耗小於 10W,支援人臉識別、視訊結構化、可疑物品檢測、姿態分析等應用,靈活應用於無機房場景。
原子系列雲端伺服器,1U 支援 200 路視訊全解析,功耗小於 200W,2U 支援 800路視訊全解析,功耗小於 600W。據機器之心瞭解,搭載 QuestCore 的依圖原子伺服器,將為今年 11 月在上海舉行的第二屆世界進口博覽會提供安保服務。
解密依圖 AI 晶片背後的更多故事
以下為機器之心與依圖首席創新官呂昊對話實錄,經編輯整理。
Q:AI晶片專案是從什麼時候啟動的?
A:2017年2月,我們開始有動作投入這件事情。2017年5月份全速啟動。我們今天給大家看的不只是一顆晶片原型,而是當下就能商用量產的產品。
Q:2017年依圖投資晶片創業團隊ThinkForce,這顆晶片和ThinkForce存在什麼聯絡嗎?
A:該顆晶片採用合作研發的模式,由依圖提供視覺演算法,ThinkForce承擔硬體研發。ThinkForce是依圖在2017年戰略投資的AI晶片初創團隊。ThinkForce 擁有晶片研發全鏈路能力的團隊,核心成員來自 IBM、AMD、Intel、Broadcom等晶片龍頭企業,成員均具備十年以上專業晶片研發設計經歷,經手過40餘款不同晶片的量產,總銷售額高達數十億美元。
Q:依圖晶片的開發團隊主要負責哪個部分?
A:晶片設計過程中有非常多的迭代。首先,在早期我們要做什麼樣的晶片,跑什麼的演算法,都是基於雙方溝通。因為目標很簡單,要把依圖演算法跑好。
然後,依圖演算法需要多少算力,晶片能設計出多少算力?滿足算力需要投入多少?這些都需要我們反覆迭代,前期的設計和迭代都是聯合研發的模式。
接著,到晶片設計階段,設計後跑大量的BenchMark,都由我們一起來跑。到後期,晶片的設計出來要驗證,驗證什麼?這不僅僅是硬體的問題,還有很多軟體的問題,比如英偉達的TensorRT的庫優化。因為我們支援Tensorflow、PyTorch這些模型,怎麼把它去優化成硬體上面模型,都是非常偏軟體和演算法的優化。
Q:依圖設立晶片專案的初衷是?
A:我們深耕行業,有非常多的產品和解決方案。對於市場需求、對於AI的普及有最及時、最深刻的理解。
2017年,雖然AI計算市場的需求並不算明朗,但我們對於AI與算力需求的高速增長,以及同類產品的競爭性,都會有一個預判。
那個時候,比較明顯的感受是摩爾定律的統治時期結束了。這也是整個行業裡的共識,凡是離應用和場景足夠近的廠商,都有這方面的戰略考慮。
Q:17年到18年,的確有很多演算法公司投身到AI晶片領域,但主要傾向終端的垂直市場,比如說安防、自動駕駛、物聯網,為什麼依圖會選擇雲端的推理市場?
A:需求一定來自行業,這是最直接的需求。你提雲端,雲端也可以只是為安防,也可以只是為自動駕駛。
Q:但是雲端和終端存在很大差異,市場環境和計算複雜程度都不一樣。普遍認為終端市場需求量比較大,也好落地。但云端市場已經很擁擠,幾乎被英特爾、英偉達等巨頭壟斷,依圖為什麼要去切這樣一個市場?
A:依圖晶片兼顧了雲端和邊緣端。雲端和邊緣端沒有太本質的區別,或者說雲端和邊緣端的區別要小於邊緣和終端的區別。
傳統大廠能力非常強,包括架構設計、效能優化等方面,這是數十年積累完成的。但我們認為,大廠從其本質上講是為了賣更多的晶片,賣更多的硬體,儘量滿足更多軟體廠商、演算法廠商的需求。這種模式和垂直整合的演算法廠商做晶片有一定的區別。
摩爾定律終結代表了晶片設計需要換個思路才能獲得更多的成長空間,那麼定製化是一個路徑,去掉一些通用性的部分,比如傳統硬體的分支判斷、邏輯單元等電路。演算法廠商來做晶片,不完全考慮通用性,更多從自身行業需求出發,考慮我要做什麼樣的晶片。
Q:你的意思是,依圖的晶片更講究在特定場景下滿足計算需求。
A:對。
Q:那依圖主要聚焦在哪些垂直場景,或者哪些計算需求。
A:QuestCore是一顆視訊解析/推理晶片。首先它聚焦在視訊上,關注能接多少路視訊,能分析多少路視訊,這和做一顆終端晶片有很大區別,終端是你只需要服務一路視訊。
比如說特斯拉晶片,就是聚焦在處理這輛車上面視訊能達到多少FPS(面每秒傳輸幀數)。因為做雲端晶片,我們更關心能同時處理多少路的視訊。所以應用常決定了你的設計導向。
Q:切入特定市場能在一定程度避開和巨頭的直面競爭,但是否意味著市場體量相應地會減少?
A:這是很直接的一個問題,因為做晶片首先門檻比較高,然後投入也比較大,做一塊賣座的晶片是極為困難的。比如英偉達做GPU是比較通用的計算平臺,而定製化自動駕駛的晶片,只有特斯拉這樣的廠商會做,因為他自己有自己的體量,然後他自己又明白需求。
Q:這款晶片是想要替代華為還是要替代英偉達?
A:就是給我們自己的產品做一個升級。我們很多產品都是用的英偉達的解決方案,我們還是華為的合作伙伴,非常深度的合作伙伴。
Q:你們更傾向於給到固定客戶,比如說作為專案打包給安防客戶,還是怎樣的輸出方式?
A:我們認為是自產自用的模式,晶片會納入軟硬體一體化的解決方案裡對外銷售。主要面向對雲端智慧視訊實時分析等應用具有強需求的企業環境,比如交通運輸、公共安全、智慧醫療和智慧零售等行業。
Q:通常來說,晶片都是以量取勝,量大了,成本才可以得到進一步優化,那麼規模比較小的情況下,會不會導致我們的成本很高,可能這部分業務會虧錢?
A:我覺得這個是外界對依圖的體量不瞭解。其它AI公司做這個事情可能有這個困擾, 但我們應該沒什麼問題。因為依圖的在很多行業裡面的體量挺大的。
Q:您剛才提到邊緣端和雲端其實很相近,為什麼這麼說,邊緣端和終端有什麼不同?
A:實際上,邊緣是雲端的一個擴充。我們的願景當然是希望網路足夠快,不需要邊緣這樣的節點出現。
但是,因為網路頻寬有限,所以要把一些計算放在邊緣側,然後再彙總到雲端。邊緣的出現是為了解決網路頻寬無法承受的問題。這一點導致了它的介面設計、軟體、技術棧,都和雲端有非常多的相似性。
Q:提到視訊資料,在解析之前的預處理也很關鍵,比如編解碼?
A:對,我們晶片提供64路高清視訊實時解碼。
Q:依圖更擅長做演算法和軟體,自研雲端AI晶片的優勢在哪裡?
A:首先,我們演算法精度遙遙領先,過去 4 年依圖的人臉識別演算法精度提升了 10 萬倍。目前我們的人臉識別精度,可能比市場上的第二名要高上一百倍。這是為什麼我們的產品競爭力很強,在市場上的口碑也非常好的原因。
當然,晶片的門坎很高,投入很大。我們過去兩年裡沒有在吹噓自己做了晶片,我們並不是為了「做晶片」而做晶片,主要是為了提升產品的競爭力,繼續深耕行業來做這個研發,初衷非常簡單。
另外,我們的優勢還在於對行業的理解。這個優勢我覺得不僅是體現在現在。我們決定做這款晶片的時候,是非常相信垂直整合的,有對演算法深度的理解,有對行業深度的理解,加上有晶片的設計能力,從垂直的場景發力會變得越來越強。
Q:依圖的基因偏向演算法和軟體,做晶片的團隊如何組建和完善?
A:我們和ThinkForce聯合研發。在研發過程中,首先你得知道你設計的晶片是幹什麼的,具體指在複雜的designspace裡做什麼樣的權衡,這個非常難。以前做體系架構的人最困擾的一個問題就是確定晶片為哪些程式做優化,因為程式太多了。如果這個事情定義清楚了,那餘下的才是晶片的設計能力。
Q:您提到最初我們是業務驅動,所以做晶片說為了讓依圖的解決方案從軟體到硬體有一個更好的表現?
A:對。我們的訴求當然是找到一個最具價效比的,能夠跑世界上精度最高演算法的平臺。
Q:有沒有考慮用 FPGA 去做升級或者擴容呢?
A:我們更多拿FPGA來做驗證。也就是你有一個想法、一些設計理念,可以很快用FPGA做一些定製化計算,驗證效能是否能達到要求,再進一步優化功耗、體積等指標。
我們知道雲端現在很多廠商,公有云都提供了FPGA的服務,可以幫助你非常快速驗證你的想法。但是我覺得作為工具的角度,如果要追求極致是不太會停留在FPGA這一步。道理很簡單,你會拿一個樹莓派做很多驗證,這個硬體挺酷,挺有用,但你不會把它作為一個終極產品推向市場。你一定會做自己的板子,做自己的外觀形態,最後再推到市場上。
Q:後續產品的迭代也將會是這樣的模式嗎?由依圖和ThinkForce雙方配合去完成後續的產品更多的設計?
A:對。現在已經在籌備下一代晶片了。
Q:這款晶片的核心演算法是依圖的,依圖的演算法在不斷迭代,但晶片的速度可能沒有那麼快跟得上。這個問題如何解決?一些演算法廠商認為FPGA方案的靈活性在這個情況下可以發揮出來。
A:這個矛盾是存在的,演算法發展非常快,而且變化也非常大,但晶片的週期卻比較長,第一塊晶片需要兩年,第二塊晶片可能快一點。但是,我們做晶片當然會意識到這一點,所以難度在於兩年前你得預測到兩三年之後的趨勢是什麼,而不是說為兩年前那個狀態做一顆晶片。
Q:晶片已經量產,那有沒有已經落地的專案?
A:有。已經有客戶簽單。
Q:醫療場景能用嗎?
A:醫療可以用。它主要是針對視訊和影像處理做了定製化。因為我們有很多套演算法,從視訊、影像,語音識別、語義理解等等。這塊晶片主要就是為我們大量的影像和視訊演算法做定製的,說明有一定通用性了。
Q:自產自用需要極大規模的業務量和前期投入才能支撐,代表公司包括谷歌雲的TPU、華為雲的泰山等。目前採用自研晶片可能會增加專案成本,客戶怎麼看這個事情?
A:舉個例子,功耗能省1/3,對資料中心是很大的一筆開支。在客戶的感受非常強烈,而不僅僅是打個九折的概念。
Q:具體看客戶有一些什麼樣的反饋?
A:從我們和一些早期客戶的交流來看,他們對於questcore™在功耗上面的節省和空間上的節省是非常興奮的。
Q:大家對依圖的認知是依圖是一家AI+垂直行業,聚焦在應用層的技術落地公司,現在我們向產業鏈的上游延伸,可以理解為依圖在轉型嗎?至此之前,類似的演算法公司也提出過新的戰略方向,依圖是不是因為這款晶片的推出也有一些改變呢?
A:我們從一開始就深耕行業,全面發展。
Q:所以對依圖的認知這是一家晶片公司,也是OK的?
A:依圖處在上海,上海是中國非常重要的積體電路的中心,這裡有非常多的人才和資源。我前面說了垂直整合,是因為依圖非常清楚自己想要做什麼。我們的信仰就是讓AI去來解鎖未來,一個AI更好助力人類的未來,我們對於這個信仰非常專注。此外,我們也做自己商業上更適用的事情,給自己帶來更強的潛力。
Q:在中國做計算機視覺的公司中,其實不只依圖一家有這個想法,整個行業的大方向會都可能是垂直整合,做了演算法以後還會自己研發晶片,依圖會這麼認為嗎?還是說這是一個比較小眾的方向?
A:垂直整合能夠帶給你可能更強的未來。因為摩爾定律的終結意味著再沒有免費的午餐了, 不可能等兩天就能買到更快的硬體,所以要靠架構調整來改變。
軟體和硬體有一個天然的隔閡,怎麼去打破這個隔閡,利用新時代的挑戰去做更有競爭力的演算法,更有競爭力的晶片,是非常大的機會。
在能力上,依圖一直以來都在做世界級的演算法,所以我們也是在做世界級的晶片,其他人要做到這一點並不會那麼容易。
Q:依圖有沒有新的融資計劃?
A:我是偏技術這一側,不太清楚這個問題。我覺得市場往後怎麼看我們,對我們是不是有改觀,是一件更有趣的事。這對整個市場也會是一個挺有意思的刺激。
Q:2017年做晶片是基於我們對兩年後的一個預判,所以才有了這個專案。那麼未來兩年呢?
A: 今年將會AI晶片頻出的一年。谷歌、特斯拉,很多公司在做垂直整合,這是一個非常明顯的訊號,是廠商行業落地的必然性。
在演算法即晶片的時代,為演算法定製做非常多的設計、做豐富的定製服務,才能讓演算法表現得更好。
整體來說就是兩個趨勢、一個是垂直整合,我覺得是一個非常大的機會,也提供了非常多的增強自己產品和未來的機會,另一方面就是「演算法即晶片」,演算法指導晶片的設計能帶來的晶片的改動也將是一個非常大的趨勢。