全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事

微胖發表於2018-05-08

「下週就能看到封裝好的晶片了。」在雲知聲位於冠捷大廈辦公室接受採訪的 CEO 黃偉,難掩內心的喜悅。

這是國內首枚面向 AIoT (AI+IoT)的 AI 晶片(UniOne),指令集和微架構均由雲知聲自研,擁有全新的晶片結構。

「三年了,我們花費的精力和時間不比這些公司(寒武紀、地平線等公司)少。」黃偉感嘆道,「而且我要強調一下,這不是語音晶片,是針對深度學習進行架構設計,是對計算本身的加速,而不是演算法加速。」

藉由這枚晶片的流片成功,雲知聲也成為中國語音 AI 公司中,第一家擁有自研 AI 晶片的公司。

採訪結束後不久,筆者終於見到了這枚 AI 晶片。

全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事UniOne 量產版

晶片基於 UniOne 的 AI 指令集和 DSP 指令集,針對語音應用場景,將麥克風陣列訊號處理、語音識別及語音合成結為一體。

巧合的是,就在那段時間,晶片領域又接連傳來幾枚重磅訊息。

阿里宣佈全資收購中國大陸唯一的自主嵌入式 CPU IP Core 公司——中天微系統有限公司。而在此之前,阿里達摩院就曾表示正在自研 Ali-NPU。

最近,阿里又宣佈全資收購語音訊號處理領域的創業公司——北京先聲互聯,意在佈局語音專用晶片。這家公司曾為阿里、百度、小米等多家公司提供遠場語音互動軟硬體的解決方案,

放眼海外,亞馬遜自研 AI 晶片已不是新聞。這枚晶片將用於下一代 Echo 裝置,提升 Alexa 的響應時間與搜尋速度。

「從 400 多人的研發團隊規模來看,應該很早之前就開始做了。」黃偉說。

最近又有訊息指出 Facebook 正在研發智慧音響,LeCun 甚至在社交媒體上貼出了 ASIC 與 FPGA 職位的招募資訊。

面對越來越熱鬧的賽道,「這證明我們走的路是對的。」黃偉說。三年前,「我們想到做的時候,地平線還沒有成立。我們決定搭建團隊時,地平線剛成立。」

誰也逃不過漫長的研發週期,至少目前「在工業界,我們是走在前面的。」全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事Bring up,各項工作都完成,可以投向量產了。左一為公司物聯網事業部副總裁李霄寒,右二為公司CEO黃偉

作為大多數語音互動公司演化邏輯的「雲·端·芯

國內從事語音互動的公司其實不算多,除了 BAT 巨頭,比較知名的公司就是搜狗、科大訊飛、雲知聲、思必馳、出門問問、聲智科技、驀然認知、三角獸等公司,而且以創業公司為主。

在商業模式上,這些技術見長公司的選擇逐漸趨於共性:做 B 端產品公司的技術服務商,提供軟硬一體的解決方案。(做消費類硬體的出門問問和以 G 端業務為主的科大訊飛是兩個比較明顯的例外。)

其背後邏輯並不難理解:就尚處早期的新技術而言,其核心問題往往是「使能」(enabling technology),而這通常是一個軟硬融合的問題。

歷經十多年市場驗證的 Mobileye 模式就是一個典型案例:演算法距離應用場景非常近,而由此產生的優勢就是可以針對使用場景需求研究最適合的演算法框架,然後將演算法框架實現在晶片方案上。在加速技術落地同時,也不斷滾動資料收集,並與行業深度結合。

不過,雲知聲將這個內在邏輯更加形象地概括為了「雲·端·芯」。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事除錯用的測試封裝。

具體說來,語音AI公司最初會從演算法團隊轉型為「雲平臺」商。

語音識別技術最關鍵的是先要有充足的語料積累,不光是找人去錄語音,更需要使用者真實的資料。儘快實現演算法的雲平臺化,能夠在短時間內、很低成本地完成大量語音資料積累。

因此,語音技術公司初創後,通常會向擁有海量使用者產品開放 API,將演算法雲平臺化,實現演算法團隊到雲平臺服務的轉變。而免費+定製化收費(比如與垂直領域緊密結合的 ASR),亦即 Freemium(免費+增值)模式成為語音技術起家公司的多數選擇。

2012 年,成立後短短三個月內,雲知聲就迅速完成了演算法團隊向雲平臺服務的轉變,將基於深度學習語音識別引擎部署到雲端。並隨著技術的變化,逐步擴充套件了自己的演算法能力邊界,涵蓋訊號處理、NLP 等。

「我們做雲,不是閉門造車。而是在商業化落地過程中,結合具體場景演化雲平臺。」黃偉說。

藉由觀察到的平臺資料,雲知聲逐漸清晰接下來的具體業務方向: 語音與非手機硬體裝置的深度互動是未來的方向,IoT 產業下的語音業務大有可為。

比如一方面,平臺資料顯示當時比較熱的手機語音助手「是一個偽命題。」使用者活躍度很低,不足以支撐一個商業模式。

而另外一些應用使用者量規模並不是很高,但是它的場景很明顯,比方說汽車和客廳的電視。應用的執行總量也許不大,但每個使用者每天消費頻次非常高。

接下來,由於語音鏈條比較長,為了實現演算法最優效果,在技術落地過程中,技術服務商也需要考慮硬體問題。

事實上,眾多的語音識別廠商也都有聯合晶片廠商推出自己的語音識別模組,或者推出自己的麥克風陣列方案,以提升語音識別的體驗;同時,這種「Turn-Key」解決方案也更有利於傳統硬體廠商快速將新的產品推向市場。

2014 年 3 月,雲知聲正式提出「雲·端·芯」戰略——即從雲平臺到裝置語音互動,再到裝置語音專用晶片與麥克風陣列的整合式解決方案。

「2014 年我們引入了高通的戰略投資。這一年開始研發通用模組,2015 年投入商用。」雲知聲 IoT 事業部副總裁李霄寒說,他也是這枚晶片研發工作的負責人。

無論如何,「先將晶片做出來再說。」黃偉回憶道。

「雲·端·芯」升級迭代的背後:長出來的需求

當大家都還停留在與通用晶片廠商合作定製自己的硬體方案時,這枚流片成功的 AIoT 晶片已經從一定程度上打破了相對穩定了幾年的競爭格局。

「如果說我專注地來做一些事的話,我一定會專注地死去。」黃偉說。

但是,與從演算法轉型雲平臺商、再接著做通用模組相比,一家演算法技術公司上溯至產業鏈上游自研晶片,已經打破了既有的市場分工,跨度不可謂不大,更何況當時國內還沒有寒武紀、深鑑科技這樣的晶片公司。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事

「四年前下這個決心,還是比較難的。」黃偉坦言。做晶片前前後後砸了幾千萬(如果將兼職等其他人員和時間等成本加上,可能是大幾千萬。)「這也是決定難做的一個重要原因。」他說,「不過,有人因為相信而看到。」

企業的核心競爭力無外乎幾種:產品或服務的差異化;規模效應帶來的成本優勢以及網路效應。

然而,經過幾年的技術發展,目前語音識別行業似乎維持著最大平衡,國內外多數公司的引擎識別率都基本在同一個水平線上,接近當前語音識別技術極限。

服務的同質化,加上多數公司業務都有不少重合(比如車載、智慧家居、機器人),誰能贏得客戶很大程度上成了拼商務,這也意味著,價格戰甚至惡性競爭幾乎無法避免,畢竟產品方更替方案的成本低。如果技術服務商的供應鏈砍價能力不夠,自身既有方案價格反而還會高出百分之幾十。

因此,現有業務的升級必須訴諸內部結構的優化。這就像谷歌一定要去做 TPU,才可能把它的 AI 服務做得特別好,同時降本並拉開差異化距離。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事公司總部一角

「以前的場景,比如移動端、嵌入式端、PC 端都有各自的一些晶片體系作為支撐。」李霄寒說,

「現在, 我們面臨的是 AIoT 場景,需要引入人工智慧的能力。以前既有晶片產品體系無法滿足當前場景的巨大要求。」

對於雲知聲來說,一枚 AIoT 晶片可以幫助實現技術服務的差異化,形成新的核心競爭力。隨著雲知聲自 主 AI 晶片的落地,通過提供標準化的人機互動產品對接介面,可為合作客戶提供允許在端和雲兩方面均可進行高度定製的解決方案。

事實上,近幾年,雲知聲在家居、智慧音響、兒童機器人等市場已經實現百萬級別的 IVM(通用晶片方案)應用,成功驗證了市場、產品和使用者場景的合理性。而返回的資料進一步打磨了演算法,也為 ASIC 晶片的研發奠定了堅實基礎。

「我們做晶片的邏輯和亞馬遜差不多。」黃偉說。

不過,一個更為現實的開「芯」因素是百萬級別 IVM 規模化應用,也將通用方案的弊端充分暴露出來。

本質上,通用方案是一個雙晶片方案。

一方面,通用方案沒有深度學習能力,而應用需要比較高的主頻,比較強的計算能力晶片。另一方面,需要單獨的降噪晶片去跑對實時性要求很高的降噪演算法。

雙晶片,再加上每一個都配備的相應外圍器件,板子不僅會變大,價格也會上去。賣的越多,生產和維護成本也跟著上漲,很大程度妨礙了服務的規模化。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事通用模組方案,個頭比較大。

(是原有方案價格區間)百這個量級的。」李霄寒說。也就是說,BOM 每增加一塊錢,最終到使用者手裡邊的售價就會增加 3 到 8 塊錢(一般在 6 塊錢左右。)如果成本增加了 100 塊錢,最後售價會增加 600 塊錢。

這意味著你有兩個選擇,要麼改變當前比較低成本的產品形態,原來是 500 塊錢區間,現在變成 1000 多塊錢區間的。不過,使用者範圍馬上變了。或者,只能放在相對對成本不那麼敏感的高階產品上,賣一萬塊錢,這個是可以的。但這又大大侷限了產品的應用範圍。

通過把成本降下來,可以在原來可能是金字塔尖上那些產品可以為金字塔的主體所用。而在雲知聲看來,這才是物聯網的本來意義。

重構晶片架構的專用型晶片,成為平衡這些訴求的唯一方案。據介紹,UniOne 能將當前語音 AI 的相關的能力能夠充分的發揮出來。

「從前面的評測資料來講,是綽綽有餘的。可以把當前最先進的語音技術放到我們的晶片上跑,完全沒問題。」李霄寒說。

至於有多麼省錢,黃偉舉了一個例子。

以智慧音響為例。跟聲音相相關的部分,BOM 差不多在 100 快左右(看你用幾個麥克風和什麼晶片,基本上在 100 塊左右)。有了這枚晶片,以我們主推方案為例,BOM 可以控制在 3 美金以內。就是說,以前 100 塊錢做的事情,現在十幾塊人民幣可以搞定。我們 3 美金方案做的事情是同價位通用方案的 40 倍。

UniOne : 全棧能力與平衡藝術

和已經呈現紅海狀態的影像和視訊深度學習加速晶片領域不同,語音互動領域的晶片正處在上升期,目前玩家也比較少。

一個比較重要的原因在於,語音互動鏈條比較長,全棧打通的少。就此而言,這類晶片的設計,比影像和視訊深度學習晶片更復雜。

雲知聲能將降噪、語音識別和語音合成結合到 UniOne ,離不開雲知聲修建的「高速公路」 Atlas,「你可以叫它雲知聲版本的 TensorFlow」 黃偉說。

公司將統計學習和深度學習的演算法抽象出來,搭建出一個通用 ML 平臺。在這條高速公路的幫助下,雲知聲衍生出語音識別、NLP、TTS 等技術。只需少數的人才即可完成全棧的能力,無需(實際上也不可能)為全鏈條的每個技能建造一支深度學習團隊。

「包括我們的晶片也是從這衍生出來的。」黃偉介紹道,指令集(也是最為重要的部分)就是函式,我們將 Atlas 裡面的深度學習的一些常規演算法、函式硬體化了。由於 Atlas 是與硬體耦合在一起(這一點與TF不同)的,因此研發效率也高很多。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事雲知聲 CEO 黃偉講述公司為什麼可以在人數並不多的情況下做了這麼多事情。全棧能力與研發效率固然是一方面,但是讓李霄寒印象最為深刻的體驗是:AI 晶片在保證高效能、高能效比的同時,兼顧靈活性和通用性。他認為,這是晶片設計中最難把握的事情之一。

「我們曾經追求過極致效能,也追求過極致功耗。但後來發現過了一定程度,超出你的需要之後,真心沒那麼重要。追求極致功耗很容易,但是你的成本會上來,技術挑戰也會上來。」李霄寒說。

「風險加大。一旦你失敗,意味著你這一年來白做了。」視窗期的時間成本,誰都浪費不起。

還有演算法方面的平衡。比如,既要考慮到對演算法要有一定的耦合性,這樣才能最優化,又考慮到要降低它的耦合。

而且做智慧家居,光有聲音是不夠的,未來還需要畫面甚至執行能力(比如機器人)。 「我們這枚晶片還可以跑影像。」黃偉說,我們判斷教育未來也應該是多模態的。

過去三年中,雲知聲花了很多時間在調研,而流片時間其實只有半年。

「其餘時間都是利用各種工具在紙上推演。從當初許多選擇,最後剩下一兩個。」李霄寒說。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事雲知聲 IoT 事業部副總裁李霄寒

「如果三年前,現在這些晶片創業公司已經存在,你們會選擇與他們合作嗎?」筆者不禁好奇。

「不會」李霄寒坦言。因為無法確定有限時間裡,是否可以做出晶片。不過,最關鍵的是「不知道最後適不適合我們。」

演算法本身是在演進。「這需要晶片公司對演算法有深刻的瞭解,而且對這個演算法有一個比較強的抽象能力,你對他未來的演進是有足夠的信心,你才去敢為這個東西為它不變的那部分去設計晶片。」李霄寒說。而這,正是很多晶片公司比較糾結的地方。晶片公司永遠不知道哪個時間點演算法會穩定下來。

所謂指令集,其實就是函式。對於演算法公司來說,他們幾乎不可能將核心演算法的原始碼開放給晶片公司。然而,ASIC 存在的目的就是讓深度學習發揮最大威力,如果沒有深度耦合,彼此不能開誠佈公,這也就失去研發這枚晶片的真正意義。黃偉補充道。

公開資料顯示,UniOne 功耗與效能的設計上,通過運算單元之間的可程式設計互聯矩陣,在保證運算效率的同時,採用多級 - 多組 - 多埠的 Memory 架構以保證片內資料 頻寬的提升及降低晶片功耗。

而在架構靈活性方面,通過 Scratch-Pad 將主控 CPU 與 AI 加速器內部 RAM 相連,提供高效的 CPU 與 AI 加速器之間的資料通道,以便 CPU 對 AI 加速器運算結果進行二次處理。

另外,連線各個運算單元的可程式設計互聯矩陣架構,提供了擴充套件運算指令的功能,從而進一步提升硬體架構的靈活性及可擴充套件性。

此外,晶片架構方面的其餘探索還包括多級多模式喚醒、從能量檢測到人類聲音檢測到喚醒詞檢測、針對語音裝置及使用場景的定製化 Power Domain 等技術,將晶片功耗降至最低。全棧技能與平衡藝術:首枚面向物聯網AI晶片UniOne背後的故事如果將鏡頭從語音互動公司身上離開,拉遠至整個物聯網領域的玩家,幾乎所有的網際網路巨頭都進入到了視野。

今年 4 月,阿里高調進軍物聯網。作為電商和雲端計算巨頭,阿里無疑具有成為中國版「Echo」的野心。

即將赴港 IPO 的小米也在說明書中表明所募資金的30%將用於 IoT(物聯網)、生活消費產品及移動網際網路服務(包括人工智慧)等生態鏈建設。

陸奇空降百度後,DuerOS 就上升到了與 Apollo 一樣的戰略高度。目前,已經廣泛賦能智慧家居、可穿戴、車載和移動多個行業,並與小魚在家、聯想、美的的多家企業達成生態合作。

什麼型別的公司會有更有勝算?是「從軟到硬」的技術公司,還是「從硬到軟」的玩家?還是網際網路巨頭?這枚 AI 晶片又能為「從軟到硬」的公司贏得多大分量的勝算籌碼?

「百度是先 DuerOS,然後通過投資和併購落地。我們是通過晶片模組植入裝置來落地,然後同時去滿足雲端服務需求。」黃偉說,一個是自上而下,一個自下而上。

但是,端落地比雲端複雜地多,也不具有很強的複製性,這可能不是巨頭擅長的。巨頭也要補足自己全棧上的短板。

不過有一點是肯定的,由於 AI 晶片的交叉學科性質,這裡存在一定的技術縱深。

「一年前的技術領先可能被後來的人追趕上了,但是這個基礎上,仍然有我們向前進的空間。」李霄寒說。

所以,對於創業公司也好,或者比較有實力技術公司也好,在一定時間之內,它們可以與後面的公司持續性地拉開距離,並保持這一優勢。

而在黃偉看來,現階段最重要的仍然是資料。

「假如我的晶片成本是 2 美金,給車廠賣 8 美金,6 美金裡包含了我的利潤,包含了軟體部分。」他說,

「現階段最重要的是讓中國千萬臺車植入我們的晶片,所有的資料和服務內容都連線到我們的雲端,這會是更大的價值。」

相關文章