AI晶片的長征之路:挑戰與機遇

半導體行業觀察發表於2019-06-24

AI晶片的長征之路:挑戰與機遇

早上好,女士們先生們,

歡迎來到中國,歡迎來到北京!

感謝Kisaco Research的邀請,非常榮幸能夠在首屆亞洲AI硬體峰會上發表開幕主題演講。

當我在今年早些時候確定了“AI晶片的長征之路”這個題目的時候,我並沒有預料到“長征”這個詞現在會變得如此熱門。縱觀國際上最近發生的有關技術和非技術的事件,我認為現在有必要反思一下這些變化將如何重塑我們未來的世界。

很多人認為AI將從根本上改變每個人的生活,有些人甚至把AI比作“第四次工業革命”。我認為這種說法一點也不誇張,我也相信AI的進步最終會對新的世界秩序和格局產生重大影響。

計算能力是推動AI產業發展的關鍵動力之一,在過去幾年我們已經看到了其非常迅猛的發展勢頭。然而,我認為我們還需要很長一段時間才能充分理解我們對此的真實願景,並開發出各種能夠真正滿足我們需求的AI晶片。因此,我想在這裡和大家討論並分享一些想法,我們該如何應對當前的局面、克服挑戰並探索新機遇。

AI晶片的長征之路:挑戰與機遇

在我們談論AI晶片之前,我認為有必要回答這樣一個問題:為什麼現在是合適的時機?

想必這裡的絕大多數觀眾都非常熟悉摩爾定律的即將終結:

  • 首先,現如今單個電晶體的成本不再隨著更先進的製程而下降;

  • 這導致CPU每年的價效比改進率從本世紀初的48%下降到最近的個位數;

  • 更糟糕的是,擁有尖端製造能力的晶圓廠數量也從20年前的25家減少到當今的寥寥數家;

  • 由於良性迴圈無法持續,移到新制程的成本變得越來越高。

為了進一步論證這一趨勢,我們看到從2016年開始,英特爾的固定成本已經開始超過了其可變製造成本部分,也因此放棄了長期以來的Tick-Tock戰略,轉而採用三步走的“製程-架構-優化” —— 這是為了延長固定成本攤薄週期而做出的必要妥協。

這種變革的影響是如此之大,以至於像你和我這樣大多數普通人都能深切感受到通用計算的進步在放緩。正如我在幻燈片上所說的無形之手,它的本質是市場的供求關係。當這裡的供應,即CPU的效能提升增長慢於對計算能力的需求時,這會造成資料中心實質上的“赤字”——對於像阿里巴巴這樣的公司來說,雲端計算對計算能力有著巨大且持續增長的海量需求,那麼對我們來說只有兩條路可走:要麼再去建更多的資料中心併購買更多的CPU伺服器,要麼去尋求那些更強大、更經濟、更高效的替代品。

這就是為什麼我想說,摩爾定律的放緩和通用計算的衰落實際上更像是一個經濟問題,而不僅僅是一個單純的技術問題(注:見後通用晶片時代:專用晶片興起背後的經濟學)。專用硬體的興起將能很大程度上緩解資料中心的”赤字“問題。

AI晶片的長征之路:挑戰與機遇

如果說智慧手機是時代的必然,但iPhone的成功卻是不可預測的;就像一片落葉,我們不知道風會把它吹到哪裡,但我們知道最終它會落到地面上。

與許多大型網際網路公司一樣,AI在阿里巴巴遍地開花。近年來,無論是內部應用還是在阿里雲上,我們都看到了對異構計算資源(主要是GPU)的強烈需求,而這種趨勢也將會在未來相當一段時間內繼續持續下去。但是在這裡我們不禁要問,如果AI加速器是歷史的必然,那GPU就是必然的選擇麼?

GPU很強大也很好用,但它也不是完美的:

  • 首先,它不是專門針對神經網路設計的,所以大量的無用面積(dark silicon)被浪費掉了;

  • 它目前既不支援物理資源切區也不支援真正的多租戶,因此沒有太大的靈活性用於提高雲的利用率和實現真正的彈性;

  • GPU的驅動程式更像是一個黑匣子,終端使用者缺乏主導權;

  • 最後但同樣重要的是,無論皮衣教主告訴我們多少次“買的越多,省的越多”,GPU仍然價格不菲!

雖然GPU在生態建設方面遠遠領先於其他所有人,但我並不認為GPU是AI加速的最終答案和唯一選擇,尤其是在推理領域,AI加速有許多利基市場需要專業化的服務。同樣地,這個世界也需要更多的多樣性。

AI晶片的長征之路:挑戰與機遇

正如我們看到的,AI在各行各業生根發芽並茁壯成長,那些真正在乎自己軟體的人也正在考慮擁有自己的硬體加速器。

我在此要祝賀這裡所有的AI晶片初創公司。你們在過去兩年裡突飛猛進,總共籌集了超過25億美元的投資,非常厲害!來,讓我們為自己先鼓個掌!

有幸在過去的兩年裡有機會和你們中的一部分人有過深入交流並有機會合作,很高興能成為你們初創專案前進的一部分。然而,每一個派對都有結束的時候,隨著帷幕逐漸落下,我不得不說,冬天已經要來了。

AI晶片的長征之路:挑戰與機遇

我說冬天要來了,有這麼幾個原因:

  • 首先,世界頭兩大經濟體仍然無法達成表面上的共識,這對兩個國家的諸多公司來說都是利空:中國公司將更難獲得最新和最好的晶片設計技術;而另一方面,美國公司也有失去中國市場的巨大風險。這顯然對雙方都是不利的,也無助於緩解我們剛剛討論過的資料中心“赤字”問題;

  • 在過去的幾十年裡,計算技術的進步佔到了美國非農生產率增長的近一半之多。通用計算的放緩已經是壞訊息,而資料中心“赤字”的擴大肯定會影響長期經濟增長,並可能使未來的融資變得更加困難;

  • 即使我們把經濟問題放在一邊,只談技術,我看到相當多的公司,他們的產品老實說只適合演示,而缺乏商業化的能力。有些只能跑一小部分的應用demo,而那些也往往缺乏對終端使用者可感知的差異點;

  • 而另一個壞訊息是,AI應用的創新腳步也在放緩,這將會影響AI硬體的競爭態勢。我們可以看到GPU也在快速發展,要趕上這個移動的目標會變得愈發吃力。臺下許多公司即將推出新一代AI硬體產品,我認為2019年對你們中的一些人來說可能是期中考試,對另外一些更像是期末大考

我夫人和我說過她第一天上法學院的故事——院長要求學生環顧四周看看誰坐在他們旁邊,然後說,“你沒必要記住這些人,這並不重要,因為你現在的許多鄰座無法熬過未來的3年”。這是生活展現給我們真實的一面。我也真心希望你們中的大多數人明年還能有機會參加今天這個峰會。

AI晶片的長征之路:挑戰與機遇

這聽了是不是很令人沮喪,不是嗎?

在中國,當我們談到困難的時候,我們總是說“危機背後往往蘊藏機遇”,這也就是為什麼我們創造了“危機”這個詞。就像英語裡說的,“冬天來了,春天還會遠嗎”?

AI晶片的長征之路:挑戰與機遇

我想,我對AI晶片行業總體是樂觀的,而其中最重要的因素在我看來就是中國(至少對中國公司來說)。

  • 首先是資本的力量,尤其是當AI和半導體已經成為了這個國家高優先順序發展戰略的背景下。雖然這可能不是發展一個行業最經濟有效的方式,但我們可以放心,最終一定會有好的結果產生。我們將看到這個領域更多的獨角獸從各種渠道獲得更多的投資,他們自然會變得更強;

  • 其次,中國擁有比世界上其他大多數國家更多的AI適用場景——從電子商務到移動支付,我們可以看到,只要有足夠的市場需求就會有相應的方案來滿足需求,而中國已在這些新興應用上早已領跑全球。同樣地,這還是市場供需關係和看不見的手的力量。現如今,我們討論計算機體系結構的黃金時代,為特定領域而做專用設計(Domain Specific Design)是實現差異化的重要手段。AI將繼續以用例和場景驅動的形式發展。只要有足夠的需求,AI和AI晶片在中國都將會有很好的發展前景;

  • 此外,市場規模巨大,大到足以養活許多公司,以至於他們可以搭建一個完整的生態系統甚至是供應鏈。以智慧城市為例,安防攝像頭將為邊緣和資料中心的AI加速系統帶來大量資料和智慧,這是一個巨大的市場。

總而言之,我非常看好中國的機會。我們有理由相信中國將繼續在AI領域發揮重要作用,AI晶片將成為中國新興半導體產業的主導因素和驅動力。通用計算的放緩為中國提供了一個巨大的歷史機遇。

AI晶片的長征之路:挑戰與機遇

那麼,我們如何抓住這些機會呢?當我和你們中的許多人討論你們的產品時,總是被問到我是否能給你們一些建議。那今天,我想提三個建議:

  • 我的第一個建議是軟體。在你們問我要建議之後最喜歡問的問題是,“你有多少軟體工程師?”。我們敞開來說,對於大多數的AI晶片來說,就硬體設計的相對複雜性而言,它其實並沒有特別的難。在我看來,很多公司,包括風險投資公司,過於注重硬體能力,而對軟體往往投入不足。我想看到你們能招聘更多的軟體工程師,然後我想我們就有了可以討論軟硬體協同設計的基礎。

  • 我的第二條建議也是關於軟體的。當今世界垂直整合是一個趨勢,單獨做好自己的軟體是不夠的,要做好被整合的準備。軟體本質上是你和你的客戶之間的介面和紐帶,更好的AI硬體產品在實現基礎賦能之外還需要能為客戶提供解決方案。如果你想擴大潛在的客戶群體,那真應該認真考慮與像阿里雲這樣的雲服務提供商合作(如果還沒有的話)。

  • 或許你也猜到了,我的第三條建議還是軟體。我想敦促你思考如何在軟體方面進行差異化,並讓這些差異能讓你的客戶所感知,比如如何實現多租戶,如何做一站式快速上線方案,如何同時在資料中心和邊緣輕鬆部署。

我認為如何強調軟體的重要性都不為過,對於軟體的認知關係到你如何定位你的產品和你的公司。

AI晶片的長征之路:挑戰與機遇

說到定位,我們來談一下戰略的本質。這是Michael Porter所作的一張著名圖表(我在商學院裡最喜歡的圖表之一),我認為它對當今AI晶片的競爭版圖也非常適用。

一個公司可以針對多個細分市場做開發,但歸納起來其實只有兩種真正的競爭優勢:1)比競爭對手做到成本更低,2)或實現差異化

讓我試著解釋一下這個戰略的本質並用例子來說明——比如說有公司來找我,“我的晶片具有非常好的perf/watt能效比,這就是我針對NVIDIA GPU的優勢”。如果我們說同樣的一塊75瓦PCIe板卡形態的產品,那你的產品實際上就是在單卡上能處理更多工作,比如用1張卡替換2個GPU,這只是成本上的節省。如果我們從另外一個角度來看,比如你的晶片只有幾瓦卻能與一個75W的GPU效能等效,這樣你就可以在一個新的維度上進行競爭了。繼續用智慧城市場景作為例子,你現在可以用一個小型的機頂盒大小的裝置替換掉一個大伺服器,這樣可以讓AI變得更輕,更容易在在邊緣場景落地,而我將這樣的方案稱之為相對於GPU的差異化

NVIDIA的GPU在軟體生態方面確實走在了前面,這在於先發優勢和多年的積累。我不建議你直接在左上角與NVIDIA競爭——這個象限不適用於小公司或新專案。同樣地,我不認為你們大多數人或你們的投資者希望你們永遠停留在右上角。

我鼓勵後來者從特定的細分市場和特定的行業開始發力,並保持專注,這是實現成本效益和差異化的最佳機會。這也是為什麼大多數公司從都是從推理晶片開始做,而非訓練晶片。

如果過於野心勃勃,那麼你可能會浪費寶貴的資源,最終陷入到“卡在中間”的困境中去。我有一個“卡在中間”的例子是那些看似巧妙的可變精度設計,而實際上每個應用對此的要求都是不同的且難以做到通用化。Flexpoint是一個很有意思的想法但最終卻失敗了——英特爾最終不得不放棄這個方案。遺憾的是,這讓英特爾錯過了很好的時機,浪費了先發優勢。

AI晶片的長征之路:挑戰與機遇

從這個案例的教訓總結一下,我想鼓勵你多和你的顧客交流,不要閉門造車。作為一家晶片公司,不要夢想一夜之間就能改變整個軟體生態系統。技術可以自下而上,而戰略應該自上而下。瞭解你之所長,再設計與之匹配的戰略。

  • 只有與客戶交流並共同解決實際問題,你才能發現真正的需求,修復真正的問題,然後再反過來改進迭代你的產品。

  • 另外,因為這是一個2B的業務,請不要把資源分得太散。專心支援你的客戶,最終你會得到你想要的回報。

  • 如果你想進入雲服務市場,請儘早開始佈局,並花費足夠的精力將你的軟體整合進去。

AI晶片的長征之路:挑戰與機遇

當了解了需求之後,我也希望你能更大膽一點。

  • 我鼓勵你能大膽地去定義你的產品。我看到一些公司有非常紮實的技術,但他們在產品定義和規劃方面過於謹慎,只是跟蹤GPU或競爭對手。回到戰略的本質,如果你只是一個跟隨者或者一個GPU的簡單替代品,那你只是在低成本而非差異化上競爭。很快,你就會發現很難向你的投資人證明你值得起你現在的估值。請不要浪費大好時機。

  • 我也希望你大膽地嘗試新技術,無論是存內計算、類腦還是基於光學的解決方案,如果你能在某個領域達到十倍或者百倍的提升,然後再將產品商業化,那你就有機會脫穎而出,並實現差異化。要麼幹票大的,要麼就回家(Go Big or Go Home)。

  • 大膽也意味著在提供基本的加速能力之外能主動往前一步幫助客戶解決實際問題。

AI晶片的長征之路:挑戰與機遇

這是最好的時代,也是最糟糕的時代。現在是你展示自己潛力的時候,抓住機會籌集更多的錢,為冬天做準備,活下來才有繼續戰鬥的資本。

要徹底解決AI加速的供需問題還需要很長的時間,只要你找到正確的方向,合理地利用你的資源,你就能成功。

我們正處在這樣一個時代:優秀的產品可以快速地、非線性地實現增長。雲就是你最好的朋友,如果你認為你的產品不錯,歡迎來與我們交談。

對於所有公司來說,AI和AI加速都是一個相對新的領域,我想強調的是,現在正是開始討論並領導建立新標準的好時機。

AI晶片的長征之路:挑戰與機遇

AI基準測試(benchmark)是我看到的機遇之一。

我在去年推出了阿里巴巴的AI Matrix benchmark。我們希望我們的benchmark能做到開放和靈活,並且可以讓測試評估AI加速器變得簡單。它現在已經成為我們評估AI晶片的標準流程的一部分,你們中的許多人正在與我們合作——我也多次明確表示它是你們進入阿里巴巴生態系統的門票。我們的合作伙伴對此非常支援,如果你有興趣與我們合作,非常歡迎下載試用一下我們網站上的公開版本並向我們提供反饋。

同樣有著開放和快速迭代的理念,MLPerf是一個新興的國際AI benchmark社群。阿里巴巴是早期的參與者,也從一開始就為社群在做貢獻。我們正籌劃在今年建立一個正式的組織MLCommons,我鼓勵所有這裡的公司,無論大小,特別是中國公司,參與進來並展現出你的技術能力和領導力。中國是AI應用和AI晶片創新的試驗場(playground),要讓世界聽到你的聲音,這樣你也有機會參與到重塑世界格局的程式中去。作為MLCommons的董事會成員,我將非常樂意在茶歇期間與你分享更多相關資訊。

AI晶片的長征之路:挑戰與機遇

所以,2019年是令人興奮的一年,我期待看到更多公司釋出新產品,並將AI Matrix和MLPerf結果報告帶給我。我非常樂意與你們每一位進行合作。

行勝於言,我想看到你們能成功地做出晶片,亮出產品,show出benchmark的結果。

AI晶片的長征之路:挑戰與機遇

如果我們把AI晶片的旅程比作慢慢長征,那其中肯定會有起起伏伏。最後,我想以一句詩來結束我今天的演講——因為我擔心翻譯會詞不達意,所以我在這裡直接使用中文。

“雄關漫道真如鐵,而今邁步從頭越。”

這句詩寫於84年前長征路上的關鍵時刻,我認為它也很好地反映了今天我們所面臨的局勢。在AI應用和AI晶片的強力推動下,2019年對於中國半導體行業而言很可能就是一個新的起點。

總結一下:

  • AI晶片是歷史的必然;

  • 這更是一個經濟學問題,而不僅僅是一個技術問題;

  • 我們處在一個令人困惑的時刻,有必要未雨綢繆;

  • 無論如何,我看好中國的機會;

  • 我希望AI硬體公司能重新審視你們的策略,並能保持專注;

  • 對於中國的公司而言,你們應該振作起來,因為這很可能是一個引爆點 - 你不僅有很大的潛力和空間來引領創新,而且還能重塑世界的新秩序。

謝謝!

徐凌傑

阿里巴巴集團阿里雲智慧事業群總監。他的團隊目前專注於AI架構與應用的軟硬體協同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星擔任過多個GPU專案的高階管理和架構師的職位。

相關文章