AI晶片現狀:領導者很難被超越
第二屆AI HW峰會於9月17日至18日在矽谷中心舉行,近50位演講者向500多位與會者(幾乎是去年首屆參會人數的兩倍)發表了演講。雖然我不可能在一個簡短的部落格中涵蓋所有展示的公司,但我想分享幾點看法。
John Hennessy的觀點
計算機架構傳奇人物John Hennessy,Alphabet董事長兼史丹佛大學前校長。他介紹了半導體的歷史趨勢,其中摩爾定律和Dennard Scaling的過時消亡,引發了對“特定領域架構”(Domain-Specific Architectures)的需求和機遇。這個"DSA"概念不僅適用於新穎的硬體設計,也適用於深度神經網路的新軟體架構。挑戰是建立和訓練大量的神經網路,然後最佳化這些網路,使其在DSA上高效執行,無論是CPU、GPU、TPU,ASIC、FPGA或ACAP,用於新輸入資料的"推理"處理。大多數初創公司明智地決定專注於推理處理,而不是訓練市場,避開挑戰英偉達。
一種新的軟體方法,即軟體透過迭代學習過程建立“軟體”(又稱“模型”),需要超級計算效能。為了使這個問題更具挑戰性,這些網路模型的規模呈指數級增長,每3.5個月翻一番,從而對效能的需求不斷提高。因此,現在有100多家公司正在開發新的體系結構,以提高效能並降低計算成本。但是,他們的工作量很大。英特爾Naveen Rao指出,要實現每年所需的10倍改進,架構,晶片,互連,軟體和封裝方面都需要2倍的進步。
圖1:IntelNaveen Rao表示,處理不斷增加的模型複雜性所需的計算能力每年需要提高10倍。
觀察#1:領導者很難被超越
初創企業可以並且將會發明出新穎架構,並在效能上擊敗老牌公司。但是它們仍需要與大型客戶建立合作伙伴關係才能將這些技術大規模推向市場。儘管豐富的體系結構方法令人驚奇,但硬體和必備軟體的開發速度都慢得令人沮喪。一年前,數十家創業公司在峰會上用PowerPoint展示了他們的計劃。今年,數十家創業公司展示了更新的PowerPoint。但是,硬體在哪裡?
事實上,自上次峰會以來,幾乎沒有新的晶片投入批次生產。高通的Snapdragon 855和阿里巴巴的含光800是個例外;Snapdragon當然是一款移動SoC,而含光只供阿里巴巴內部使用。在某種程度上,延遲的部分原因是這種材料比它最初看起來要難得多(不是所有的晶片嗎?)。但我們也要現實一點:20、50甚至100名工程師不會排除NVIDIA,Google,Xilinx,Microsoft,Amazon AWS和Intel等公司。他們可以創新出令人驚歎的新架構,但執行是工程學,而不是藝術。儘管許多人可以使用很多TOPS來構建快速的晶片,但它將“吸引”研究人員,工程師,大學教授,網際網路資料中心和社交網路公司,將這些TOPS轉變為可用的效能,併為這些新晶片構建和最佳化模型。
以色列初創公司Habana Labs就是一個很好的例子。Habana在首屆AI HW Summit峰會上推出了其首款令人印象深刻的晶片Goya,用於資料中心推理處理。然而,整整一年過去了,儘管Goya的效能非常出色,功耗非常低,但它並沒有得到市場的認可。這並不是因為Goya不能正常工作,而是因為"故事的其餘部分"需要花費一些時間和精力才能完成。
另一個例子是英特爾的Nervana神經網路處理器。即使有了創新的設計和世界一流的工程團隊,該晶片在經歷了3年的工作後被擱置。大約一年前,英特爾明智地選擇了回到最初,並收集了更多的經驗和客戶反饋,以弄清楚它如何與NVIDIA已有3年曆史的V100 TensorCore技術(仍是業界最快的AI晶片)競爭。與初創公司不同的是,英特爾可以耐心等待,直到它能夠贏得勝利:英特爾的Nervana處理器(NNP-T和NNP-I)現在預計將在今年晚些時候提供樣品。但是,NVIDIA也並沒有停滯不前——我們應該在不久的將來看到它新的7nm設計(也許在11月的SC19,但更有可能在明年春天的GTC 20。)
展望未來,新晶片的生產部署速度將取決於生態系統投資的深度和廣度,以及晶片本身的完成程度。請記住,儘管資料中心正在擁抱異構性,但他們更喜歡我所說的同類異構性-選擇數量最少的晶片體系結構,以覆蓋最廣泛的工作負載。否則,由於碎片化的計算領域利用率低,並且管理成本高昂,這樣做將無利可圖的。
觀察#2:有許多途徑可以提高效能
當我在峰會上聆聽演講者的演講時,他們所描繪的豐富的創新景觀讓我感到驚訝。除了使用較低的精度、張量核和Mac陣列(乘法累加核心)之外,這裡還有幾個亮點。順便說一下,這些都不是正交方法。例如,基於奧斯汀的Mythic公司正在使用快閃記憶體陣列進行模擬脈衝神經網路的記憶體計算。
圖2:為尋找更快更節能的DNN處理器而進行的一些創新的簡短列表。有些創新,比如量子計算,需要幾年時間才能實現。
這些體系結構有兩個主要類別:馮·諾依曼(Von Neuman)的大規模並行設計使用程式碼(核心)來處理數字計算機傳統領域中的矩陣運算(先執行,再執行……)。更激進的方法通常是將計算和記憶體融合在一個晶片上。或者使用組成神經網路的權重和啟用的數字表示,或者或者使用更類似於人腦生物學功能的模擬技術。模擬技術的風險較高,但可能有很大的前景。
許多數字記憶體設計都使用資料流計算架構,包括Cerebras和Xilinx Versal,在這些架構中,AI核心被嵌入帶晶片儲存器的結構中,這些儲存器將啟用連線到後續的網路層或從後續的網路層傳輸。要使這些設計在推理中執行良好,玩家需要開發自定義編譯器技術來最佳化網路,修整網路中未使用的部分,並消除零乘(當然,這裡的答案是零)。
圖3:一個有用且簡單的分類法,可以幫助您正確看待公司和架構風格,儘管這忽略了FPGA。
別誤會,這些公司中的大多數,無論大小,都會提供一些非常出色的設計。不過,請記住,一個新穎的DSA裝置構建有用的可擴充套件解決方案所需的時間和投資規模。為了正確看待這項投資,我懷疑NVIDIA每年花費數億美元來在全球範圍內促進其晶片上AI研究與開發的創新。沒有初創公司能與之相抗衡,因此他們需要透過一些設計上的巨大勝利來幫助他們跨越這個鴻溝。
觀察#3:NVIDIA仍然領先
NVIDIA公司資料中心業務部副總裁兼總經理伊恩·巴克(Ian Buck)是這次活動的最後一位演講者。他介紹道,NVIDIA公司透過其Saturn V超級計算機(在500強排行榜上名列第22位)支援的更快的軟體和DNN研究,在擴充套件其推理技術方面取得了進展。Buck指出設計勝出的理由,包括一些知名度和廣泛的用例。
圖4:NVIDIA能夠展示出12家採用GPU進行推斷的公司,以及所有主要的雲供應商。
為了幫助推動GPU上的推理應用,NVIDIA公司宣佈推出TensorRT軟體第6版,該軟體包括一個最佳化器和執行時支援,可在經過訓練的神經網路上部署經過訓練的神經網路,以對各種NVIDIA硬體進行推理處理。它支援99美元的Jetson用於嵌入式處理,Xavier用於自動駕駛汽車,Turing T4用於資料中心應用等。
其次,亞馬遜AWS宣佈支援NVIDIA TensorCore T4 GPU,這是一種75瓦的PCIe卡,可以支援複雜的影像,語音,翻譯和建議的複雜推理處理。NVIDIA T4將成為Habana Labs等初創公司和Intel Nervana等老牌公司的共同比較目標。雖然我認為新的晶片會帶來出色的效能指標,但NVIDIA公司將辯稱,這些裝置在雲中的實用性將取決於可用軟體的數量以及能否在這些加速器上執行各種模型的使用者群。
最終,NVIDIA證明了GPU可以在適當的位置不斷髮展(與許多初創公司所說的相反),它宣佈了用於語言處理的83億引數Megatron-LM變壓器網路。這是使用512個GPU在NVIDIA Saturn V上開發的,這也顯示了擁有自己的AI超級計算機時可以做什麼。請注意,根據mlPerf基準測試,NVIDIA在短短7個月內也將其現有V100 GPU的效能提高了一倍。
有些人仍然認為推斷是針對輕量級的。但NVIDIA公司表明,現代推理用例需要實時延遲的多個模型來滿足使用者的期望,20-30個容器協作回答一個簡單的口頭查詢。
圖5:本幻燈片描述了回答簡單口頭查詢的工作流程
結論
即將到來的寒武紀特定領域架構爆炸令人興奮,但是它仍然處於“很快就會出現在您附近的伺服器上”的階段中。當大多數初創公司開始發展人工智慧領域時,寒武紀就擁有了很多潛在客戶,例如Google,Amazon、 AWS,百度和阿里巴巴都將有自己的設計投入生產。此外,大型半導體供應商將準備使用新的矽材料來處理更大的網路(如Megatron-LM)或節能的推理設計。
這並不意味著初創公司應該簡單地放棄並將其資本返還給投資者,但是這些初創公司將有很高的門檻,而且利潤率很高。否則,他們將需要瞄準利基市場,在這些市場中他們可以以更高的能效和更低的價格獲勝。
當然,他們的另一個選擇是做大,或者回家,就像Cerebras最近在Hot Chips上釋出的Wafer-Scale AI Engine。然而,這不是我推薦給膽小的人的方法。我期待看到特定領域的體系結構進一步發展。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2659979/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- AI晶片市場現狀及企業競爭狀況AI晶片
- 英特爾AI晶片業務的現狀與未來AI晶片
- 又一AI公司被戳破謊言:"偽裝到你做到為止"真的很難AI
- “芯向行業,開放賦能” OPEN AI LAB攜手國產晶片領航者瑞芯微,共同推動AI晶片加速行業AI晶片
- 國產儲存晶片現狀如何?晶片
- 人工智慧與海量資料使科技巨頭難以被超越人工智慧
- 領導希望由測試組來澄清需求,很迷茫
- 制度領導者管理思路固化
- 騰訊安全被Forrester評為亞太地區企業欺詐管理“領導者”REST
- Nature解析中國AI現狀,2030年能引領全球嗎?AI
- 新火種AI|2024,得AI晶片者得天下。AI晶片
- python很難嗎Python
- 人才缺口達百萬:全解大資料、AI領域就業現狀大資料AI就業
- PingCAP 被評為 Translytical Data Platforms 2023 全球技術領導者PingCAPPlatform
- 追逐AGI!微軟AI副總裁、Phi小模型領導者Bubeck將加入OpenAI微軟模型OpenAI
- 驍龍855超越麒麟980?手機晶片AI效能最新評測基準出爐晶片AI
- “機器學習還是很難用!機器學習
- 面試真的很難嗎?面試
- DC/OS很難理解嗎?
- 學習java很難嗎?Java
- 工作容易,賺錢很難
- 歡迎客戶支援自動化領域的新興領導者 Percept.AI 加入 Atlassian 大家庭!AI
- Gartner:2022年領導力前瞻—軟體工程領導者(附下載)軟體工程
- 京都,你難道要超越GAINAX?AI
- 創新型領導者的十大特徵特徵
- AI晶片的過去、現在與未來AI晶片
- JS中的類很難嗎?JS
- 被領導逼瘋的測試 --- 尋求測試發展方向指導
- Bain & Company:AI需求激增可能再次導致全球晶片短缺AI晶片
- 致同女性領導者當選IWIRC香港董事會和全球領導團隊成員
- 騰訊AI Lab副主任俞棟:語音識別領域的現狀與進展AI
- 如今領占主導地位的19種AI技術!AI
- 亞馬遜雲科技連續八年被Gartner評為雲資料庫管理系統 “領導者”亞馬遜資料庫
- 人工智慧晶片發展的現狀及趨勢人工智慧晶片
- 從程式設計師到技術領導者程式設計師
- 學習3D建模很難嗎,是不是很辛苦?3D
- 【AI晶片】中國AI晶片爆發,架構創新迫在眉睫AI晶片架構
- 服務網格仍然很難 - cncf