向英偉達發起挑戰的Groq是什麼來頭?簡單科普新型AI晶片LPU

机器之心發表於2024-03-06
這是一篇關於 LPU 的簡單科普。

在如今的人工智慧領域,「GPU is All You Need」已經逐漸成為共識。沒有充足的 GPU,連 OpenAI 都不能輕易升級 ChatGPT。

不過最近,GPU 的地位也在經受挑戰:一家名為 Groq 的初創公司開發出了一種新的 AI 處理器 ——LPU(Language Processing Unit),其推理速度相較於英偉達 GPU 提高了 10 倍,成本卻降低到十分之一。

在一項展示中,LPU 以每秒超過 100 個片語的驚人速度執行了開源的大型語言模型 —— 擁有 700 億個引數的 Llama-2。下圖展示了它的速度,可以看到,人眼的閱讀速度根本跟不上 LPU 上模型的生成速度:

向英偉達發起挑戰的Groq是什麼來頭?簡單科普新型AI晶片LPU

此外,它還在 Mixtral 中展示了自己的實力,實現了每個使用者每秒近 500 個 token。

這一突破凸顯了計算模式的潛在轉變,即在處理基於語言的任務時,LPU 可以提供一種專業化、更高效的替代方案,挑戰傳統上占主導地位的 GPU。

不過,原阿里技術副總裁、Lepton AI 創始人賈揚清發文分析稱,Groq 的實際部署成本可能遠高於預期。因為 Groq 的記憶體容量較小,執行同一模型(LLaMA 70B)最少需要 305 張 Groq 卡(實際需要 572 張),而使用英偉達的 H100 只需 8 張卡。從目前的價格來看,Groq 的硬體成本是 H100 的 40 倍,能耗成本是 10 倍。如果執行三年的話,Groq 的硬體採購成本是 1144 萬美元,運營成本是 76.2 萬美元或更高。8 卡 H100 的硬體採購成本是 30 萬美元,運營成本是 7.2 萬美元或略低。因此,雖然 Groq 的效能出色,但成本和能耗方面仍有待改進。

圖片

此外,Groq 的 LPU 不夠通用也是一大弱點,這使得它短期內很難撼動英偉達 GPU 的地位。

圖片

下文將介紹與 LPU 有關的一系列知識。

LPU 是什麼?

究竟什麼是 LPU?它的運作機制是怎樣的?Groq 這家公司是什麼來頭?

根據 Groq 官網介紹,LPU 是「language processing units(語言處理單元)」的縮寫。它是「一種新型端到端處理單元系統,可為人工智慧語言應用等具有序列成分的計算密集型應用提供最快的推理」。

圖片

還記得 2016 年 AlphaGo 擊敗世界冠軍李世石的那場歷史性圍棋比賽嗎?有趣的是,在他們對決的一個月前,AlphaGo 輸掉了一場練習賽。在此之後,DeepMind 團隊將 AlphaGo 轉移到 TPU 上,大大提高了它的效能,從而以較大優勢取得了勝利。

這一刻顯示了處理能力在充分釋放複雜計算潛能方面的關鍵作用。這激勵了最初在谷歌領導 TPU 專案的 Jonathan Ross,他於 2016 年成立了 Groq 公司,並由此開發出了 LPU。LPU 經過獨特設計,可迅速處理基於語言的操作。與同時處理多項任務(並行處理)的傳統晶片不同,LPU 是按順序處理任務(序列處理),因此在語言理解和生成方面非常有效。

圖片

打個比方,在接力賽中,每個參賽者(晶片)都將接力棒(資料)交給下一個人,從而大大加快了比賽程序。LPU 的具體目標是解決大型語言模型 (LLM) 在計算密度和記憶體頻寬方面的雙重挑戰。

Groq 從一開始就採取了創新戰略,將軟體和編譯器的創新放在硬體開發之前。這種方法確保了程式設計能夠引導晶片間的通訊,促進它們協調高效地執行,就像生產線上運轉良好的機器一樣。

因此,LPU 在快速高效地管理語言任務方面表現出色,非常適合需要文字解釋或生成的應用。這一突破使系統不僅在速度上超越了傳統配置,而且在成本效益和降低能耗方面也更勝一籌。這種進步對金融、政府和技術等行業具有重要意義,因為在這些行業中,快速和精確的資料處理至關重要。

LPU 溯源

如果想要深入瞭解 LPU 的架構,可以去讀 Groq 發表的兩篇論文。

第一篇是 2020 年的《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》。在這篇論文中,Groq 介紹了一種名為 TSP 的架構,這是一種功能分片微架構,其記憶體單元與向量和矩陣深度學習功能單元交錯排列,以利用深度學習運算的資料流區域性性。

圖片

論文連結:https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf

第二篇是 2022 年的《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》。在這篇論文中,Groq 介紹了用於 TSP 元件大規模互連網路的新型商用軟體定義方法。系統架構包括 TSP 互連網路的打包、路由和流量控制。

圖片

論文連結:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

Groq 的詞典中,「LPU」似乎是一個較新的術語,因為在這兩篇論文中都沒有出現。

不過,現在還不是拋棄 GPU 的時候。因為儘管 LPU 擅長推理任務,能毫不費力地將訓練好的模型應用到新資料中,但 GPU 在模型訓練階段仍佔據主導地位。LPU 和 GPU 之間的協同作用可在人工智慧硬體領域形成強大的合作伙伴關係,二者都能在其特定領域發揮專長和領先地位。

LPU vs GPU

讓我們比較一下 LPU 和 GPU,以便更清楚地瞭解它們各自的優勢和侷限性。

用途廣泛的 GPU

圖形處理單元(GPU)已經超越了其最初用於渲染影片遊戲圖形的設計目的,成為人工智慧機器學習工作的關鍵要素。它們的架構是並行處理能力的燈塔,可同時執行數千個任務。

這一特性對那些需要並行化的演算法尤為有利,可有效加速從複雜模擬到深度學習模型訓練的各種任務。

GPU 的多功能性是另一個值得稱道的特點;它能熟練處理各種任務,不僅限於人工智慧,還包括遊戲和影片渲染。它的並行處理能力大大加快了 ML 模型的訓練和推理階段,顯示出顯著的速度優勢。

然而,GPU 並非沒有侷限性。它的高效能是以大量能耗為代價的,這給能效帶來了挑戰。此外,GPU 的通用設計雖然靈活,但並不總能為特定的人工智慧任務提供最高效率,這也暗示了其在專業應用中潛在的低效問題。

擅長語言處理的 LPU

語言處理單元(LPU)代表了 AI 處理器技術的最前沿,其設計理念深深植根於自然語言處理(NLP)任務。與 GPU 不同,LPU 針對序列處理進行了最佳化,這是準確理解和生成人類語言的必要條件。這種專業化賦予了 LPU 在 NLP 應用中的卓越效能,使其在翻譯和內容生成等任務中超越了通用處理器。LPU 處理語言模型的效率非常突出,有可能減少 NLP 任務的時間和能源消耗。

然而,LPU 的專業化是一把雙刃劍。雖然它們在語言處理方面表現出色,但其應用範圍較窄。這限制了它們在更廣泛的 AI 任務範圍內的通用性。此外,作為新興技術,LPU 還沒有得到社群的廣泛支援,可用性也面臨挑戰。不過,隨著時間的推移和該技術逐步被採用,這些差距可能在未來得到彌補。

圖片

Groq LPU 會改變人工智慧推理的未來嗎?

圍繞 LPU 與 GPU 的爭論越來越多。去年年底,Groq 公司的公關團隊稱其為人工智慧發展的關鍵參與者,這引起了人們的興趣。

今年,人們重新燃起了興趣,希望瞭解這家公司是否代表了人工智慧炒作週期中的又一個轉瞬即逝的時刻 —— 宣傳似乎推動了認知度的提高,但它的 LPU 是否真正標誌著人工智慧推理邁出了革命性的一步?人們還對該公司相對較小的團隊的經驗提出了疑問,尤其是在科技硬體領域獲得巨大認可之後。

一個關鍵時刻到來了,社交媒體上的一篇帖子大大提高了人們對該公司的興趣,在短短一天內就有數千人詢問如何使用其技術。公司創始人在一次視訊通話中分享了這些細節,強調了熱烈的反響以及他們目前由於沒有計費系統而免費提供技術的做法。

圖片

公司創始人對矽谷的創業生態系統並不陌生。自 2016 年公司成立以來,他一直是公司技術潛力的倡導者。此前,他曾在另一家大型科技公司參與開發一項關鍵的計算技術,這為他創辦這家新企業奠定了基礎。這段經歷對公司形成獨特的硬體開發方法至關重要,公司從一開始就注重使用者體驗,在進入晶片的物理設計之前,公司最初主要致力於軟體工具的開發。

隨著業界繼續評估此類創新的影響,LPU 重新定義人工智慧應用中的計算方法的潛力仍然是一個引人注目的討論點,預示著人工智慧技術將迎來變革性的未來。

原文連結:https://dataconomy.com/2024/02/26/groq-sparks-lpu-vs-gpu-face-off/?utm_content=283765034&utm_medium=social&utm_source=twitter&hss_channel=tw-842860575289819136

相關文章