一線 AI 洞察,智者深度思考
深入產業變革,共創 AI 未來
2025 年伊始,全球 AI 業界被 DeepSeek 刷屏。當 OpenAI 宣佈 5000 億美元的「星際之門」計劃,Meta 在建規模超 130 萬 GPU 的資料中心時,這個來自中國的團隊打破了大模型軍備競賽的既定邏輯:用 2048 張 H800 GPU,兩個月訓練出了一個媲美全球頂尖水平的模型。這一突破不僅撼動了英偉達萬億市值,更引發了整個行業的反思:在通往 AGI 的征程上,我們是否過於盲信算力規模,而忽視了一條更加務實且充滿創新可能的路徑?與 2023 年「更大即更好」的粗放發展觀不同,2025 年 AI 發展或將更像是一場精打細算的技術鍊金:如何用最少的資源最大化模型效能,如何在特定場景實現極致效率。DeepSeek 已經展現出這種方式的威力——開發者總是傾向於選擇價效比更高的開源方案,當千千萬萬的應用都以 DeepSeek 為基座,由此構建的生態將如何重塑 AI 產業格局?本期《智者訪談》邀請到清華大學計算機系長聘教授、高效能運算研究所所長翟季冬,深入探討大模型時代的 AI 算力最佳化之道。翟季冬教授指出,DeepSeek 實現百倍價效比提升的一個重要原因,是其在系統軟體層面的深度創新。「效能最佳化是一個無止境的過程,」翟季冬教授表示,在中國面臨算力資源挑戰的背景下,透過系統軟體創新提升算力效能,是產業突圍的關鍵。這不僅需要在程式語言、編譯器、通訊庫、程式設計框架等多個技術層面發力,更需要建立起完整的基礎軟體體系。當下,一個值得深思的現象是:儘管 AI 算力需求持續攀升,但國內眾多智算中心的國產算力資源卻存在閒置。供需錯配的背後,暴露出基礎軟體體系的短板。但困境也蘊含著重要機遇:如何打通從應用到系統軟體,再到自主晶片的完整鏈路,探索出一條符合中國現實的發展路徑?這不僅是技術創新,更是戰略抉擇。在算力主導 AI 競爭力的時代,如何讓每一份計算資源都能釋放最大價值,這個問題本身,與答案同樣重要。14:00 為何還沒 Transformer 專用晶片24:41 Infra 如何為下一代大模型做好準備訪談文字整理
機器之心:翟季冬教授好,歡迎做客機器之心的《智者訪談》。最近在 AI 算力市場出現了很多新的趨勢。首先,大家討論非常多的,Scaling Law 是不是真撞牆了?其次,隨著 OpenAI o1/o3 模型的推出,透過增加推理計算時間也能夠帶來模型效能的顯著提升,這也讓我們重新思考,究竟要把算力用在哪裡。可以看到,如何提升算力的利用效率,成為業界越來越關注的議題。非常高興能邀請到您,與我們一同從系統軟體的角度探討算力最佳化之道。翟季冬:謝謝主持人。非常榮幸來到機器之心做交流。Dr. Ilya Sutskever 在一次論壇上表示,我們所知的 Scaling Law 已經快走到終點。我認為這個問題分幾方面來看。首先,現在網際網路上高質量的文字資料的確是越來越少,但多模態資料(比如圖片、影片)還有很多挖掘空間,它們對未來模型訓練會產生非常大的影響。第二,以 OpenAI o1/o3 為代表的複雜推理系統,在後訓練階段使用了強化學習(RL)等技術,RL 會生成大量新的資料,這也導致對算力的需求持續增長。第三,如今訓練一個基座模型,可能需要幾周乃至一兩個月的時間,如果有更多算力,幾天就能預訓練出一個好的模型,這也將極大地改變後期的生產效率。此外,對於終端的使用者來說,大家對效能,包括對精度的追求實際上是無止境的。機器之心:DeepSeek 公司最近在業界引發廣泛討論,他們以較低成本訓練出了堪比國外頂尖水平的模型。從公開資訊來看,您認為這裡的提升主要在哪裡?翟季冬:首先是演算法層次的創新。他們採用了新的 MoE 架構,使用了共享專家和大量細粒度路由專家的架構。透過將通用知識壓縮到共享專家中,可以減輕路由專家的引數冗餘,提高引數效率;在保持引數總量不變的前提下,劃分更多的細粒度路由專家,透過靈活地組合路由專家,有助於更準確和針對性的進行知識表達。同時,透過負載均衡的演算法設計,有效地緩解了傳統 MoE 模型因負載不均衡帶來訓練效率低下的問題。其次在系統軟體層次,DeepSeek 採用了大量精細化的系統工程最佳化。例如,在並行策略方面,採用雙向流水的並行機制,透過精細的排布,挖掘了計算和通訊的重疊,有效的降低了流水並行帶來的氣泡影響;在計算方面,採用 FP8 等混合精度進行計算,降低計算複雜度;在通訊方面,採用低精度通訊策略以及 token 路由控制等機制有效降低通訊開銷。上述演算法和軟體的創新與最佳化,極大地降低了模型的訓練成本。DeepSeek 給我們的啟示,更多在於如何在有限的算力情況下,透過演算法和軟體的協同創新,充分挖掘硬體的極致效能,對中國發展未來人工智慧至關重要。從 DeepSeek 的成功可以看出,在大模型領域仍然存在很多可以改進的空間。他們的創新涵蓋了從演算法、軟體到系統架構的多個層面,為國內大模型的發展提供了很好的啟發。我是做高效能運算方向出身,我們領域一直在追求應用程式的極致效能。之前我在清華帶領學生參加國際超算比賽時,每當拿到題目,我們就會不斷思考:當你發現了負載的某些特點後,如何針對這些特點進行有效最佳化,可能會帶來幾十、幾百,甚至上千倍的效能提升。可以說,效能最佳化是一個永無止境的過程。在當前形勢下,中國在算力資源方面面臨很大挑戰。國外像微軟、X 公司等,投入了 10 萬卡甚至更大的規模,在如此雄厚的算力基礎上,他們可能會將更多精力放在設計更好的模型上,極致的效能最佳化也許並不是他們當前的重點。但當我們算力有限時,比如固定只有 1 萬張加速卡,就需要思考如何更極致地利用好這些硬體,挖掘演算法、系統,包括硬體等各方面協同創新的可能性。機器之心:追求效能最佳化和模型創新兩種發展路線是否相互衝突?它們能在同一個階段共存嗎?翟季冬:從系統軟體層面來看,它與演算法發展是解耦的。換句話說,這些最佳化技術同樣適用於算力更充足的場景,換到美國的研究環境中也可以應用,並不會阻礙上層模型的發展。機器之心:業界似乎還沒有一個客觀評價算力利用效率的體系或標準。從您的角度看,我們應該如何科學、客觀地評價算力的利用?翟季冬:這是個很好的問題。現在一些科技報導中經常提到「GPU 利用率」這樣的指標,但要評價一個系統是否用得好,很難用單一指標來衡量,就像評價一個人不能只看單一維度一樣。具體來說,在大模型訓練時,GPU 利用率只是其中一個方面。在大型叢集中,還包括網路裝置、儲存裝置等。僅僅追求 GPU 利用率很高,而網路利用效率或記憶體使用率很低,這並不是最優的狀態。從系統軟體最佳化的角度,我們需要追求整體的均衡,可能透過提高網路和記憶體的使用率來適當降低 GPU 消耗。評價標準也因場景而異。在訓練場景中,我們更關注整個叢集(包括加速卡、儲存、網路、通訊等)的整體利用效率。在推理場景中,終端使用者更關心延遲,比如是否能在幾毫秒內得到響應,除了第一個 token 的生成延遲,後續每個 token 之間的間隔時間也是重要的指標;算力提供方則更關注整體吞吐量,比如 1000 張加速卡每天能處理多少請求,是每天能響應 100 萬個請求,還是 1000 萬個請求。一個經常被忽視但很重要的指標是成本,特別是每個 token 的處理成本。大家總說追求極致效能,但當我們將成本約束也納入考慮時,對系統吞吐量和處理延遲的討論會更有現實意義。從長遠來看,顯著降低推理成本對於推廣 AI 應用至關重要。機器之心:由於中美之間的硬體差異,大家很關注軟體棧層面是否會出現代際分叉,甚至發展出不同的科技樹?翟季冬:中國確實在系統軟體方面面臨著不同的思考方向。在美國和歐洲,AI 基礎設施主要以 NVIDIA GPU 為主,但在中國,很難獲得最先進的 NVIDIA 算力。NVIDIA GPU 之所以受歡迎,很大程度上歸功於其成熟的生態系統。我印象很深刻的是,從我讀書時期開始,NVIDIA 就與清華等高校展開合作,探索如何更好地在他們的硬體上實現加速。他們現在的軟體棧也是經過多年積累形成的。相比之下,中國的 AI 晶片公司大多始於最近幾年,發展歷程不到十年。我們還有很長的路要走,無論是在底層編譯器最佳化晶片算力,還是在多卡互連的高效通訊協同方面。中國面臨雙重挑戰:一方面需要補齊短板,提升晶片易用性;另一方面由於獲取不到最先進的晶片製程工藝,可能會落後國外一到兩代。這使得軟體與硬體的協同最佳化在中國顯得更為重要,我們需要挖掘所有可能的最佳化空間。機器之心:從您的角度看,我們應該用什麼樣的思路來應對 NVIDIA 建立的軟體生態壁壘?翟季冬:作為後來者,我們首先要學習他們在運算元庫、程式語言和編譯器方面的先進理念。在不違反智慧財產權的前提下,我們可以借鑑這些成果。但也不能完全照搬,而是要有自己的思考。例如,在工藝製程落後的情況下,我們可以在軟體棧方面做些什麼?針對與 NVIDIA 不同的架構特點,我們是否可以有自己的創新?如果能夠把從應用側到系統軟體,再到自主研製晶片的整條路徑打通,我相信我們能找到一條適合中國現實環境的可行發展路線。從學術角度來說,我們可以探索開發更好的領域特定程式語言,讓使用者編寫高層程式碼時能自動生成更高效的實現。這裡還有很多可以探索的空間,但要實現商業落地需要時間。機器之心:說到大模型算力最佳化,為什麼還沒有晶片廠商推出 Transformer 專用晶片?您如何看待這個趨勢?翟季冬:我認為現在沒有並不代表將來沒有,可能有些公司正在這個方向上努力。從晶片設計到流片再到封裝,整個過程成本非常高,必須要有足夠大的市場空間才能支撐這種特定架構。如果大模型最終確實會以 Transformer 架構為主,那麼我們確實可以設計一款完全針對 Transformer 的專用晶片。但目前存在幾個主要考慮:首先,AI 模型發展非常迅速,我們無法確定 Transformer 架構是否會一直保持主流地位,可能還會出現新的非 Transformer 架構。其次,Transformer 本身也在不斷演化,比如 MoE 這樣的稀疏啟用模型,以及多模態 MoT(Mixture-of-Transformers)的稀疏特性,這些特性很難在晶片層面直接描述。回顧最近這一波 AI 發展,大約從 2012 年至今,最初以卷積神經網路為主,一些晶片公司專門為卷積設計了 ASIC 晶片。但到了 2017 年後,Transformer 架構逐漸興起,與卷積有很大的不同,導致之前針對卷積最佳化的 ASIC 晶片難以適應新的架構。值得一提的是,在此過程中 NVIDIA 雖然也在其晶片架構中新增了各種新的硬體模組,但整體架構保持相對穩定,透過系統軟體來適應應用的變化,比如他們的 Tensor Core 針對矩陣乘法進行最佳化,而不是專門為 Transformer 的某個元件(如 Attention)設計特定架構。機器之心:NVIDIA 的做法能給我們帶來什麼啟示?翟季冬:從軟體角度來說,最大的啟示是以不變應萬變。專用硬體的設計思路,本質上是把具體的演算法用電路去實現,但設計的關鍵在於如何把這個具體的演算法拆解成合適的、通用的基本硬體單元,以便各種應用都能透過這些基本單元來實現。例如,NVIDIA 的 Tensor Core 就是將各種操作都轉換成矩陣乘法,這種對映方式相對更靈活。拆解的核心在於粒度要恰到好處:粒度過大,小型應用難以有效利用硬體資源,造成浪費且效能下降;粒度過小,則會增加資料搬運和排程開銷,降低整體效率,並增加硬體和軟體的複雜度。這是一個需要權衡的設計選擇。機器之心:現在很多公司一方面投資現有基礎設施購買各類計算卡,一方面也在與高校合作並投資創業公司,以應對非 Transformer 架構帶來的挑戰。從系統軟體層面來看,這種佈局能在多大程度上應對下一代技術的衝擊?翟季冬:系統軟體的本質是將上層應用程式更好地對映到底層硬體。一方面要關注應用層面的變化,比如現在多模態模型越來越重要,我們就需要思考多模態帶來的新模式和負載特徵,同時要關注底層架構的演進,無論是 NVIDIA GPU 還是國產加速卡,都可能會增加新的計算單元或訪存單元,我們需要思考如何更好地利用這些硬體特性。系統軟體的核心任務是密切關注上下層的變化,透過中間層的合理設計將兩端匹配起來,讓硬體效率發揮到極致。對於正在探索的新型模型,我們需要分析它們的負載特徵,研究如何更好地對映到底層晶片以充分利用硬體資源。從提前佈局的角度來說,系統軟體要做好新興應用負載的分析。同時,當新的晶片架構出現時,系統軟體也要及時做出相應的改進和適配。這種雙向的適配能力,是系統軟體應對技術變革的關鍵。機器之心:您參與了多個基座大模型的訓練,在使用萬卡級叢集方面有第一手經驗,能否分享一下在這種超大規模訓練中遇到的主要技術挑戰?翟季冬:2021 年,我們與北京智源研究院等機構合作,使用新一代神威超算系統進行一個基座大模型的訓練,可以把它理解為一個 10 萬卡的叢集。在這個過程中,我體會到大模型訓練主要有幾方面的挑戰。首先是並行策略的選擇。因為模型很大,用 10 萬臺機器去做,就要把模型進行切分,就像把一塊豆腐要切成很多塊,可以切成方塊,也可以切成細條,原理是一樣的。要把一個大模型分到 10 萬臺機器上,也有很多切分方式。用術語來講,比如說有資料並行、模型並行、流水線並行、序列並行等等,每個並行策略都有自己的優缺點。在 10 萬臺機器上,如何組合這些並行策略,本身就是很大的挑戰。而且 10 萬規模的叢集,沒辦法像單卡那樣反覆測試各種策略,一定要把策略分析清楚了才去跑,因為一次的測試成本就很高,也不允許做太多次嘗試。第二個挑戰是通訊問題。10萬臺機器需要透過高速網路互連,但不同的機器組網方式不一樣,網路的拓撲是不一樣的。大模型訓練時有很多通訊函式,這些通訊函式如何跟底層的網路拓撲高效對映是一大挑戰。我們發現,不同的通訊策略可能導致 1-2 倍的效能差異。第三個挑戰是容錯機制。當機器規模增大,整個系統平均無故障時間就會非常小。基座模型訓練通常需要幾周到一兩個月。我們必須設計輕量級的容錯機制,在硬體出現故障時能夠快速替換出錯的卡並繼續訓練,同時將這個開銷降得越低越好。最後,單卡效能也至關重要。在關注萬卡、10 萬卡這類整體系統的同時,也要把單卡效率打得特別高,比如透過編譯最佳化等策略,確保每張卡都能發揮出極致效能。機器之心:在提升算力利用率方面,我們應該關注哪些點?翟季冬:大模型的生命週期包含多個階段,每個階段對算力的需求都不相同。我們剛才談了預訓練,但在預訓練模型完成後,還有一個很重要的階段就是後訓練(post training)。以 OpenAI o1/o3 為代表的後訓練技術,為整個訓練過程帶來了新的挑戰。後訓練包括生成階段、推理階段和微調階段,每個階段的負載特點都不同,最優的並行策略也會不同。需要注意的是,不能簡單地追求每個階段的區域性最優,因為階段之間的切換也會產生開銷。我們要從整個 pipeline 的角度來考慮最佳化策略。後訓練還面臨著負載不均衡的問題,需要探索如何有效重疊不同階段以提高資源利用率。在微調階段,客戶往往會用自己的私有資料對基座模型進行調整。由於硬體資源可能有限,這時需要考慮一些特殊的策略,比如 offloading,也即當 GPU 記憶體不足時,將部分引數儲存在 CPU 端。微調本身作為一個訓練過程,對並行策略也有很高要求。- KV Cache 管理:推理過程會產生大量中間結果(KV Cache)用於降低計算量。如何管理這些資料很關鍵,比如可以採用頁面式管理,但頁面大小是固定還是根據負載特徵動態調整,都需要仔細設計。
- 多卡協同:當模型較大時需要多 GPU 配合,比如在 8 個 GPU 上進行大模型推理,如何最佳化卡間並行也是一大挑戰。
- 演算法最佳化:還可以從量化等角度進行最佳化,充分發揮底層算力效能。
總的來說,從預訓練到後訓練,再到微調和推理,每個階段對算力的要求都不同,我們需要針對這些特點進行深入的最佳化。機器之心:如果要建設百萬卡叢集,是選擇多家廠商的卡,還是隻選擇少數廠商乃至單獨一家的卡更好?翟季冬:從管理和使用效能的角度來說,選擇單一型別的加速卡無疑是最方便的。但實際情況往往更加複雜。比如說在美國,企業可能先購入 1000 張 A100,後來又添置 1000 張 H100。不同代際的加速卡存在效能差異,整合使用時就會帶來系統最佳化的挑戰,而且這個問題在訓練和推理場景下的表現也不盡相同。從系統軟體角度看,這實際上是晶片碎片化的挑戰。我目前正在負責一個專案,面向異構晶片的統一程式設計和編譯最佳化。核心理念是,雖然底層使用不同的 AI 晶片,但在程式設計模型和編譯最佳化層面要儘可能統一。我們希望同一套程式能在不同加速卡上都發揮出高效效能,同時降低不同加速卡間的移植開銷。很多人都說過,希望算力像水電一樣成為基礎設施。用電時我們並不需要關心是風力發電還是煤炭發電。要實現這個目標,實際上有很長的路要走,我們需要做好中間層的軟體工作。此外,還要建立完善的算力度量標準,比如如何計算算力使用量,如何計價,這些都需要標準化。在現階段,我們還是需要關注底層硬體的具體情況。但未來的發展方向是,透過完善中間層的系統軟體,為使用者提供透明的介面。使用者只需要呼叫簡單的 API 就能方便使用各種算力資源,不必關心底層細節。這可能是一個終極的發展方向。機器之心:那我們把時間拉近一些,未來 1-3 年內,系統軟體最佳化方面可能會看到哪些顯著趨勢或變化?翟季冬:目前我國各省市建立了許多智算中心,以國產算力為主。我們觀察到一個現象是,儘管應用開發者普遍缺乏算力資源,但許多國產算力中心卻存在閒置現象。使用者更傾向於使用 NVIDIA 這樣開箱即用的解決方案。這種狀況其實帶來了重要機遇:如何將巨大的算力需求與現有的國產算力有效對接?我們的目標是讓國產算力達到同樣的易用性,使使用者感受不到差異。這不僅能促進人工智慧在中國各行各業的發展,也能帶動從晶片到軟體再到應用的整體發展。為此,我們實驗室孵化了一家公司「清程極智」,致力於為國產閒置算力提供更友好的介面,幫助行業使用者方便地整合各類國產算力資源。從技術層面來說,這不僅僅是最佳化運算元庫那麼簡單。系統軟體的完整建設應該包括程式語言、編譯器、通訊庫、平行計算、程式設計框架,這些方向都需要投入。就像木桶效應,任何一個短板都可能影響晶片的整體使用效果。要充分發揮國產算力的效能,我們需要在這些方向全面發力,才能真正把算力這個方向做好。翟季冬,清華大學計算機系長聘教授,博士生導師,高效能運算研究所所長。青海大學計算機技術與應用學院院長。CCF高效能運算專委副主任、CCF傑出會員。清程極智首席科學家。
主要研究領域包括平行計算、程式設計模型與編譯最佳化。在平行計算與系統領域頂級會議和期刊發表論文 100 餘篇,出版專著一部。研究成果獲 IEEE TPDS 2021 最佳論文獎、IEEE CLUSTER 2021 最佳論文獎、ACM ICS 2021 最佳學生論文獎等。擔任清華大學學生超算團隊教練,指導的團隊 15 次獲得世界冠軍。獲教育部科技進步一等獎、中國計算機學會自然科學一等獎、CCF-IEEE CS 青年科學家獎、高校計算機專業優秀教師獎勵計劃。國家傑出青年科學基金獲得者。- 小米 Daniel Povey:後語音識別時代,人工智慧走向何方?
- 清華趙明國:學習、最佳化與仿生,重新思考人形機器人發展
- 北大王立威:理論視角看大模型,湧現、泛化、可解釋性與數理應用
- 上海交大盧策吾:關於具身智慧,Scaling Law 和大模型