下接萬卡叢集、上連AI原生應用,作業系統的進化超出你的想象

机器之心發表於2024-04-19

從此,作業系統被賦予了新的核心,也讓應用開發體驗迎來前所未有的新變化。


大模型發展至今,還能帶給開發者哪些驚喜呢?
在 4 月 16 日舉辦的 2024 百度 Create AI 開發者大會上,百度智慧雲扔下一顆「重磅炸彈」,重新定義了計算機的核心繫統軟體 —— 作業系統
會上,百度集團執行副總裁、百度智慧雲事業群總裁沈抖宣佈正式釋出新一代智慧計算作業系統 —— 萬源。在大模型技術不斷推動雲服務向 AI 靠攏的當下,這成為了百度跳出傳統雲端計算、革新 AI 原生應用開發體驗的一大舉措。

圖片

沈抖在百度 Create AI 開發者大會上。

對比作業系統的核心元件,比如底層硬體裝置、管理軟硬體資源的核心層、與使用者互動的 Shell 層和整合各類工具程式的應用層,萬源的整體框架是這樣的:

Kernel(核心)層包含百度百舸・AI 異構計算平臺和百度文心大模型,滿足模型訓練算力需求和多樣化大模型使用需求。

核心層之上的 Shell(外殼)層為千帆 ModelBuilder 平臺,讓開發者按需和細分場景來定製、精調模型。

最上面為 Toolkit(工具)層,千帆 AppBuilder 和 AgentBuilder 支援了各類應用和 Agent 的快速開發。

圖片

智慧計算作業系統萬源的「三層」組成。

自下往上,萬源要在底層遮蔽掉雲原生系統與異構算力的複雜性、並強化大模型這一能力引擎,在中層對大模型進行部署精調,在上層為 AI 原生應用和 Agent 的快速開發提供支撐和保障。

也就是說,藉助作業系統這個完整載體,百度智慧雲將高效的異構算力、智慧的系統核心和敏捷的應用開發「打包」,為業界加速 AI 原生應用佈局提供一個新選擇。

或許有人會問,從傳統作業系統發展到如今新一代的智慧計算作業系統,需要什麼契機呢?我們有必要從計算機操作方式進化、計算平臺迭代、大模型技術變革等幾個方面展開說說。

大模型崛起
新一代作業系統成為必選項

當然,我們熟悉的計算機作業系統通常是 Linux、Windows 等。但說起來,作業系統不是與計算機同步出現,它管理的物件也隨時代需求、技術趨勢而變。

1946 年 2 月,世界上第一臺電子計算機 ENIAC 誕生,彼時操作全部要人工完成。組合語言、彙編器的出現逐漸用程式代替人工、用軟體管理硬體,這是作業系統的雛形。高階程式語言和編譯器讓計算平臺進一步進化,並帶來更復雜的軟體和更強大的硬體,要求作業系統快速迭代。

此後,不斷增加的軟體規模和複雜度讓單臺機器力不從心,叢集出現。作業系統管理的物件從單臺機器及其上執行的「程序」擴充套件為整個叢集及執行的各類「微服務」,雲端計算來了。

直到這時,作業系統的框架和組成沒有大的變化。在本質上,作業系統負責連通硬體和軟體,向下遮蔽底層的複雜性,向上抽象成簡單的互動介面。

近年來,大模型、AI 原生應用、Agent 及相伴而生的理解、生成、邏輯和記憶能力推動技術變革,讓自然語言主導的人機互動嶄露頭角,沒有程式設計基礎的人也可以成為開發者,程式設計需求的滿足比以往容易得多。

開發正規化的種種新變化進一步催生軟體市場的爆發,硬體也隨之進步,傳統作業系統改變的契機到了,尤其體現在一些層的組成內容上。

比如在作業系統核心中,底層硬體從以 CPU 算力為主變成以 GPU 算力為主,並首次增加軟硬體之外的第三種資源 —— 大模型壓縮的世界知識。相應地,作業系統管理的物件不再只是程序和微服務,現在還多了基於大模型衍生的智慧。

這意味著,一個超越傳統軟體範疇的全新作業系統成為必選項,對基於 AI 的智慧計算更好地抽象和封裝,重新定義人機互動,成為大模型能力全方位加持的強大載體,為開發者提供更智慧、更流暢、更個性化的開發體驗。

這一切在萬源這裡得到了滿足,核心層有能夠實現萬卡規模叢集模型訓練的算力和大語言模型、CV 大模型能力,外殼層可以對核心層的大模型定製精調,工具層則實現了簡單便捷的 AI 原生應用和 Agent 開發。

我們應看到,實現萬源各層功能離不開百度智慧雲在算力、模型、工具和應用等各個層面的產品積累。這也是我們接下來要講的內容。

三層一體
萬源作業系統的「新」落在哪裡?

可以看到,大模型出現以來提出的全新人機互動需求、人們對開發體驗的更多樣性訴求以及傳統雲端計算向智慧計算的轉變,讓萬源的出現有了必要性和合理性。

那麼,萬源各層組成有哪些新的、獨特之處呢?先從 Kernel(核心)層看起,算力和大模型是兩大組成部分。

作為 AI 三要素之一,算力重要性無需多言。在萬源中,百度百舸・AI 異構計算平臺是將現有算力資源發揮到極致的基座。該平臺針對大模型訓練、推理任務,分別在智算叢集設計、排程和容錯等環節最佳化。目前,百舸在萬卡叢集上的模型有效訓練時長佔比超過了 98.8%,線性加速比和頻寬有效性均達到了 95%,實現業界領先算力效能,為核心層提供高效的算力保障。

圖片

此外還有一個問題,國內晶片供應存在不確定性,這必然會導致多晶片並存的格局(即國內和國內品牌晶片共存),這為智算叢集中模型推理和單一任務訓練提出了挑戰。百舸不僅相容了崑崙芯、昇騰、海光 DCU、英偉達、英特爾等國內外主流 AI 晶片,更實現百卡和千卡規模、單一訓練任務下,不同廠商晶片的混合訓練,其中百卡規模效能損失不超過 3%,千卡規模效能損失不超過 5%,實現業界領先。

正如沈抖會上所言,「百舸為大家遮蔽掉了晶片之間的差異,提供了自由選擇不同晶片組合的權利。」
圖片
核心層的另一主角是 77 個精選大模型,包括百度 ERNIE 4.0、ERNIE 3.5 大語言模型、近期釋出的 ERNIE Speed/Lite/Tiny 系列輕量模型、文心視覺大模型和各種第三方大模型。它們壓縮並封裝了龐大的世界知識,是更上層執行簡單介面和 AI 原生應用的能力源泉。

圖片

來到外殼層,主角是千帆 ModelBuilder,負責大模型管理、排程和二次開發。有了它,開發者不用從頭開始訓練大模型,付出很少資料、資源即可在基礎大模型上快速精調出適合自身業務和場景的模型。

圖片

再往上為 ToolKit(工具)層,整合了產業級 AI 原生應用開發平臺 AppBuilder基於文心大模型的智慧體構建平臺 AgentBuilder。有了核心層和外殼層的算力和模型鋪墊,萬源要在此層讓開發者切身體驗到不一樣的 AI 原生應用開發。

其中,AppBuilder 支援工作流編排。開發者選擇使用預置模板和元件或者整合、擴建特色元件,輕鬆定製自己的業務流程。經過 ModelBuilder 精調的模型也可以直接呼叫,怎麼方便怎麼來。開發完的應用支援一鍵釋出到百度搜尋等其他平臺,並透過 API 或 SDK 在使用者系統中直接整合。

AgentBuilder 則致力於零門檻,讓不會程式設計的使用者透過 prompt 輸入和操作調優,快速建立專屬於自己的智慧體,在使用場景中自動提供服務。

圖片

此外,萬源還提供了完善的模型 & 資料管理以及模型安全服務,為 AI 原生應用的繁榮保駕護航。

至此,從核心層、外殼層到工具層,百度在我們面前展現出了新一代智慧計算作業系統的全貌。

背後的技術優勢
能解決好問題才行

我們觀察到,萬源一舉解決了業界同行們都在面臨的三個關鍵問題,分別是算力、模型訓練和部署、以及應用開,並在過程中形成了自己的核心技術優勢。

尤其是在算力部分,百舸・AI 異構計算平臺實現了單一任務下不同廠商晶片的大模型混合訓練, 百卡規模效能損失不超過 3%,千卡規模效能損失不超過 5%。這些是如何做到的呢?

首先,百舸的線性加速比達到了 95%,這要歸功於百度智慧雲面向 AI 計算推出的 AI 加速套件「AIAK」,它的核心是網路通訊加速。我們知道,AI 跑在晶片上靠的是各種各樣的運算元,但每家晶片廠商的運算元實現並不一樣。

百度則選擇在整個框架層面拆分底層的通訊和上層運算元的最佳化和實現,這樣各家晶片有了針對這些運算元的最佳化實現。最終不同廠商的晶片都能跑在百度的加速庫上,即百度集合通訊庫 BCCL,它是百舸的重要元件。但是,這一步並沒有直接解決一雲多異構晶片的問題。

還需要第二步。以前一種晶片算力是相同的,所以我們的並行策略大多是均勻切分的。但現在算力、通訊、儲存都不一樣了,為了充分發揮出各晶片算力效能那就需要實現不均勻的切分方式,比如在模型張量切分中,不同晶片可能需要切分成不同的大小,在流水線切分中則需要在不同晶片上放不同的層數。這就需要對框架做相應的改造和最佳化,我們的訓推加速軟體就實現了這些不均勻的,混合的切分策略,讓每個晶片算力能充分發揮出來。

而接下來,叢集中各種晶片的比例可能是不一樣的,在各種情況下都能找到最優的任務切分方法。在前面這麼多複雜策略的情況下透過測試顯然是不行的。透過一套自動化並行策略框架,根據各種策略所需要的計算量,儲存量,通訊量,以及不同晶片的計算和 IO 效率,從而快速計算出最優的任務切分策略,保證在各種配比下晶片算力都能充分發揮出來。這是實現一雲多芯的基礎原理。

至於百卡和千卡規模效能損失為何如此低,這還要得益於百舸在儲存方面支援了高效能分散式儲存 PFS、以及萬卡級別的 RDMA 網路,前者顯著提升訓練和推理過程中的 I/O 吞吐能力,後者有效降低網路延遲。

同樣地,萬源讓大模型的訓練和部署不再困難。尤其是對個人開發者而言,他們沒有訓練大模型所需的算力、資料和精力,這一切都讓萬源代為完成。

有了 ModelBuilder,開發者沒有了從頭開始訓練模型的煩惱,隨時隨調隨用。部署起來同樣方便快捷。

最後,應用開發問題依靠 AppBuilder 得到更好解決,它的兩個優勢幫了大忙。

一是依託文心 4.0 強大的理解和遵循能力,效果好且不用長時間調優,成本和門檻降了下來。同時豐富的 AI 能力元件、大模型能力元件和百度獨家開放的業務元件讓 AI 原生應用開發更加高效。二是建立一點都不繁瑣,只需三步:命名、描述具體要求、執行,一氣呵成。

而隨著算力、模型訓練和部署、以及應用開發這些節點的關鍵問題一一被有效地克服,萬源為 AI 原生應用提供了更強的動力和更大的舞臺,讓 AI 在應用層的機會更多。

寫在最後

不難發現,大模型出現以來,AI 圈呈現一個非常明顯的特點,即大家追逐的熱點變化很快。短短几年時間,我們已經看到了從最開始的基礎和行業垂直模型,慢慢發展到之後基於大模型的各類 AI 原生應用和 Agent。

很顯然,對於業界玩家們來說,儘可能不錯過每一個節點,才更有可能不被同行落下,反過來就有可能跑贏對手。我們看到,在大模型發展至今的整體規劃和佈局中,百度步步為營,並以廣泛、真實的客戶實踐和產業落地需求為導向。

從業界首發行業大模型到全球首個企業級大模型生產平臺千帆 ModelBuilder,百度走在了大模型落地的前列。目前,千帆大模型平臺已經服務了 8.5 萬家企業客戶,並累計精調超過 1.4 萬個模型。

隨著從卷大模型進入到卷應用的階段,百度加快了基於大模型的 AI 原生應用開發及生態建設。去年 10 月 17 日,百度創始人、董事長兼執行長李彥宏在百度世界 2023 上預言,「我們即將進入一個 AI 原生的時代」。此後, AI 原生應用開發平臺千帆 AppBuilder 全面開放服務,讓人人都能自己開發。目前已經有 8100 傢伙伴透過該平臺開發 AI 原生應用。

此次,百度又為這個新時代的到來丟擲全新的思考 —— 萬源。百度從完整的 AI 原生作業系統出發,將過去多年在算力、大模型和應用層面積累的工作「化零為整」,以更強的姿態迎接 AI 原生時代面臨的挑戰。

未來,百度一方面將繼續把萬源的基礎設施、核心服務做得更智慧、高效,另一方面致力於在上層提供更便捷的開發工具,做到雙管齊下。同時進一步開放生態合作,攜手應用開發者、企業、晶片廠商將萬源打造地更加完備。

圖片

相關文章