阿里雲CIPU下筆驚雷,方寸間書寫中國算力故事

naojiti發表於2022-06-17

“當其下筆風雷快,筆所未到氣已吞”,看到阿里雲CIPU釋出的訊息,我腦海裡第一時間冒出了蘇軾的這句詩。

開啟工業革命序幕,讓蒸汽機、鐵路和煤炭成為主要能源的是英國發明家瓦特;讓燈泡和電力走入所有人生活的,是美國發明家愛迪生;現代計算機和網際網路成為資訊時代的基礎設施,變革誕生在美國西海岸。今天,所有人都將算力看作第四次工業革命的基本能源,將與千行百業、社會經濟產生深刻而綿長的化學反應,那麼這一次,算力基礎設施可以由中國來定義嗎?

顯然,阿里雲想嘗試一下,並且已經邁出了關鍵的一步——正式釋出為新型雲資料中心設計的專用處理器CIPU,展現出取CPU而代之的氣勢。

CPU制霸計算產業半個世紀之久,CIPU要另起爐灶何其難也。作為讀者或許會疑問三連:憑什麼?為什麼?怎麼做?我們不想直接給答案,從大家感興趣的問題出來進行邏輯推演,讀者自然會思考並得出自己的答案。

提筆:憑什麼是中國?

有一句流行歌詞:沒有人能在我的BGM裡打敗我。聽起來十分自信,不過,這份自信很長一段時間是屬於美國的。1971年,英特爾生產的4004微處理器標誌著CPU的誕生,隨後與微軟的Windows系統一起組成了著名的“Wintel”聯盟,成為計算產業的現實標準,被廣泛應用於PC、高效能伺服器以及雲伺服器中。而眾所周知,獲取算力的方式,無外乎本地硬體(資料中心)、雲端計算兩種。也就是說,以CPU為中心的計算架構主宰了資訊時代,支撐了雲端計算的崛起。

在這種局面下,中國廠商打算寫一段全新的旋律,讓別人主動走進自己的BGM裡,憑什麼?

首先,CPU這張舊船票,可能登不上算力時代的船。英特爾CEO早在幾年前就表示過“摩爾定律已死”,CPU效能提升的速度早已放緩,而隨著數字化的推進,資料規模、結構和來源越來越廣,單一CPU為中心的計算架構,無法滿足激增的算力需求,計算架構的創新是現實所需。

其次,圍繞CPU形成的伺服器、作業系統、中介軟體、資料庫和基礎軟體等應用及相關服務,很長一段時間內都掌握在歐美主流雲廠商手中,中國數字經濟要長期可持續發展,對於算力基礎設施自然希望有更多選擇,這給中國廠商創造了新的機會。

當然,頭部雲廠商從業務、戰略等維度也早就意識到了以CPU為中心的隱患,紛紛開始探索新的算力硬體解決方案。近年來多樣性計算架構不斷湧現,比如谷歌釋出了TPU,AWS釋出Arm架構的雲伺服器,英偉達嘗試收購ARM以擴充套件資料中心業務。圖靈獎得主大衛·帕特森與約翰·漢尼斯認為,接下來將是計算架構更新的黃金十年。如果不想在第四次工業革命中依然重複別人的故事,那麼,中國就必須在計算架構上落下屬於自己的一筆。

落筆:為什麼是雲端計算?

如前所說,CPU在本地和雲都有應用,為什麼架構創新會率先從雲開始呢?答案其實也很簡單,更新的圖紙有更大自由發揮的空間。

第四次工業革命從雲開始,對於中國千行百業的數字化來說,直接呼叫彈性、高併發、異構的雲端算力是更理想的選擇;中國雲廠商在技術能力、市場規模、生態方面與全球巨頭在相同起跑線,像阿里雲已經成長為與AWS、微軟Azure等同象限的頭部雲廠商;更重要的是,方興未艾的數字經濟催生了新的算力需求和技術挑戰,以CPU為中心的雲端計算架構越來越力不從心,中國雲廠商有著更大的創新空間。

簡單來說,雲端計算架構的創新方向主要有幾個:

1.效能升級。雲端計算一定是效能先行,才能成為千行百業數字化的算力底座,尤其是第四次工業革命中智慧技術的大量應用,深度學習對於算力資源的消耗是極大的,要求雲處理器提供更強的算力,實現每位元效能最優。不僅需要硬體升級,創新傳統計算架構,提升單位算力的效率;還需要軟體升級,解決軟體定義虛擬化中出現的資源損耗。

2.業務效益。各行各業使用雲服務,不單單是降低伺服器成本還希望透過云為管道引入新技術,對大量業務資料進行分析處理,釋放資料價值,也就是說單位算力所能貢獻的GDP要提高。資料密集型的計算越來越多,算力分佈在邊、端、雲、網等多個維度,資料的遷移量和吞吐率也增多,解決超大規模分散式叢集之間網路傳輸、管理的問題,才能滿足客戶對低時延、高頻寬的需求。

3.綠色低碳。上雲用數賦智成為趨勢,計算無處不在,算力基礎設施的能耗問題也引發社會關注,計算產業的可持續發展,需要低功耗、高效能的併發處理能力,減少虛擬化中的損耗,以達到單位位元的能效比最優,滿足各行各業綠色低碳、節能減排的發展需求。

方興未艾的雲端計算,相當於一張更新的圖紙,等待著人來書寫底層計算架構正規化轉換的新篇章,而阿里雲用CIPU率先落下了遒勁的一筆。

入木:CIPU怎麼解開算力桎梏?

計算架構更新,是必然的未來,對於中國雲廠商來說,怎樣在自己擅長的技術賽道上建立起差異化優勢,就成了當務之急。縱覽全球領先的計算廠商,谷歌專門釋出了應對AI任務的TPU,亞馬遜在雲伺服器、雲端AI推理晶片上也有所突破,以GPU為主營業務的英偉達業嘗試進入資料中心業務推出DPU,老牌廠商英特爾也推出IPU,國內也有云廠商推出了自己的計算硬體。

需要注意的是,雲端算力實際上受非常多的條件影響,除了晶片的比拼,還有網路、演算法最佳化、叢集效能、部署環境、資料處理能力、框架等一系列要素,整體決定了雲端計算的優越性。阿里云為新型雲資料中心設計的專用處理器CIPU,正是考慮到雲時代的算力所需,從三個層面進行管控並加速,來解開算力桎梏。

·網路加速。雲和硬體的結合,必須依靠網路,管理阿里雲全球上百萬臺伺服器並非易事。試想一下,將不同地區資料中心的算力進行調配傳輸,如果網路不給力,必然會導致資料傳輸慢、計算慢,大量實時性要求高的任務如自動駕駛、遠端醫療、線上教育等,體驗就會受到影響。傳統以CPU為中心的架構可沒辦法把手伸到網路層,而CIPU因為接入飛天雲作業系統,可以直接透過飛天上的洛神雲網路管控物理網路,進行硬體加速,構建大規模的分散式RDMA高效能網路,基礎頻寬從100G升級至200G,網路時延從22us降低至16us,因此AI任務、科學計算等上雲之後,比自建物理機的叢集吞吐量提升了30%,延遲自然也就大大下降了。

·儲存加速。大量雲上客戶希望充分釋放資料價值,高吞吐、高併發的資料存算,如果儲存系統跟不上,相當於一臺跑車的油箱只有摩托車那麼大,發動機再強勁也跑不快。傳統CPU以計算為中心的設計,資料搬運中往往會產生“儲存牆”和“功耗牆”,一定程度上影響了平行計算效率。同樣的,CIPU與飛天作業系統相結合,能夠接入存算分離架構的塊儲存,並進行硬體加速,讓雲端儲存可以做到比本地儲存還快,並擁有極大規模的資源池。透過全硬體虛擬化和轉發加速,時延最低可至30us(PLX),IOPS高達300萬,儲存時延儲存頻寬可達200 Gbps,全面超越市面上的雲產品。

·計算加速。算得快意味著什麼?1750 億引數的 AI 大模型 GPT-3 訓練成本約為 1200 萬美元,如果算得夠快、損耗夠小,訓練成本就能大大下降。而眾所周知,雲服務將物理機虛擬池化,過程中或多或少都會產生一定的損耗,CIPU的出現就解決了算力虛擬化的損耗問題。透過與神龍計算平臺相結合,將虛擬化轉移到專用硬體中進行加速,損耗幾乎為零,讓雲伺服器的效能表現超越了傳統物理機,還提供硬體級安全的加固隔離,兼具雲端彈性擴容的優點。對於雲上客戶來說,無疑是更低成本、靈活性的選擇。

在多種計算架構方案中,“飛天作業系統+CIPU”為中心的新一代計算體系架構,從最底層的核心硬體到最上層的雲原生軟體進行革新,替代CPU成為雲端計算的管控和加速中心,無疑是雲端算力生產和服務單位價值更高、技術變革更大、基礎底座更強韌的一次探索。

風雷:CIPU畫出的跑道通向何方?

中國工程院院士、清華大學高效能運算研究所所長鄭緯民曾說,過去這些年,我國在雲端計算領域主要在軟體層面有創新,發展了一些開源生態,但還是在傳統IT的格局下追趕。

顯然,CIPU的出現,下筆如有風雷,撕開由西方主導的計算產業天空,露出未來的一抹天光。乍一看石破天驚,實則是一場醞釀已久的春雨。

前面提到的飛天作業系統、洛神網路、盤古儲存,都是阿里雲多年不斷突破的雲端計算底層技術,經過深入垂直整合,才最終演進出以CIPU為中心的全新架構形態,解決傳統計算架構無法解決的問題。以虛擬化零損耗為例,阿里雲相關研發團隊早在2015年就開始技術攻關,2017年神龍雲伺服器的推出,就已經攻克了這一技術難題。目前,阿里雲已經建立了晶片、伺服器、作業系統、資料庫等自研技術底座,在Gartner釋出的年度報告裡躋身IaaS整體基礎設施能力的全球最高分。同時,阿里雲也是國內最早實踐綠色資料中心的廠商之一。

那麼,這場終於降落在華夏大地上的春雨,會帶來怎樣的變化呢?

首先感受到雨露潤澤的必然是各行各業的數字化,CIPU+飛天體系下,雲端算力的單位成本更低、效能更優、能耗更低,產業客戶會直接受益,用上更加普惠、高效、綠色的算力。

其次,大地滋潤後會生長出更多創新,讓中國在數字經濟佔據領先身位。算力正在許多行業中釋放潛力,比如雲電腦無影,就將高算力工作從本地轉移到雲端,無需高效能終端,依然可以在雲端流暢地打造8K畫質體驗,對於創作者來說是極大的生產力解放。

更進一步,各行各業的創新和計算軟硬體迭代,共同組成蓬勃的新計算生態。就如阿里雲智慧總裁張建鋒在2022年阿里雲峰會上所說的那樣,“現在是重新定義雲的視窗期,如果我們定義好了,中國就可以在下一個技術時代有自己的一席之地”。

回到底層,回到源頭,去做最基礎的計算架構創新,阿里雲用行動“Back to Basic”,踐行“B2B”策略。這也是為什麼雲端計算的正規化轉化應該發生在中國,發生在此刻。

英國科普作家馬特·裡德利在《創新的起源:一部科學技術進步史》一書中列舉大量事實表明,正如6個世紀以前,歐洲從日益僵化的中國手中奪過創新接力棒一樣,中國或許即將再次奪回接力棒。

在CIPU如驚雷般地書寫中,中國雲端計算的新樂章已經寫下了開頭。何其有幸,我們正見證未來。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2901204/,如需轉載,請註明出處,否則將追究法律責任。

相關文章