亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

磐創AI發表於2022-01-25

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

華東地區首個超大型AI計算中心正式啟動運營。
作者 |  ZeR0
編輯 |  漠影
智東西1月24日訊息,今日,位於上海臨港新片區的商湯科技人工智慧計算中心(AIDC)正式投入使用。
商湯從2018年4月開始佈局人工智慧(AI)計算原型機研製專案,到2020年3月,AIDC專案正式立項啟動。從開工建設到主體結構封頂,AIDC僅用時168天,重新整理了臨港建設的新紀錄。
這是亞洲最大的超算中心之一,也是華東地區首個落地運營的超大型人工智慧計算中心,具有開放、大規模、低碳、節能等特點。
該計算中心建築面積13萬平方米、專案總投資約56億元、一期共5000個等效8000瓦的機櫃,滿載執行時算力可達3740PetaFLOPS(1PetaFLOPS為每秒千萬億次浮點運算),二期正在規劃中,大體會是一期體量的1~2倍。
截至2021年6月30日,商湯已經戰略性地在主要區域市場建立了23個人工智慧超級計算叢集,擁有超過20000塊GPU,總算力達到每秒1.17百億億次浮點運算。AIDC投入使用後,商湯總算力將超過每秒4.91百億億次浮點運算。
近日,商湯科技聯合創始人、副總裁楊帆接受智東西等媒體的採訪。楊帆透露道,AIDC的目標是在2025年成為商湯的支撐性業務之一。
據悉,AIDC當前可完成10000億引數模型的完整訓練。未來商湯內部研發體系都將架設在AIDC上,預計到2024年所有伺服器到位時,AIDC的國產化硬體比例將超過50%。

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練


01.
對內支撐AI大裝置,對外提供三類業務


AIDC能做什麼?
對內,AIDC是商湯通用AI基礎設施SenseCore商湯AI大裝置的算力底座,AI大裝置所囊括的所有軟體平臺及服務均執行在AIDC的物理實體上。
對外,AIDC可以獨立提供算力支撐。商湯將通過AIDC把AI大裝置的技術能力開放給產學界合作伙伴,讓更多客戶在商湯的雲平臺上獲取AI-as-a-Service服務,靈活訂閱各種預訓練AI模型,從而降低各行業大規模AI應用的准入壁壘。
從計算能力來看,AIDC堪稱“巨無霸”。
其總算力達3740PetaFLOPS,1天內可處理時長相當於23600年的視訊,等同於從舊石器時代晚期不間斷錄製到今天的長度。
當前AIDC在1天內可完成10000億引數視覺領域大模型的完整訓練。基於這一超大模型,可以衍生出超過2萬多個商用模型,幫助產業界以極低的下游資料採整合本,快速驗證多個新場景。
此外,基於超大規模彈性可擴充套件算力,AIDC可保障對外運營的AI模型訓練大規模算力需求。
作為底層支撐,AIDC執行後主要提供三類業務路線:第一類,向醫療蛋白質摺疊、量子科學等AI+Science基礎科研提供算力支援;第二類,提供整合能力,幫助企業建設一整套生產工具體系;第三類,提供端到端的智慧化服務。
楊帆稱,通過AIDC的支撐,一個演算法的生產成本可能下降為過去的1/10,甚至更低。

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

通過直連新型網際網路交換中心,AIDC不僅能夠為客戶提供就近接入服務,解決跨網訪問等難題,還可以提高企業間資訊互動效率、降低傳輸成本,提升傳輸質量和穩定性,實現多點、多使用者的快速網間互聯。
據悉,在正式建成前,商湯已有潛在的客戶和合作夥伴在AIDC上進行了一些試執行。春節後,AIDC將進入正式使用狀態。
比如商湯在上海做的一網統管,為上海政府的公共服務提供了涉及垃圾滿溢、井蓋丟失、燈箱損壞、自行車亂停亂放、違章佔道等各種城市服務管理的約上百種AI演算法應用,這些演算法的迭代生產,依賴的即是AIDC這樣的基礎設施。
“通過AIDC,通過裡面的軟體整合,我覺得我們有信心在未來的兩到三年之內,我們能夠實現在同等規模算力下,國產的軟硬一體的成本、對客戶的成本,降得更低,這個其實是一個我比較期待的目標。”楊帆說。

02.
低算力成本,加速國產AI晶片市場化程式


目前,商湯正在探索從國產晶片、國產伺服器、自研訓練框架、演算法和落地行業應用的AI大生態建設。
在CAPEX投資成本方面,AIDC可以降低自研國產晶片單位算力成本;在OPEX運營成本方面,得益於演算法優化的優勢,訓練時長更短、效率更高、佔用資源更小。
我們計劃是3740PetaFLOPS裡面應該會不少於50%的國產晶片做核心AI晶片來使用。”楊帆說,臨港AIDC只是一個,商湯還有更多區域的AIDC佈局建設正在推進中,AIDC整體會以訓練為主,也會有一些推理,但佔比較低。
他提到過去兩年,商湯與多家國內AI晶片廠商展開了大量合作,希望加快國產雲端AI晶片及相應伺服器在市場更大規模、更大範圍地使用。
據悉,AIDC當前試運營機器裡已有一部分國產化比例,該比例的提升對於AI全產業鏈整體成本的下降、整體服務水平的提升、在硬體側形成更加良性的商業競爭環境等方面將帶來很大的價值。

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

過去兩年,商湯在持續推動國產AI核心軟硬體之間的適配。為了促進這件事情,商湯在2021年7月上海世界人工智慧大會上牽頭成立了“人工智慧算力產業生態聯盟”,簡稱“ICPA智算聯盟”。
商湯將基於AIDC,促進AI生態的構建,推動國產原創技術的落地應用。
楊帆分享道,從成立ICPA算力聯盟開始,聯盟每一季度都會組織一到兩次的齊聚晶片設計專家、軟體設計專家、軟體設計專家、行業標準專家的深度閉門研討會。
在前期,商湯希望形成一個足夠標準、通用的軟硬體介面層的定義。
作為亞洲最大AI軟體平臺公司,商湯既有核心平臺層和作業系統層的軟體能力,又有大量下游應用,跟各個國產硬體、晶片廠商做核心軟體、系統的適配,能幫他們節省研發費用和時間成本。
中期的工作是,商湯在臨港AIDC投入運營之後,會跟中國電子技術標準化研究院(工業和資訊化部電子第四研究院)建立“CESI-SenseTime人工智慧算力及晶片評測聯合實驗室”,開展AI算力和晶片標準制定、AI晶片測評工具開發,提供AI計算中心、晶片測試驗證服務和人才培訓等支援。
該實驗室未來將成為中立的第三方AI晶片、AI伺服器測評機構,為產業提供參考標準,也促進每個硬體廠商更好地提升自家產品。
面向長期,由於商湯自身有大量下游產業應用,商湯將不遺餘力地把相對較好的國產AI晶片及其伺服器,匯入整合到自己及合作伙伴的解決方案,將它快速推向市場。

03.
六大技術亮點,解讀AIDC建設的硬實力


商湯的AIDC通過其大規模資料處理及高效能運算的能力,為研發提供支援。
楊帆強調說,AIDC的算力並非堆砌,其中涉及許多通訊側、儲存側的領先技術。在高效能運算、分散式排程、資料I/O、軟硬體協同以及系統安全方面,AIDC均實現了多重突破。

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

1)高效能運算:商湯已開發一款高效能運算引擎,它包含豐富的高度優化的計算程式、編譯器及執行時環境。與晶片供應商提供的計算引擎相比,商湯的計算引擎通過優化的運算元及全圖優化技術,顯著提高階到端的執行效率,不僅涵蓋神經網路計算,亦涵蓋預處理及後處理階段。
2)高效的分散式排程:AIDC具有分散式任務排程系統,可在成千上萬個GPU上動態排程數以萬計的計算任務。該系統每年排程超過2000萬個任務,確保研發活動能及時及有效地進行。在多種排程策略的支援下,排程系統可保持算力的高利用率,大降訓練一個模型所需的平均成本。
3)高速的資料I/O在資料集上訓練模型時,每個資料樣本都會以高頻率和隨機順序載入和處理多次。商湯的AIDC可提供非常高的IO吞吐量,允許訓練任務每秒載入超過200萬張圖片,保證訓練任務可以全速執行而無需等待資料。
“2018年,我們做了一個原型機的預研專案,實現了把1000塊GPU卡連在同一個網路上去載入資料進行運算。今天我們正在做更大的5000~10000張卡,把它連在同一個網路上去進行計算。”楊帆談道。
4)硬體/軟體協同設計:在分散式環境中,協同各計算節點GPU相互通訊、頻繁從分散式儲存系統中獲取資料的複雜操作,易造成執行時效能的顯著損失。對此,商湯採用硬體/軟體協同設計的方法,根據其對AI任務的理解來配置硬體設定,同時設計軟體棧並進行跨層優化。通過這種設計,商湯的AIDC每年可生產數以萬計的模型。
(5)高標準的系統安全:商湯在設計其架構時在多個層級確保系統安全。例如,商湯制訂全面的指引,按照不同安全級別對資料進行分類,並授予相應的訪問許可權;商湯的儲存系統包括先進的訪問控制系統;敏感資料以加密的形式儲存及傳輸;分配給不同授權組的計算資源實現了合理隔離。商湯的安全團隊實時監控AIDC的執行,並在出現潛在風險時採取行動。
6)綠色低碳資料中心建設:AIDC採用了各種前沿的能源優化措施,預期AIDC啟動後的功耗將比中國其他資料中心的行業平均水平低約10%,每年可節省約4500萬千瓦時功耗。AIDC預期將在2025年前後達到碳排放峰值,估計峰值排放量不超過35萬公噸二氧化碳當量,並於2050年前後達到淨零排放。

04.
建智算中心,應先評估地域產業升級需求


AI計算中心是否真正能帶給產業應用價值?如何高效利用AI計算中心的資源?
談及這些問題,楊帆說,商湯對於AIDC的未來應用場景非常有信心。商湯不僅自己做,還對一個地方產業升級的需求強度和規模做了很好的測算與評估。
在他看來,在一個地方建設智算中心,首要考慮的是評估這個地方的產業基礎和未來三年的產業升級需求,然後測算今天的AI技術及產品供應商能否滿足這些需求,才能知道應該建設多大規模的智算中心。

亞洲最大!上海“巨無霸”AI計算中心投用,支援萬億引數大模型訓練

資料治理也是AI產業發展中的一大挑戰。農業時代的生產資料是土地,工業時代的生產資料是能源,而數字時代的生產資料就是資料。
對於能源,一升油加一升油,是兩升油。對於土地,一畝地加一畝地,是兩畝地。
但資料不一樣,就是1T資料加1T資料,雖然變成了2T的資料,但其實際價值是大於2T的。更多的資料放在一起,將帶來非線性增長的價值。
“這個是跟過去農業時代,工業時代的生產資料全都不一樣的、一個極其重要的新特性。”楊帆分享了一些看法,資料最大的價值是低成本、可複製性和聚合之後實現的非線性增長價值。
如何實現更多資料的連線,同時保障資料安全和隱私可控,又能夠界定清楚中間的權屬規定?這些需要行業繼續探索,去找到一個清晰的答案。
楊帆說,商湯建設AIDC也是一種探索,可能在未來一到兩年,在AIDC的試運營階段開始後,商湯會在這個方面重點做一些思考、摸索和嘗試,因為他認為這是未來最核心的幾件事情之一。

05.
結語:未來將在更多區域市場建立AIDC


在楊帆看來,商湯的核心優勢不僅在於技術領先,還在於如何持續地實現創新技術商業化。
以前從創新的原始出發點到最終變成客戶價值,其過程時間很長,並涉及非常多的環節。當做這件事的週期從三四年縮短到三四個月時,這就是商湯對於產業長期的核心競爭力所在。
僅有科技企業是做不好創新的,需要傳統企業配合做迭代實驗,進行相應的配合和投入,甚至需要一定的沉默成本。今天中國很多行業都在做數字化轉型、智慧化升級,那麼客戶願意掏出時間、願意開放共享來一起做這件事情的思維和態度也非常重要。
除了上海外,未來商湯也計劃在中國四大超一線及核心區域中心城市建設AIDC,以使商湯的AI-as-a-Service服務擴充套件到更多地區。
楊帆相信,AIDC未來會持續迭代,朝著如何讓一個技術創新的成本更低、效率更高去演進,向更多合作伙伴及客戶分享商湯沉澱的能力,為AI產業帶來更大的價值。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555081/viewspace-2853880/,如需轉載,請註明出處,否則將追究法律責任。

相關文章