隨著上汽集團與阿里雲的合作開展,阿里雲各項技術逐步深入到上汽汽車研發領域的核心業務實現落地。其中上海汽車集團股份有限公司乘用車分公司(以下簡稱上汽乘用車)與阿里雲共建的模擬計算混合雲就是新制造產業升級的典型代表專案。
上汽乘用車作為上汽集團全資子公司,承擔著上汽自主品牌汽車的研發、製造與銷售,擁有榮威、MG兩大品牌,上海、南京和英國三地技術研發中心,上海臨港、南京浦口和英國長橋三個製造基地。伴隨上汽乘用車的市場表現強勁,車型研發工作也在持續加速升級,而為工程模擬服務的的計算資源供應開始遠遠落後於現實需求,具體表現為:
【研發需求強烈】
當前CAE模擬計算已經承擔非常重要的任務,普遍出現計算任務工況多、規模大、時間緊的情況,迫切需要快速獲取高效能運算資源;
【資源迭代滯後】
當前上汽乘用車建設的本地HPC叢集雖然經歷多次擴建,但是硬體資源嚴重老化,硬體資源故障率居高不下,計算效能難以滿足業務需求,且資源更新迭代速度緩慢,嚴重影響模擬研發業務進度;
【 使用者體驗欠佳】
模擬研發人員一直保留著傳統的HPC計算中心操作方式,線下前後處理與到線上求解計算,流程割裂,資料挪動頻繁,亟需建設高沉浸、全業務、CAE模擬分析線上服務平臺。
針對以上問題,2017年底上汽乘用車攜手阿里雲、泛雲科技建設業內首個IaaS混合型工業模擬計算服務平臺——上汽模擬計算雲SSCC(SAIC Simulation Computing Cloud),並於2018年初成功上線,再度驗證了雲端計算模式在工業研發領域的彈性、快速與高效!
上汽模擬計算雲主要由阿里雲公共雲叢集和上汽乘用車自建叢集兩大部分組成,同時通過高速專線實現了資料互通和計算資源的聯合排程,其中阿里雲公共雲叢集主要提供了以下計算資源:
【HPC計算叢集】HPC叢集計算節點由超級計算叢集scch5例項組成。SCC與彈性裸金屬(神龍)伺服器一脈相承,既提供了雲端計算的成熟管控、彈性資源優勢,又達到了物理機的效能,並在此之上加入高速RDMA互聯支援,大幅提升網路效能,顯著提高大規模叢集加速比。
【NAS共享檔案儲存】NAS作為雲上資料流的共享交通樞紐,無論是使用者提交的作業輸入,作業求解結果,後處理輸入資料,都經由NAS中轉使得VPC內所有計算資源可以同時訪問資料,NASplus還打通了Windows/Linux跨平臺共享資料訪問,滿足常見企業業務場景。NAS結合阿里雲飛天盤古2.0最新技術,提供了高聚合頻寬,完全滿足CAE軟體的I/O效能需求,並通過多備份等手段提供了10個9的資料可用性。隨著業務規模增長,還可以根據需求升級為CPFS分散式檔案系統提供極致I/O效能。
【圖形處理叢集】採用Pascal架構的Nvidia Tesla系列企業級GPU,在提供高可用性的同時,確保在多使用者登入使用圖形伺服器時仍能生成流暢的演示動畫,快速完成模型渲染等工作,保障前/後處理工作流的完整性、可靠性。
資料顯示,平均每天500多個碰撞分析、結構剛度分析、流體分析、NVH分析等多學科模擬計算作業在上汽模擬計算雲平臺上完成,模擬了整車、發動機數百種工況。由於阿里雲超級計算叢集帶來的效能提升,相對本地叢集節約了計算求解時間,使用者作業排隊時間也明顯縮短,工程師可以在工作時間段做更多的模型調整,提升工作效率。另外作業資料絕大部分在阿里雲公共雲叢集閉環流動,大大減輕了本地儲存的壓力,更多歷史工程資料得以保留,為工程師做多方案對比分析提供了極大幫助。據瞭解,藉助阿里雲,上汽乘用車實現了工程開發模擬能力升級,模擬計算效率提升了25%,使工程開發人員更加專注於產品設計和效能優化,打造出世界級產品的高品質。今年北京車展上全球首秀的概念車MG X-Motion,其量產車的卓越整車效能正是經過上汽模擬計算雲平臺反覆驗證和優化的。
上汽乘用車資料及資訊系統部工程應用支援高階經理尤靜表示,阿里雲與上汽自建HPC叢集,效能表現卓越、資源彈性伸縮,大大緩解了研發需求的壓力,很好地保障了工程開發進度。資料及資訊系統部基礎設施總監強斌也表示,阿里雲公共雲管控模式成熟,安全性符合上汽相關規範,資源開通靈活,節約了自建叢集的資源投入和人力成本。據瞭解,混合雲技術的應用,有效推動了上汽乘用車技術中心的全球化數字研發發展程式,符合上汽乘用車產品國際化的研發思維;同時這種高效合作的模式,可以快速擴充套件到產品研發的完整業務鏈,助力上汽乘用車向終端市場快速推出符合上汽“新四化”——電動化、智慧網聯化、共享化、國際化發展方向的汽車產品和出行服務。
阿里雲EHPC技術特點
綜合IaaS/PaaS/SaaS各方面的創新,上汽模擬計算雲表現出以下幾方面的技術優勢:
第一,效能優越
*HPC計算節點效能強勁,採用Intel Xeon Gold 6149 CPU,最新第五代Skylake架構帶來更卓越的計算效能;
*先進高效能網;絡架構,RoCE 2 × 25 Gbps 互聯,低延遲高頻寬,大幅提升加速比;
*NASplus/CPFS共享儲存提供聚合頻寬,滿足絕大多數CAE場景需求,還可升級至CPFS檔案系統;
叢集整體效能處於國際領先地位
第二,SLA保證
公共雲完善穩定的管控系統及當機遷移等響應手段,保障了單個計算節點99.95%的可用性,確保CAE模擬計算業務的連續性。
第三,混合雲架構
*雲上VPC與本地叢集通過高速通道(專線)打通成為獨立子網,確保資料安全互通。
*雲上計算資源無縫接入本地license、排程器及SaaS等。
*出現超出規劃的計算資源需求(如緊急專案),臨時增加公共雲資源是最佳應對手段
第四,自動伸縮(*E-HPC支援)
在合理設定叢集負載閾值的前提下,自動伸縮功能既可最大限度地節省公共雲資源花銷,又能在高峰期消化負荷,保障CAE模擬計算求解業務順利運作。
第五,快速POC
直接在阿里雲控制檯操作公共雲資源開通,分鐘級交付整個叢集,即可開展測試。無需等待採購或資料中心機房規劃/安裝部署等瑣碎問題。
POC進行時,可以選擇臨時開通超過正式環境規劃的資源量,加快CAE應用驗證流程
第六,Linux/Windows資料共享互通
NASplus提供了業界領先的NAS同時以NFS協議掛載到Linux/Windows上的重要功能,使得使用者可以在使用熟悉的Windows操作介面進行互動式後處理操作的時候,能夠直接讀取共享儲存中的求解計算結果。
第七,彈性容量的資料閉環
使用者上傳作業輸入資料後,求解計算後的結果資料寫入NAS後即可進入使用雲上圖形伺服器的後處理,形成資料閉環,安全可靠。如無特殊情況無需下載回本地。
另一方面,即使資料用量已超過規劃量(比如超出購買的容量包),公共雲NAS的10PB儲存上限可完全確保資料正常寫入,求解計算幾乎不受儲存空間限制,充分保障了業務連續性
第八,完善的帳號管理使能協同開發
客戶可以通過RAM授權子帳號只讀許可權的方式,讓合作伙伴登入雲上機器進行軟體維護,錯誤排查/分析等,無需長途奔波到現場。共享後臺VNC連結也大大方便了多方討論合作。
第九,完備的SaaS服務能力
平臺內建叢集計算、虛擬應用兩類IaaS資源入口,並根據工程軟體的應用特點進行統一的部署、整合、排程及監控,可以提供CAD、CAE等工程軟體線上服務:
互動類應用:HyperWorks, EnSight, Converge Studio, Star-CCM+, Fluent, MSC.Admas,Abaqus,NCode
計算類應用:LS-Dyna, Converge, Star-CCM+, Fluent, MSC.Nastran, NX.Nastran, MSC.Admas, NCode, OptiStruct, Abaqus, Star-CD, iSight
第十,精細化業務排程能力
基於上汽乘用車本地HPC叢集、阿里雲的資源差異性,結合使用者資料儲存一致性需求,平臺設計並實現了精細化的模擬計算業務排程能力,包括並不僅限於:
1.資源配額調劑。平臺基於部門、專案組屬性進行固定資源、公共資源配額約束,既可保障部門、專案組的剛性計算需求,亦可滿足企業層面的彈性資源排程要求;
2.IaaS資源統一排程。平臺通過裝置分組策略,將本地HPC裝置、阿里雲叢集例項進行統一排程,既可保證單一算例的高效並行效率,也可為海量任務提供資源快速排程;
3.使用者資料統一檢視。平臺可同時管理本地儲存與阿里雲端儲存,為了保障使用者資料管理體驗,特別設計並實現了使用者資料統一檢視,CAE資料可與臨近資源節點智慧匹配併發起計算或互動;
4.閒時搶佔排程策略。平臺針對使用者計算業務場景,特別設計並實現了閒時搶佔排程策略,在規定時段可突破預定資源配額約束,最大化利用計算資源;
5.許可證高階排程機制。平臺針對工業軟體許可證特點,設計並實現了一系列高階排程機制,可以為裝置節點組、使用者組進行許可證資源預留控制。
上汽模擬計算雲SSCC (是國內首個投入實際生產的CAE模擬計算混合雲,可為數百人的模擬分析團隊提供線上服務,月均完成模擬計算任務達到上萬例。
回顧專案歷程,同時展望中國工業自主研發的未來征程,上汽模擬計算雲SSCC將會成為雲端計算實踐的一個重要里程碑事件,為中國企業揭示智慧工業研發雲的真實能力與巨大價值:
上汽集團已建成計算資源彈性供應體系與靈活管控機制,實現了精細化的研發資源管理、安全可靠的核心研發資料閉環生產,必將完全釋放智慧研發創造力,進一步提升核心研發生產效率; 阿里雲正在為中國智造提供全面、高效的計算引擎服務,在工業模擬計算領域實現了不可估量的價值。