直擊系統領域頂會OSDI'18現場,探祕阿里集團基礎設施團隊
作為系統領域頂會雙星之一的OSDI(USENIX Symposium on Operating Systems Design andImplementation),當地時間今年10月8日-10日在在美國加州Carlsbad的Omni La Costa Resort & Spa酒店舉辦了其第13次會議OSDI'18。
本次大會參會人數達到了創紀錄的650多人,投遞論文257篇,收錄47篇,錄取率不到20%。另外有83個Poster和6個Demo。本屆OSDI三篇BestPaper分別來自:
UnderstandingFailures(REPT:Reverse Debugging of Failures in Deployed Software, Weidong Cui et al)
OperatingSystem(LegoOS:A Disseminated, Distributed OS for Hardware Resource Disaggregation,YizhouShan,et al)
Debugging(Orca:Differential Bug Localization in Large-Scale Services,Ranjita Bhagwan)
三大OS傳統領域,組委會可謂初心不忘,聚焦系統層面的創新。
3篇Best paper中兩篇的第一作者都是華人學生,也是一個令人欣喜的現象。值得一提的是,Operating System的Best Paper:LegoOS: A Disseminated, DistributedOS for Hardware Resource Disaggregation, Yizhou Shan, et al,引用了我們之前釋出的Alibaba cluster trace佐證下一代resource disaggregation的設計,說明阿里巴巴的基礎技術能力和場景已經開始得到頂級學術會議的重視。
阿里巴巴對本次會議進行了最高階別的金牌贊助,並舉辦了專題研討會(BoF),分別介紹了:
阿里巴巴OS開發優化和創新方面的一些最新進展;
阿里雲端儲存系統盤古2.0;
阿里巴巴的資源管理系統Sigma在日常和雙十一期間進行的多種優化和麵臨挑戰。
研討會現場吸引了來自全世界數十位專家學者,在系統軟體事業部系統效能研究員Kingsum的主持下,大家以演講介紹加自由討論的形式,對上述3個話題展開了熱烈的討論。
本次研討會的三個主題以及講師介紹
會場內近無虛席
阿里巴巴OS的開發與探索
Alikernel是阿里巴巴為了更好支援自身業務發展,應對多種技術挑戰而進行開發和優化的作業系統核心。隨著阿里巴巴集團伺服器數量、業務多樣性、應用混部規模的不斷提高,作業系統和核心需要面臨的挑戰日趨增多,除了上述提到的規模問題,我們還有快速迭代、成本節約和創新性(例如serverless)的要求。
針對這些需求,作業系統資深技術專家紹康介紹了核心開發快速迭代、資源隔離、效能優化、以及在Unikernel方向上的創新探索(AliUK)。
AliUK 架構
新一代分散式儲存系統盤古2.0
盤古2.0是已經在阿里巴巴廣泛部署的新一代分散式儲存系統,具有低延時、高IOPS的特性。盤古2.0的多級設計可以滿足不同應用在多種場景下的需求,通過引入純使用者態的儲存引擎USSOS和軟硬體協同設計等機制,盤古2.0可以有效支援創新儲存介質和RDMA網路,並大幅度提高CPU效率和NVM支援。
阿里雲分散式儲存資深技術專家儲道,從現狀、需求、設計、架構、新特性以及效能等多個方面,列舉了盤古2.0的諸多引人注目的特性。
新一代儲存系統在成本控制、效能和QoS保障方面達到的要求
阿里巴巴超大規模資源管理系統Sigma
Sigma是阿里巴巴集團內部的資源管理系統,是阿里巴巴集團雲化戰略的關鍵系統,也是阿里巴巴集團最重要的基礎設施之一。它服務於阿里巴巴集團眾多經濟體,如天貓、淘寶、廣告、物流等。也負責雙11等電商促銷場景下的資源管理,從2011年起,就從容量規劃、穩定性、成本控制等多個方面應對雙11的極端技術挑戰。
在這次分享中,來自系統軟體事業部排程系統Sigma的技術專家臨石,在Sigma的日常資源管理、雙十一資源資源準備和穩定性、以及整個叢集的cost efficiency幾個方面,介紹了Sigma作出一些優化和麵臨的挑戰。
Sigma-Fuxi混部架構圖
Sigma的日常管理。混部方面,阿里巴巴通過資源隔離、優先順序控制、多排程器協調等方式,將混部的平均CPU利用率提高了45%以上,相對之前10%的線上服務平均資源利用率,節省了大量成本。在高質量決策方面,Sigma引入強化學習機制,克服了傳統啟發式排程演算法容易實現、難以優化的問題,大幅度資源部署率提高(線上排程場景)。同時,Sigma還引入了動態額度機制,通過分析業務負載和應用容器的能力,實現了更加激進的動態資源額度控制,有效提高了整體資源利用率。
在雙十一資源準備方面。Sigma通過大量創新手段,大幅度提升了臨時負載應對能力(超過100倍日均壓力),同時保證了業務的穩定性,為集團節省大量成本的同時,為商業模式的創新提供有有效的技術支援。
後記
儘管研討會在晚上20:30開始,但是房間還是很快被坐滿,與會者對阿里巴巴在系統軟體方面的工作十分感興趣。史丹佛大學Platform Lab的Faculty Director John Ousterhout也參加了本次研討會。值得一提的是,阿里系統軟體事業部不僅僅在和史丹佛進行合作,同時也和很多其他很多高水平學校的老師進行合作。這次研討會大大提高了這些高水平研究者對阿里巴巴基礎設施的瞭解,我們非常歡迎所有有志之士加入我們,共同打造最穩定、高效的系統軟體。
關於本場OSDI'18 阿里巴巴專題研討會上的 topic 有任何問題歡迎聯絡阿里巴巴Sigma叢集管理技術專家臨石:haiyang.dhy@alibaba-inc.com。
阿里巴巴數學大賽賽題、官方參考答案現已公佈。
長按識別以下二維碼,關注“阿里巴巴機器智慧”公眾號,回覆“數學大賽”,即可下載。
↑ 翹首以盼等你關注
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 【Java】基礎_14_開發團隊排程系統Java
- 軟體工程團隊的基於領域的結構 - snaptravel軟體工程APT
- Arch Street Capital Advisors進軍基礎設施領域API
- 實驗八 團隊作業5:團隊專案需求建模與系統設計
- 實驗七 團隊作業4:團隊專案需求建模與系統設計
- IDC釋出:4Q18雲IT基礎設施收入低於傳統IT基礎設施收入
- 團隊vue基礎映象選擇思考Vue
- 加拿大如何在社保數字領域內實施產品管理和團隊拓撲?
- 不同團隊如何實現登入系統 (just for fun)
- 團隊作業3——需求改進&系統設計
- 阿里雲訊息團隊創新論文被軟體工程頂會 FM 2024 錄用阿里軟體工程
- SkyReach 團隊團隊展示
- 揭祕谷歌中國廚師團隊:不創新會死谷歌
- 達觀資料中標夢餉集團OCR智慧稽核專案,賦能電商基礎設施建設
- 華納集團現場驗證-18788378457
- 谷歌員工爆料Python基礎團隊原地解散谷歌Python
- 第四次團隊作業——系統設計
- 團隊作業3--需求改進&系統設計
- OKR系統改變您的團隊OKR
- Pipefy如何使用團隊拓撲方法建設敏捷團隊?敏捷
- 傳統文化研究團隊------軟體工程團隊專案軟體工程
- 阿里下場社群團購阿里
- 架構強弱比較:基於業務領域劃分的團隊更強 - martinfowler架構
- 如何實施智慧化的團隊協作?
- DevOps 團隊如何防禦 API 攻擊devAPI
- 前端小團隊建設前端
- 三一集團數字化轉型探祕:以DevOps平臺構建敏捷研發體系dev敏捷
- 2022年DDD新書推薦:領域驅動設計+Wardley對映+團隊拓撲新書
- 社會技術系統框架中的產品技術團隊 - esilva框架
- SAGI GAMES曾嶸:《Genius Shooter》,小團隊如何搏擊北美市場GAM
- [仁潤雲技術團隊]許可權系統的設計
- 清華、阿里、RealAI等頂尖團隊釋出首個公平、全面的AI對抗攻防基準平臺阿里AI
- Laravel 團隊任務管理系統(已開源)Laravel
- 小型團隊缺陷管理系統指南:如何選型
- Fedora 團隊宣佈 Fedora 36 系統釋出了
- 架構團隊如何重構內部系統架構
- CRM系統可以有效管理銷售團隊嗎?
- 團隊作業3--需求改進&系統