一文了解螞蟻金服今年 KubeCon 全部重磅分享
6 月 24 日,國內雲原生領域最重要的會議即將來襲!KubeCon + CloudNativeCon + Open Source Summit China 2019將在上海召開,螞蟻金服此次也會重度參與,由多名技術專家進行分享並組織 workshop,為參會者獻上技術的饕餮盛宴。
本次大會上,螞蟻金服將會重點分享 Kubernetes 叢集的管理、深度學習任務在 Kubernetes 上的大規模部署和調優、網際網路金融、安全容器等前沿課題。從 2016 年起,螞蟻金服開始深度使用 Kubernetes,並作為終端使用者案例被 CNC F官方推薦:
目前,螞蟻金服不僅在圍繞 CNCF 的雲原生開源技術方面做出貢獻,也開源了自己的金融級雲原生分散式解決方案 SOFAStack,本次大會上螞蟻金服將以 Workshop 的形式展示使用 SOFAStack 來快速實現 Service Mesh 和 Serverless,歡迎關注。
具體分享內容如下:
議題一覽
通過託管 CPU 和 GPU 工作負載,實現資源的高效利用
- 螞蟻金服平臺資料技術系統部技術專家 岑鵬浩(庫泊)
- 阿里雲容器平臺高階技術專家 何劍
議題簡介
本次演講主要介紹如何將 AI training 任務和長服務在 Kubernetes 叢集之上混部。主要目的是通過混部各種 workload 提高資源利用率,從而節省資源。我們會從各個不同的維度包括 Qos class, cgroup, scheduling 等等來描述我們如何實現混部,以及如何評估利用率。過去幾個月中,我們構建了一個幾百節點的 GPU 和 CPU 混部叢集,我們會介紹在生產叢集中混合部署長服務和AI批處理任務的最佳實踐。
不再混亂:大規模 Kubernetes 審計和檢查
- 阿里雲容器平臺技術專家 陳杰
- 螞蟻金服高階開發工程師 馬金晶
議題簡介
眾所周知,準確的異常發現和快速的問題分析是保證 Kubernetes 叢集可用性和穩定性的關鍵所在。但在整個 Kubernetes 專案中,有著不計其數的監控指標資料。僅以我們的 Kubernetes 叢集為例,我們觀察到像這樣的監控資料每秒鐘就會產生幾千條。如何合理地利用這些複雜而大量的資料和指標,對它們有效的進行記錄和分析,變成簡單易懂的視覺化展示,變成準確的告警資訊,是一個非常有挑戰性的工作。
在這個演講中,我們希望與大家分享在 Alibaba 在 Kubernetes 叢集監控、審計和巡檢方面的實踐和經驗。首先,我們會聊一聊 Kubernetes 與穩定性相關的重要資料和指標,以及如何去理解它們。我們會以案例的形式,具體講一講我們如何對這些資料和指標進行整合與解析。最後,我們會分享阿里巴巴高效、實時的對這些資料進行自動化巡檢與分析的最佳實踐。
有效可靠地管理大規模 Kubernetes 叢集
- 螞蟻金服高階開發工程師 張勇(滄漠)
- 螞蟻金服技術專家 林志賢(瀟林)
議題簡介
隨著業務的增長,我們需要將 Kubernetets 部署到世界各地的多個資料中心。單個資料中心中就擁有超過數萬個節點。我們面臨的關鍵挑戰是如何高效、可靠地在資料中心內管理多個大規模 Kubernetes 叢集。
在本次演講中,我們將分享實現大規模叢集管理自動化的經驗和實踐。首先,我們將介紹全自動化節點生命週期管理,以及如何基於 NPD、Autoscaler 和自定義運算子自動發現和恢復節點故障。然後,我們將分享部署和升級 Kubernetes 叢集的經驗和解決方案。最後,我們將分享基於 Prometheus 和運算子的風險防控系統,該系統可確保叢集可靠性,具有自動故障檢測和隔離的能力。
為網際網路金融關鍵任務場景擴充套件部署
- 螞蟻金服高階開發工程師 周夢伊(楓晟)
- 螞蟻金服技術專家 吳珂(昊天)
議題簡介
預設部署方法為執行常規版本升級提供了一種良好的解決方案。但是,將高可用性和可靠性的大規模服務部署為網際網路金融應用尚且另當別論,更不用說這種工作負載在現有作業系統和維護系統下所面臨的相容性問題了。
螞蟻金服引入的新工作負載可讓這些問題迎刃而解。它能夠通過可靠而靈活的分發、風險控制的部署策略以及高效能的就地更新擴充套件部署能力。它尤其消除了金融服務行業所面臨的技術障礙,使開發商和運營商能夠專心發展核心業務。
Kubernetes 叢集的大規模分散式深度學習
- 螞蟻金服技術專家 唐源(禮之)
- Director of Engineering, MobileIron Yong Tang
議題簡介
本次演講的重點是在 Kubernetes 上部署大規模分散式深度學習。此外,還將介紹如何通過使用運算子來管理和並實現機器學習訓練過程自動化。我們將分享我們的經驗,並比較兩個開源 Kubernetes 運算子:tf-operator 和 mpi-operator。這兩個運算子都為 TensorFlow 管理訓練任務,但有著不同的分配策略,這就造成了 CPU、GPU 和網路利用率方面的不同效能結果。
深度學習任務既是網路密集型又是 GPU 密集型,因此對編排進行適當優化非常重要。易發的不平衡會導致閒置計算容量,這對於 GPU 節點來說成本太高昂了(與 CPU 相比)。我們將分享我們的經驗,希望可提供有用的洞察,幫助從機器學習任務中獲得更好的經濟效益。
推介會:SIG Cluster 生命週期
- 螞蟻金服高階研發工程師 徐迪(潯鳴)
- Cloud Software Architect, Intel Alexander Kanevskiy
議題簡介
Sig-Cluster-Lifecycle Intro 群集生命週期 SIG 是一個專注於群集部署和升級的特別興趣小組。我們的 SIG 正在努力改善使用者體驗,以引導符合最佳實踐的最小可行 Kubernetes叢集。使用我們的主要安裝工具 kubeadm,可以很好地管理簡化的安裝和升級過程。我們最近推出了一個名為 Cluster API 的新 Kubernetes 物件,它將宣告式 Kubernetes 風格的 API 引入群集建立,配置和管理。在本次介紹會上,我們將介紹 SIG 的使命陳述,稽核最新更新,並討論我們的路線圖。還介紹了一些新的生命週期專案。非常歡迎您加入我們的 SIG 併為其做出貢獻。
安全沙箱是否已生產就緒?Kata 容器、gVisor 等
- 螞蟻金服資深技術專家 王旭(迴圈)
- 螞蟻金服技術專家 李福攀(葉慈)
議題簡介
在 KubeCon NA 2018 上,我們對 Kata 容器和 gVisor 進行了定量比較,當時我們展示了對 Kata 而言合理的 CPU/網路效能、檔案系統儲存的效能損失、Kata 的記憶體消耗以及 gVisor 的系統呼叫開銷等。
活動結束後,Kata 容器釋出了版本 1.5,支援輕量級管理程式(Nemu 和 FireCracker)。當時我們還介紹了用於檔案系統共享的 virtio-fs,它可以提供更好的 POSIX 相容性和效能。Virtio-fs 能夠與 shimv2 進行無縫的容器化整合,看似能夠在 2019 年為 Kubernetes 提供更出色的生產就緒型安全沙箱支援。
在本次演講中,我們將展示使用更新的測試套件對新推出的技術進行的基準測試,並幫助使用者瞭解它們是否已生產就緒。
SOFAStack Cloud Native Workshop
Service Mesh 將服務間通訊能力下沉到基礎設施,讓應用解耦並輕量化。但 Service Mesh 本身的複雜度依然存在,如何輕鬆的實踐 Service Mesh 技術?在活動現場,我們將帶你感受 CloudMesh 通過將 Service Mesh 託管在雲上,助力輕鬆實踐 Service Mesh 技術。
作為雲原生技術前進方向之一,Serverless 架構讓您進一步提高資源利用率,更專注於業務研發。本次您可以體驗到快速建立 Serveless 應用、根據業務請求秒級 0-1-N 自動伸縮、通過日誌檢視器快速排錯、按時間觸發應用等產品新功能。
微服務架構下,分散式事務問題是一個業界難題。這次,您可以親身體驗如何使用開源分散式事務框架 Seata 的 AT 模式、TCC 模式解決業務資料的最終一致性問題。
具體日程可點選這裡檢視。
全部日程
實際日程以大會官網為準。
時間 |
議題 |
6月24日 09:00 - 16:00 |
SOFAStack Cloud Native Workshop |
6月25日 13:35 - 14:10 |
通過託管 CPU 和 GPU 工作負載,實現資源的高效利用 |
6月25日 17:30 - 18:05 |
不再混亂:大規模 Kubernetes 審計和檢查 |
6月25日 17:30 - 18:05 |
有效可靠地管理大規模 Kubernetes 叢集 |
6月25日 16:00 - 16:35 |
為網際網路金融關鍵任務場景擴充套件部署 |
6月25日 16:00 - 16:35 |
Kubernetes 叢集的大規模分散式深度學習 |
6月25日 11:00 - 11:35 |
推介會:SIG Cluster 生命週期 |
6月25日 11:45 - 12:20 |
安全沙箱是否已生產就緒?Kata 容器、gVisor 等 |
訂閱“Linux 中國”官方小程式來檢視
相關文章
- 螞蟻金服AntV-S2重磅釋出
- 分享2019年螞蟻金服面經(已拿Offer)!附答案!!
- 螞蟻金服 Service Mesh 實踐探索
- (螞蟻金服mPaaS)統一儲存
- 螞蟻金服RPC框架結構分析RPC框架
- 螞蟻金服 Service Mesh 深度實踐
- 9.9螞蟻金服二三輪面試面試
- 乾貨分享:螞蟻金服前端框架和工程化實踐前端框架
- 招聘貼:螞蟻金服招Java研發Java
- 招聘貼:螞蟻金服招前端開發前端
- 【北京】Golang技術專家--螞蟻金服Golang
- 螞蟻金服面試經歷-前期準備面試
- 螞蟻金服 DB Mesh 的探索與實踐
- 解構螞蟻金服:巨擘崛起(附下載)
- 一文讀懂螞蟻金服自研技術的發展和實踐
- 互金落,螞蟻起
- 螞蟻金服微服務實踐 | 開源中國年終盛典分享實錄微服務
- 螞蟻金服的一次面試經歷分享!(一面、二面)面試
- 螞蟻金服 Service Mesh 實踐探索 | Qcon 實錄
- 螞蟻金服!前端實習生!內推!提前批!前端
- Demo Show | 螞蟻金服 mPaaS IDEA 外掛實踐Idea
- 螞蟻金服Service Mesh漸進式遷移方案
- 螞蟻金服面試經歷-臨場發揮面試
- 螞蟻金服RPC框架SOFA-RPC - 初體驗RPC框架
- 【螞蟻金服】國際事業部招前端啦!前端
- 螞蟻金服RPC框架SOFA-RPC初體驗RPC框架
- 螞蟻金服SOFA-Boot整合SOFA-RPC(下篇)bootRPC
- 螞蟻金服SOFA-Boot整合SOFA-RPC(中篇)bootRPC
- 螞蟻金服SOFA-Boot整合SOFA-RPC(上篇)bootRPC
- 螞蟻金服的 3D 互動探索之路3D
- 螞蟻金服開源自動化測試框架 SOFAACTS框架
- OSDI '18重磅解密:螞蟻金服實時金融級分散式圖資料庫GeaBase解密分散式資料庫
- 重磅!螞蟻金服開源機器學習工具SQLFlow,技術架構獨家解讀機器學習SQL架構
- 分享我的優質面經,螞蟻金服社招三面面經分享,已拿offer
- 開篇 | 螞蟻金服 mPaaS 服務端核心元件體系概述服務端元件
- 螞蟻金服!實習生!提前批!強勢內推!
- 螞蟻金服招聘中介軟體 Go 語言專家Go
- Social Lending蜂巢星球,區塊鏈界的螞蟻金服區塊鏈