阿里重磅開源!4000臺伺服器真實資料集,揭祕世界級資料中心
阿里妹導讀:開啟一篇篇 IT 技術文章,你總能夠看到“大規模”、“海量請求”這些字眼。這些功能強大的網際網路應用,都執行在大規模資料中心上。資料中心每個機器的執行情況如何?執行著什麼樣的應用?應用有什麼特點?除了少數資深從業者之外,普通學生和企業的研究者很難了解其中細節。
今天,阿里巴巴再度開放一份計算機叢集的真實資料集(Alibaba Cluster Data V2018)。該資料集中記錄了某個生產叢集中伺服器以及執行任務的詳細情況。我們希望這波資料的釋出可以拉近我們與學術研究、業界同行之間的距離,推動產業的進一步發展。
下面,阿里系統軟體事業部的技術專家臨石,為大家深入介紹這份獨特的資料集。
2015 年,我們嘗試在阿里巴巴的資料中心,將延遲不敏感的批量離線計算任務和延遲敏感的線上服務部署到同一批機器上執行,讓線上服務用不完的資源充分被離線使用以提高機器的整體利用率。
經過 3 年多的試驗論證、架構調整和資源隔離優化,目前這個方案已經走向大規模生產。我們通過混部技術將叢集平均資源利用率從 10% 大幅度提高到 45%。另外,通過各種優化手段,可以讓更多工執行在資料中心,將“雙11”平均每萬筆交易成本下降了 17%。
那麼,實施了一系列優化手段之後的計算機叢集究竟是什麼樣子?混部的情況究竟如何?
為了讓有興趣的學生以及相關研究人員,可以從資料上更加深入地理解大規模資料中心,我們特別釋出了這份資料集(Alibaba Cluster Data V2018)。資料集中記錄了某個生產叢集中伺服器以及執行任務的詳細情況。我們希望這波資料的釋出可以拉近我們與學術研究、業界同行之間的距離。
在資料集中,你可以詳細瞭解到我們是如何通過混部把資源利用率提高到 45%;我們每天到底執行了多少任務;以及業務的資源需求有什麼特點。如何使用這份資料集,完全取決於你的需要。
如何下載?
長按識別以下二維碼,關注“阿里技術”官方公眾號,並在對話方塊內回覆“資料集”,即可免費下載、瞭解更多詳情。
這個資料可以做什麼?
這份 Alibaba Cluster Data V2018 包含 6 個檔案,壓縮後大小近 50GB(壓縮前 270+GB),裡面包含了 4000 臺伺服器、相應的線上應用容器和離線計算任務長達 8 天的執行情況。
通過這份資料,你可以:
瞭解當代先進資料中心的伺服器以及任務執行特點;
試驗你的排程、運籌等各種任務管理和叢集優化方面的各種演算法並撰寫論文;
利用這份資料學習如何進行資料分析,揭示更多我們自己都未曾發現的規律。
上面這幾點,沒有接觸過類似資料的朋友,可能對於這份資料的用處並沒有直觀的印象,下面我舉幾個簡單的例子:
電商業務在白天和晚上面臨的壓力不同,我們如何在業務存在波峰波谷的情況下提高整體資源利用率?
你知道我們最長的 DAG 有多少依賴嗎?
一個典型的容器存在時間是多久?
一個計算型任務的典型存在時間是多少?一個 Task 的多個 Instance 理論上彼此很相似,但是它們執行的時間都一樣嗎?
實際上,學者們甚至可以用這些資料作出更加精彩的分析。2017年,我們開放的第一波資料(Alibaba Cluster Data V2017),已經產生了多篇優秀的學術成果。
以下是學者們在論文中引用資料(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 這樣頂級學術會議收錄的優秀文章。我們期待,未來你也能與我們共同分享你用這份資料產生的成果!
"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!)

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"



"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"


Cluster Data V2018 更出色
新版本 V2018 與 V2017 存在兩個最大的區別:
DAG 資訊加入
我們加入了離線任務的 DAG 任務資訊,據瞭解,這是目前來自實際生產環境最大的 DAG 資料。
究竟什麼是 DAG?離線計算任務,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任務,都是以有向無環圖(Directed Acyclic Graph,DAG)的形式進行編排的,其中涉及到任務之間的並行、依賴等方面。下面是一個 DAG 的例子。
規模更大
上一版資料包含了約 1300 臺機器在約 24 小時的內容資料,而新版 Cluster Data V2018 中包括了 4000 臺機器 8 天的資料。
我們建立了一個關於 Cluster Data V2018的交流釘釘群。使用釘釘搜尋群號:23112775,即可加入。點選文末“閱讀原文”,可填寫調查問卷。
想看到更多資料?我們長期招收研究型實習生,與我們一起發現問題、解決問題,挑戰世界級技術問題,歡迎投遞簡歷:haiyang.dhy@alibaba-inc.com
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 周博通 | 阿里開源首個 DL 框架、4000臺伺服器真實資料集;明年1月開源Blink阿里框架伺服器
- 開源 | Service Mesh 資料平面 SOFAMosn 深層揭祕
- 萬字長文揭祕:阿里如何實現海量資料實時分析?阿里
- Spring Boot 揭祕與實戰(二) 資料儲存篇 – 資料訪問與多資料來源配置Spring Boot
- 資料湖揭祕—Delta Lake
- 揭開雲原生資料管理的神祕面紗:操作層級
- 1200伺服器,1000億hits,揭祕新浪資料庫伺服器資料庫
- 獨家揭祕!阿里大規模資料中心的效能分析阿里
- React Fiber 資料結構揭祕React資料結構
- [譯]揭祕基本資料型別資料型別
- 【scikit-learn基礎】--『資料載入』之真實資料集
- 影像處理開源資料集
- 資料視覺化分析平臺開源方案集錦視覺化
- 《光天化日》電影版權真實揭祕
- 揭祕Oracle雲(一):建立雲資料庫Oracle資料庫
- 阿里雲DataWorks實踐:資料整合+資料開發阿里
- Spring Boot 揭祕與實戰(二) 資料儲存篇 – MongoDBSpring BootMongoDB
- Spring Boot 揭祕與實戰(二) 資料儲存篇 – MySQLSpring BootMySql
- 阿里DRUID資料來源阿里UI
- 資源 | 25個深度學習開源資料集,have fun !深度學習
- 揭祕Oracle雲(二):建立自治雲資料庫Oracle資料庫
- 揭祕並行資料倉儲的成本CF並行
- Spring Boot 揭祕與實戰(二) 資料儲存篇 – MyBatis整合Spring BootMyBatis
- 開源 Amundsen:資料發現和後設資料平臺
- 首次!用合成人臉資料集訓練的識別模型,效能高於真實資料集模型
- 重磅!Netflix開源大資料發現服務框架Metacat大資料框架
- MSE 治理中心重磅升級-流量治理、資料庫治理、同 AZ 優先資料庫
- 阿里巴巴雲原生大資料運維平臺 SREWorks 正式開源阿里大資料運維
- 資料中心日均 CPU 利用率 45%?!阿里規模化混部技術揭祕阿里
- 深度揭祕:大資料時代企業賣技術還是賣資料?大資料
- 宜信資料中臺全揭祕(一)資料中臺整體介紹|分享實錄
- 【資源】史上最全資料集彙總
- DELL Eq PS4000伺服器資料恢復過程/資料恢復案例伺服器資料恢復
- 行業動態 | 利用Cassandra資料庫揭開家族祖先的祕密行業資料庫
- 全球最大的第一視角視訊資料集開源,取自真實生活,還能提升廚藝
- 揭祕專業創業賽事活動平臺,如何利用好平臺資源創業
- 雲資料庫PostgreSQL版重磅升級開年釋出會資料庫SQL
- 大資料揭祕:學歷真的能改變命運?大資料