十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

芊寶寶發表於2019-04-18

大資料時代,隨著企業資料規模的急劇增長,傳統軟體已無法承載,這也推動了大資料技術的發展,Google、AWS、微軟等矽谷巨頭紛紛投入大資料技術的研發;而在國內,王堅也在十年前帶領阿里雲團隊研發MaxCompute,率先在國內開啟大資料計算平臺的自研之路。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題


十年後,MaxCompute已經可以承載EB級別的資料儲存能力、百PB級的單日計算能力,在公共雲上已經覆蓋了國內外的十幾個國家和地區,電商、工業、醫療、農業、氣象、教育等諸多行業企業開始採用這項技術,輕鬆處理海量資料,為社會和消費者提供服務。

MaxCompute的自研之路

事實上,阿里大資料的發展歷程對映出整個大資料行業的發展史。

十年前,阿里巴巴比其它公司更早地遇到網際網路規模化帶來的挑戰。當時全球企業的資料庫基本都是Oracle,而阿里巴巴擁有亞洲最大的Oracle叢集,計算規模達百TB級別。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題


按照當時淘寶使用者量的增長速度,Oracle叢集很快將無法支撐業務發展,而最核心的問題就是算力不足。儘管當時阿里已開始把資料遷移到更大規模的Greenplum,但後者在百臺機器規模時就遇到瓶頸,給業務增長造成極大阻礙。

此外,Hadoop之類的開源技術在可靠性、安全性上也遭遇了天花板。

2008年,王堅帶著解決大規模算力瓶頸的任務加入阿里。他發現,無論是Oracle還是Greenplum、Hadoop,都不是大規模資料計算的最優解,必須自研一套自己的大資料處理平臺。

2009年這項關於大資料的技術長征開始。王堅帶隊,目標是自研大資料計算平臺MaxCompute統一阿里巴巴內部的資料和大資料計算體系。

事實證明,阿里做了正確的選擇。

四年攻堅,MaxCompute終於取得重大突破:2013年8月15日,阿里雲歷史性地突破了同一個叢集內5000臺伺服器同時計算的侷限,為未來的大規模服務奠定基礎。十年後,單叢集規模已超過1萬臺,能做到這一能力的科技公司在全球都寥寥可數。

在阿里云云棲小鎮,還豎著一尊飛天5K的紀念碑,碑上刻著參與解決這一技術難題的技術人員名字。

解決世界級算力難題

通過大資料計算平臺,可以讓訂單實時準確匯聚,也可以精準預測變幻莫測的天氣變化,各行各業都在大規模使用大資料來提供更好的服務,而實現這一能力就是海量資料分析的結果。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題


但要處理好這些資料並不容易。除了資料量的劇增,不同行業資料型別豐富多樣,如結構化資料、非結構化資料等,都給大資料計算平臺帶來新的挑戰。

MaxCompute的創新之處就是採用Datalake技術,把不同的資料來源用類似的方式儲存,用統一的方法計算,提供一套標準化語言,快速實現不同型別資料的計算。

基於這套創新技術,2015、2016年,阿里雲重新整理世界計算奧運會SortBenchmark的六項世界紀錄;2017年,完成全球首次基於公共雲的100TB BigBench大資料基準測試。

如何快速“查詢”也是大資料計算的核心之一。MaxCompute採用“互動式查詢”來解決海量資料查詢慢的瓶頸,通俗地說就是系統可以預判使用者將會做哪些查詢,提前準備,大大降低大規模資料查詢的時間。

此外,MaxCompute提出多租戶雲安全隔離技術,突破傳統大資料平臺的安全侷限,將安全邊界細化到使用者、程式、核心級別,完全滿足金融級的安全需求。

頂級算力走向世界

過去十年,MaxCompute能力不斷提升:單日資料處理量從2015年100PB,2016年180PB,到2017年320PB,再到2018年的單日處理超過600PB。

記錄被不斷重新整理,並且得到了權威機構的認可:在Forrester釋出的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里雲MaxCompute、DataWorks、ADB等三款產品成功入選,並在產品功能(Current Offering)方面力壓微軟。


十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題


這一世界級的大資料計算能力也逐漸展示其價值,幫助數萬企業用更低成本、更高效率計算海量資料,為社會和消費者提供服務。

在生活領域,墨跡天氣開始通過MaxCompute為4億使用者提供氣象預報服務,每天的使用者查詢超過5億次。不僅如此,它們的儲存和計算成本還令人意外地降低70%。

在交通領域,城市大腦在杭州實時指揮1300個紅綠燈路口、200多名交警。從2016年到2018年,杭州從全國最擁堵城市排行榜上下跌52名。

在工業領域,阿里雲的大資料處理技術幫助製造企業尋找上千個引數的最優搭配,提升製造的良品率。協鑫光伏、天合光能等行業龍頭企業,都在嘗試這一全新的生產模式。

在政務領域,浙江最多跑一次通過大資料處理平臺打通政務資料,將與老百姓辦事最密切相關的100個事項70多億條資料,按照統一標準匯入統一的資料倉,實現共通共享共用。老百姓辦事不僅能最多跑一次,甚至有可能一次都不跑。

而在海外,MaxCompute也已進入新加坡、歐洲等市場,將這一技術對外賦能給更多使用者。

從線上到線下,從生產製造到網際網路電商,從國內到海外,MaxCompute的計算能力正在延伸到各行各業,極大地降低了社會的計算成本。


原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章