對話行癲:解密阿里雲頂層設計和底層邏輯

阿里技術發表於2019-04-04

對話行癲:解密阿里雲頂層設計和底層邏輯幾十個問題,萬字長文,阿里雲新任總裁行癲履新後首次深入討論阿里雲雲端計算未來的判斷,深度解讀未來阿里雲生態戰略,揭祕阿里技術委員會和阿里中臺思想的原生思考。

以下是行癲接受媒體採訪的原文。

關於雲端計算的未來

Q:你關注到雲端計算競爭的焦點在發生什麼樣的變化,好像大家還比較關心價格?

行癲:價格是初級競爭,最終還是迴歸到核心價值。價值要從兩端來體現,一個是技術端,一個是應用端。雲一開始都是做基礎設施,但阿里巴巴從做雲第一天起,做的就不僅是現在這個雲,當初的理念是做一個資料處理平臺,這和當時資料處理能力與業務的脫節也有關係,因為是十年前,很少有公司是基於智慧、基於資料的,大部分是基於流程。

後來做了一段時間,發現光做這個還不夠,在中國要想成功,還得有基礎設施。

當然我們做的過程也比較曲折,一開始還想在開源系統上做資料處理,後來發現也不對,必須自研,阿里巴巴不僅是做了一個雲的基礎設施體系,也做了一個資料處理體系(備註:現在叫MaxCompute,當時叫做ODPS),這個是絕無僅有的,包括國內國外。

當然這個過程有點遠,所以回過頭來又必須把IaaS層做好。底層的競爭肯定是拼基礎設施的成熟度、穩定性和價格,但是上層的競爭肯定是拼人工智慧等等。

對話行癲:解密阿里雲頂層設計和底層邏輯

Q:你剛才談到資料處理,開源為什麼不行?

行癲:其實所有的開源軟體公司都沒有面對過這麼大的資料量,Hadoop 、Spark是比資料庫的處理能力前進了一大步,用分散式、用MapReduce的方法,但他們的資料量跟阿里巴巴資料量比還是差非常遠。

第二個是開源的穩定性要求也達不到我們的要求。所以那時候我們第一次做了一個5K的叢集,開源當時不可能超過5000臺機器的,我們第一次突破了機器的限制,可以用更大規模的叢集來處理。第三我們考慮成本,因為資料量規模小不關心成本,大了以後我們更加考慮成本,現在我們阿里巴巴每年業務量都是增長50%以上,但是我們的成本不能線性增長。

我們去年開始大規模混部(備註:一種新技術,使得線上處理與離線處理不再分別擁有專有的機器,而是執行在同一個叢集的機器上,可以極大地節省資源,對於排程部署能力要求極高),我們沒有專用的離線機器去處理大資料,都是用線上跑的機器做大規模的混部。雙11來了,前一個小時暫時不處理資料分析全部用來跑應用,高峰過去之後,排程所有機器去做資料分析,開源是不可能做這個事情的。

我覺得大資料領域如果自己公司沒有應用,很難設計出一個很有彈性,很高價效比的、很高穩定性的處理平臺。

相關文章