謝謝《瞭望智庫》的鼓勵

支付寶技術團隊發表於2019-12-04
前幾天,由瞭望智庫、《財經國家週刊》共同主辦的“第四屆(2019)中國新金融高峰論壇”上,螞蟻金服金融級分散式架構 SOFAStack 獲得了“十三五”金融科技產業示範案例獎。

謝謝《瞭望智庫》的鼓勵

說起 SOFAStack,它已經在2019年天貓雙11中大放異彩,證明了自己。其中,SOFAMesh 覆蓋了100%核心支付鏈路,幾十萬容器規模,峰值千萬QPS……SOFAMesh 已是業界最大的 Service Mesh 叢集。


下面,我們就一起來看看 SOFAMesh 在2019天貓雙11中發生的那些故事。


“Service Mesh 真穩。”

這次雙11大促,將業務搬上了 Service Mesh 的同學們都這麼說。

但在雙11收官之前,魯直、齊風等負責支付寶技術架構的工程師們,聽到最多的,卻不是肯定和鼓勵,而是來自四面八方的“退堂鼓”。

儘管結果滿分,在等待雙11到來前的幾個小時裡,緊張到“手抖”才是他們真正的備戰狀態。

謝謝《瞭望智庫》的鼓勵

畢竟雙11全天2684億交易額依靠的,是來自支付寶自研分散式資料庫 OceanBase 每秒峰值6100萬次的處理能力,和首次登上大促舞臺的 Service Mesh 搭建的全球最大金融級雲原生叢集。但只有他們最清楚,這樣世界級的數字金融運算能力背後,有多少付出和煎熬。

“不行,風險太大,不和你們玩了”

“不行,風險太大,不和你們玩了。”

這是今年雙11前,齊風聽過最讓人喪氣的話。

雖然每年的雙11大促,支付寶都會提前做足技術準備。但是對於今年大促中,Service Mesh 搭建的全球最大金融級雲原生叢集首次登上舞臺,不僅CTO線的技術同學們高度緊張,來自各方的質疑聲,才是最終所有業務登上架構的最大挑戰。

作為CTO線系統部的負責人之一,齊風深有所感。

“一直到11月初,還有業務的同學堅持:‘不和你們玩了’。”甚至在更早的時間裡,連支付寶的會員和金融網路業務,都差點在架構中下線。齊風也理解所有業務同學,出自責任心的擔憂,“畢竟一旦真的出問題,大促就黃了。”

但他和團隊很清楚,原本在執行過程當中,一定幅度的抖動和報錯,是可以解決和承擔的。不過因為是新的架構系統,難免要為所有的不穩定背鍋。“當時是在壓測的高峰期時,監測到連抖動和較高的報錯率,所以就連支付寶會員和金融網路業務,都提出了下線要求。”齊風回憶,這可是件大事。

一旦最基礎的會員和金融網路功能下線,新架構面臨的,將是接二連三的下線要求,那麼承擔大促的目標,就成了空談。

“我們為了加強和業務方的交流和培訓,成立了大促專案組,每週都會進行溝通。10月份在西溪園區開會的時候,還定下過類似‘軍令狀’。”齊風跟會員和金融網路業務的同學約定,在既定的時點內,如果解決不了,就同意下線。

於是兩天內,系統部一百多個同學中,分散在各個方向、所有與之相關的人力全都撲在上面,聚焦於解決這個問題。

支付寶中介軟體服務與框架的負責人魯直,和團隊一起,光是從中秋到國慶期間,經歷的 Service Mesh 升級就達到了數十次。

不同的是,以往每一次基礎設施的下沉,都會給業務研發團隊帶來影響。

“像網商銀行、螞蟻森林和農場,都會在這個過程中被推動升級,而某個階段出現bug的話,就要重新來。”但今年 Service Mesh 的升級過程,會盡可能地減少業務的參與。

可快速的升級,帶來的是問題被快速放大。通宵解決就成了團隊的家常便飯。

隨後為大促進行的壓測,一直持續到了雙11前——8日的那個週五。“透過模擬下單、到app付款頁面,一直在提高峰值,不斷去嘗試摸到更高點。”

雙11臨近時“光明頂”內幾百人鴉雀無聲

其實支付寶經歷了過去大促峰值時差點崩潰,如今早已能讓大家在當天能夠安安穩穩地喝著紅酒度過考驗。

之所以今年還會如此拼命,大抵是來自於對技術的那份“貪心”。

“今天最好的表現,是明天最低的要求”這是阿里巴巴成立20週年之際,新六脈神劍中的價值觀之一,同樣也是支付寶的同學們,對技術成就所抱有的心態。

“Service Mesh 從一個 demo 到經歷雙11考驗,其實經歷了兩年時間。”魯直表示,雖然過去支付寶的各個功能已經能夠良好執行,但能不能在不影響使用者順滑體驗的基礎上,更加合理地呼叫資源,甚至降低成本?

於是今年嘗試了對資源進行排程。比如當早上7點前準備好螞蟻森林的使用資源,峰值度過後在8點左右呼叫補齊到公交、當面付等場景中。

就連在10日晚上22:00的淘寶開獎結束後,資源也經歷了多次調配。第二天零點的訂單峰值,到一點的尾款開放,差不多到夜裡三四點峰值度過趨於穩定時,還要為11日的早高峰、聚划算等需求做好規劃和準備。

“當晚我在阿里巴巴西溪園區的光明頂作戰室,看上去很冷靜,其實我緊張得手都是抖的。”當晚的光明頂,坐著200多位來自各個BU、業務的技術同學,從底層架構到雙11的多個環節,大家都在那裡共度緊張的時刻。

齊風作為其中一員,整晚都對著資料和切換效果,除了新的技術嘗試讓他緊張到手抖,作戰室的氛圍,也讓他難忘。

謝謝《瞭望智庫》的鼓勵

“基本上從10號的23:30開始,一直到11號的1:00,整個光明頂是沒有聲音的。”齊風身邊沒有人說話,甚至沒有大的響動。零食和大閘蟹都不能在此時引起大家的興趣,“在那個時間之前大家都已經補充好了,當時很難分心或是放鬆。”

在另一處作戰點——螞蟻Z空間,魯直也忙著緊跟實況。“本來計劃在雙11時買副耳機給自己,AirPods Pro 還有大額券,結果等我熬過峰值時段,回過神想起來購物的時候,券早就被搶空了。”

但回過頭在看這一切,魯直和齊風,包括螞蟻金服的CTO魯肅在直播裡,都為今年雙11支付寶的表現,打了滿分。

可攻堅技術的人,從來不安於“滿足”。

魯直認為,結果滿分,但過程還能更最佳化。雖說是錯是技術推進繞不開的彎路,“但是比如快速更新會加快和放大問題暴露的情況,我們能不能提早預料到,就是值得更加提升的部分。”

“這些資源調配和切換,今年靠的都是系統自動完成,每次切換,只用三分多鐘。”但齊風覺得,這個動作,還能完成得更快。甚至不僅僅是服務於大促,“讓大促技術日常化,才是我們真正的目標。”


金融級分散式架構 SOFAStack 已經登陸阿里雲官網對外售賣~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2666767/,如需轉載,請註明出處,否則將追究法律責任。

相關文章