我在螞蟻金服技術風險部做“醫生”

支付寶技術團隊發表於2019-05-27
有一種誤解流傳甚廣,認為技術風險工程師是一個“背鍋”的崗位,幹著髒活累活……事實真的如此嗎?螞蟻金服技術風險部的孝泰同學以他的親身經歷來“闢謠”,並廣發英雄帖——螞蟻金服春季校招啟動,歡迎同學們加入技術風險部感受不一樣的風景,畢竟,做好幾萬臺伺服器的釋出這種事兒還是非常牛x的。

文/圖 孝泰

前言

畢業進入螞蟻金服到現在正好兩年,阿里有句老話“一年香,三年陳,五年醇”,現在還在“香”“陳”之間,算不上新人更算不上老人。作為一個從校招就進入螞蟻的同學,從剛開始對 SRE 工作的迷茫質疑,到如今的篤定前行,我想分享一下這兩年我的經歷和感悟。

17 年螞蟻的 offer 來的比往年來的更晚一些,其他公司 offer 都發了一段時間了,螞蟻的 offer 才姍姍來遲。接到 HR 的電話還是挺振奮的,火急火燎跑到實驗室把 SRE 的崗位說明給老師看了一眼,只記得他皺了皺眉頭說: 嗯,這是一個背鍋的崗位,要慎重,我頓時心頭一緊。其實來了螞蟻之後,我才發現 SRE 也並沒有老師說得那麼誇張,時至今日在招聘的時候我還經常跟人解釋什麼是 SRE,以及 SRE(原意為站點可靠性工程師,在螞蟻金服又有了更廣的釋意:技術風險工程師)和 PE(運維工程師)之間的差別, 如果說 PE 類似業務系統的“護士”,SRE 更偏向於“醫生”的角色 ,醫生既要懂基本的護理知識,但更重要的是要能診斷,能治療,甚至還需要設計一些新的診治工具。SRE 也是如此,不僅要支援日常運維,還要能做系統的高可用和資金安全架構設計,參與螞蟻重大專案的技術風險評審和分析,發現並跟進線上問題及時應急止血,除此之外還要進行技術風險相關核對免疫和故障自愈平臺的開發建設。

雖說當時對 SRE 工作有些小誤解,但最終還是選擇了螞蟻金服,第一份工作期待一個更高的平臺。取花名的時候試遍了所有想取的名字都被人取過了,最後選中了“孝泰”,一是我這個姓有個歷史人物叫這個名字,兩個字字意也還不錯,二是發音像“show time”,期望著能在螞蟻秀起來。

“excuse me?還要寫前端”

阿里針對校招生有很完善的培養制度 , 剛入職的第一個月基本都在培訓中度過。培訓一完成,就被老大安排到一個業務團隊去輪崗,要做大安全的 SRE,首先就得熟悉安全的業務。幾個月的輪崗時光過得很快,和業務的同學合作也很愉快,臨走的時候給輪崗團隊發了一封感謝信,然後就興沖沖的回到自己的 SRE 團隊了。

那個時候我們大安全 SRE 團隊算上老大也才 6 個人,一般 SRE 團隊都會分為高可用和資金安全兩個小組,我被安排到了資金安全組,接到的第一個專案是風控資料校驗平臺的建設。這個平臺是幹嘛用的呢?眾所周知螞蟻金服的風控技術在業內是非常先進的,“你敢付,我敢賠”的使用者保障計劃背後就是海量的風控模型和策略在支撐,而這些模型和策略的執行又依賴嚴謹正確的大資料。如何保障策略模型計算所依賴資料的完整性、正確性,最大限度的及時識別資料風險,就是我需要攻克的第一個命題。

當時熱情高漲,SOFA 也用了一段時間了,準備大幹一場,做了一段時間,老大說前端方案也要看起來,開始醜點也無所謂。聽到要做前端,我雖然嘴上是答應的,但內心是拒絕的,從學計算機開始我就是做 java 棧開發的,從來沒做過前端,也沒想過將來會做前端,對 js 的理解僅停留在知道 java 和 javascript 的關係是張飛和岳飛。開始的一週挺艱難的,團隊沒有一個會前端,純靠自己摸索和問其他團隊的同學,緩步前進,兩週之後才逐步能上手一點一點把平臺的前後端都搭建起來。其實在螞蟻這種事並不少見,以前沒做過前端的,團隊沒有人做自己也要去做;沒做過資料分析的,業務需要做,硬著頭皮也得去學怎麼清洗資料。畢業的時候常聽人說,去大公司就是做一顆螺絲釘,但在 螞蟻金服需要的並不是一顆一成不變的螺絲釘,而是一個能自適應各種問題的“螺絲釘” ,“螺絲釘”不斷進化,直到有一天發現自己已經不是一顆“螺絲釘”,而是已經成為了整個系統的支架。

“吹個牛x,我也做過數萬臺機器的釋出”

作為 SRE 做一次螞蟻日常藍綠髮布是一件再普通不過的事情了,簡單解釋一下何為藍綠髮布,螞蟻核心應用伺服器一般會分為藍綠兩組,日常各分擔 50%的流量,藍綠髮布時流量會先切到其中一組,這樣一組流量是 100%,一組沒有流量,沒有流量的一組就開始釋出,釋出完之後再壓測,壓測完之後流量再被引回來,同理再發另外一組,一般一次藍綠髮佈會持續兩天。由於會涉及到切流量,並且釋出的應用都是核心鏈路上的關鍵應用,所以至少看上去是一個風險極高的操作,所以常有老司機“嚇唬”新人說操作稍有不慎就能被開除(當然這僅僅只是調侃一下的玩笑話而已)。

一個普通的週三早上,我在百年鍋貼吃著早飯,一個釘釘過來:這周你藍綠髮布,我戰戰兢兢的走到工位點開發布連結,看到釋出單上全是各種名稱帶 core 的應用(螞蟻核心應用名裡面一般會有一個 core 字),不禁吸了一口涼氣。我們團隊本來藍綠髮布經驗就比較少,還趕上開會,一個上午就我一個人在工位上瑟瑟發抖。整整兩天,我都處於精神高度緊繃的狀態,監控上每一個漲跌都深深的牽動我的心,流量按照計劃被一點一點切走,應用一個一個被置為已釋出,流量又一點一點被切回來,整個過程中雖然有些小插曲,但在老司機的幫助一下,都平穩順利的完成了,在群裡同步本次藍綠髮布結束的那一刻,吊著的心才算是放了下來。

那是我 第一次對螞蟻金服的技術感到由衷的佩服 ,要知道不少公司為了降低風險都會把釋出放到凌晨,但螞蟻能在如此大的使用者基數下,在工作日的大白天把全公司最核心的應用釋出交給一個剛入職一年的同學,一定是對釋出切流平臺有著無比的自信,並且對技術風險有全面的把控才敢做的。像 這種指揮千軍萬馬的感覺,可能也是隻有在螞蟻金服這樣的平臺才能體驗到的 ,雖說整個釋出過程中我其實沒有啥操作,基本上就是點點按鈕,同步一下應用的 owner,但至少釋出數萬臺機器的牛x是吹出去了。

“恭喜你,晉升了”

來螞蟻的第一年,風控資料校驗平臺探索出了一套緊密結合業務的運營方案,校驗的場景和覆蓋率快速提升,在風控資金安全保障方面發揮了重要的作用。除此之外風控結果的正確性校驗也有長足的進步,先後接入了支付、營銷、會員等多個域的風控結果一致性校驗。透過積極主動地參與到資金安全方案的設計和落地實施中,並且在資料分析、前端設計等對我而言的未知領域中不怕困難勇於探索,我的 工程能力和業務理解能力都得到很大的提升 。靠著業務產出的成果和個人的成長,我被提名了那一年的晉升。 晉升答辯沒有想象中那麼緊張 ,雖說有時候還是會被問得一愣一愣,感覺自己沒有 get 到評委的點,但大部分問題都還是能應對的,答辯結束之後 HRG 送了我一個書籤,上面寫著“感謝曾經努力的自己”。一個月之後,結果下來了,晉升成功。

在螞蟻晉升之後帶來的一定會是更大的挑戰和責任 。晉升之後沒多久,資金安全小組的師兄撤走了,這意味著我必須要獨立負責大安全資金風險整體技術的保障和設計。相較於常規的螞蟻業務,大安全的資金安全問題和高可用問題結合得更加緊密,就像人的內傷和外傷,高可用問題是外傷,重點是要及時應急止血,資金安全問題是內傷,重點是要在單筆粒度上對問題的實際影響進行感知,一個是表象,一個是實際影響,沒有完全脫離內傷的外傷,但常常有很多內傷是完全沒有外傷表現的,例如前面提到的風控資料正確性問題。要對風控這個超大資料業務做精細到單筆的技術保障絕非易事,舉個例子一次故障導致 100 萬筆交易沒有經過風控掃描就完成了,那實際影響是多大呢?是 100 萬筆嗎?一般情況下大部分用支付寶的人是好人,對這部分人即使放過了也不會有實際資損。但要說一點資損沒有嗎?那也是不可能,因為每天風控業務都會面對大量黑產的攻擊,總之 要精細化地發現風控資金安全的每一筆問題是一件非常有意義也非常有挑戰的事

負責資金安全的第一年,也曾因為對業務價值評估不準確,導致投入了大量心血做出來的東西到最後發現並不能解決實際問題,也曾因為對螞蟻封網節奏感觸不深,常常搞得束手束腳壓力山大。在阿里有句土話叫“ 感到不舒服的時候就是在成長的時候 ”,但真的是難受到崩潰也未必是好事,就像一艘小船,無風難以前進,狂風又容易翻船, 要跳出舒適區,也要學會自我調節

“屁股更大一點,看得更遠一點”

阿里土話有很多,“屁股要大一點”這句話格外出名,經常聽老大說屁股要大一點,不要只看到自己的一畝三分地。屁股大本意就是說不要被自己所在的位置侷限住了思維,要想得更多一點,要心繫全站。今年我們的風控資料校驗平臺繼續穩步向前,覆蓋場景相較於去年又翻了幾倍,鑑於目前已經取得的成果,也響應螞蟻金服國際化的號召,今年我們還將校驗能力賦能到國際化站點,為全球更多的使用者保障了準確高效的安全服務。對於現有的校驗能力,我們也並不滿足,正在試水透過 AI 技術進行校驗規則的推導,校驗異常的聚類識別,並且已經取得一些階段性的成果。除了風控資料校驗以外,風控處理結果準確性校驗也在緊鑼密鼓的進行中。目前螞蟻金服正在大力推進五代架構的升級,在升級過程中如何把控大安全業務的技術風險,保障風控業務的正確性,如何對現有的資金安全免疫架構進行升級也是我們接下來所要關心的。

我在螞蟻金服技術風險部做“醫生”

這段時間常被老大問為啥不考慮將現在大安全資料檢驗能力產品化,賦能到全站,能不能屁股大一點,想得更遠一點,但我也有難處,在這裡也希望大家能幫個忙,如果有對螞蟻金服 SRE 感興趣的同學,想要和我們一起攻克各種高難度挑戰,一起成長的同學,歡迎聯絡我,我們在大安全 SRE 團隊等你。

給校招同學的小建議

在校招中拿到螞蟻金服的 offer 是一件非常有成就感的事,需要也值得為之付出大量的努力。對於校招的新人, 紮實的基本功一定會是面試官首要關心的 ,這方面的準備尤為重要。 對於知識點的準備我覺得可以分為三層,第一層是能解釋概念,第二層是能說明原理,第三層是瞭解實際應用的場景 。例如在面試中問到了 java 的 volatile 關鍵詞的問題,能說出是保證多執行緒訪問變數的可見性,並解釋什麼是可見性可以得1分;如果能更進一步從 CPU 快取角度講清楚 volatile 關鍵字的實現原理,可以再得 1 分;由於這個關鍵詞平時用得比較少,可能沒有什麼直接使用過的經驗,但如果能答到比如說 Java 的 AtomicInteger 類中為什麼會用到 volatile,解決什麼實際的問題,又可以再得 1 分,個人覺得能從這三個方面解釋清楚一個知識點,就算是對這個知識點掌握的比較紮實了。

還有一點比較重要的就是 要有一個比較清晰的職業規劃 ,你的目標越明確就越能有針對性的進行知識的積累和提高。以螞蟻金服 SRE 工作為例,如果你的目標是想成為一個 SRE 的話,除了前面提到的開發基本功以外,如果能有一些開源分散式框架的原始碼閱讀經驗,並且對其中高可用部分的設計有一定的理解,一定能讓面試官眼前一亮。除此之外在 SRE 團隊發展的方向有很多,大資料分析,人工智慧,雲端計算的相關知識都會有用到, 如果你能對這些方向上的某一個有所瞭解也會成為你的加分項。

在面試心態上一定要自信 ,應屆生在專案經驗上可能相對比較少,所以有時候會感覺說話沒有底氣,我甚至有遇到面試的同學在面試一開始就說覺得自己技術不太行,專案沒什麼挑戰,雖然感覺上是挺坦誠的,但其實已經給面試官留下了很不自信的印象了。其實你行不行,專案有沒有挑戰是面試官需要去判斷的,你需要的只是清晰的有條理的把自己的理解說出來就可以了。

在面試策略上,無論你準備得多麼充分,前幾次面試的時候也一定會緊張的,所以 要多參加一些面試,不要只准備想去公司的面試 。很多企業都會把最優秀的員工投入到招聘中,參加面試對於自己沒什麼損失,和優秀的面試官交流自己的面試能力也會大大提高。如果能在面試你心儀的公司之前,就收割掉大量的 offer 的話,對於公司認同你的價值一定會有很大的幫助。

總之無論現實如何,內心始終要堅信付出一定是會有收穫的 ,你現在的付出將來一定會以各種形式回饋到你身上。祝各位學弟學妹們好運,期待能在螞蟻金服和你們相遇!

主管寄語

SRE 不是背鍋俠,我們只是 對自己有超高的要求,對技術有著極致的追求 。所以,孝泰從剛踏入工作崗位的青澀到目前能夠獨擋一面只用了兩年時間。孝泰身上所體現出來素質,希望可以給到大家一些參考:有好奇心,主動學習新技能並加以應用;不甘於平庸,不斷設定新的目標;皮實自省,被挑戰不要緊,仍然先思考自身的問題持續改進最終取得成果。螞蟻有大量這樣的人才和戰友,大家一起戰鬥一起成長。

我在螞蟻金服技術風險部做“醫生”

這裡 充滿機會 ,螞蟻服務全世界十億級使用者,有世界級複雜度的業務場景,航天級服務可靠性的高標準技術要求,技術風險部需要保障 99.999%的服務可用性,0 差錯的資金處理,這背後的挑戰不言而喻。即使如孝泰所說的“螺絲釘”,也代表最硬核的技術沉澱,是富有廣度和深度的技術精華。

這裡 尊重人才 ,孝泰加入螞蟻一年即得到晉升,這離不開孝泰的勤奮、努力及堅持,我們讚賞不甘平庸追求上進的同學,也會創造條件培養新同學。聰明、皮實、樂觀、自省是螞蟻的人才觀,發掘人才並創造條件促其快速成長更是我們的價值觀!

這裡 開放且平等 ,我們直呼其名,每一位同學都可以充分發表意見,工作中孝泰總會提出自己的想法,儘管會被各種挑戰,會沮喪,但也會被指導,挫折過後是更清晰的認知和更快速的成長!我們樂於同學們提出新思路,我們希望每位同學都是能夠獨立思考行動的個體。

這裡就是螞蟻 CTO 線技術風險部,這裡還有大量富有經驗的師兄!

對於即將走上工作崗位的同學們而言,第一次選擇尤其重要,回想自己的工作歷程, 第一份選擇帶來的成長厚度或許真的決定了未來可達的高度 。同學們,如果你已篤定將來的成長髮展訴求,儘量選擇能夠給自己形成更硬核積累的機會吧。祝同學們早日找到滿意的工作~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2645722/,如需轉載,請註明出處,否則將追究法律責任。

相關文章