螞蟻金服首席架構師何昌華:開源SQLFlow是牛刀初試,實時大資料系統才是未來基石

支付寶技術團隊發表於2019-06-04

開源 SQLFlow,反哺業界,同時小小秀出 AI 肌肉。

這就是螞蟻金服近日開源首個將 SQL 應用於 AI 引擎專案  SQLFlow  後,業界給出的反應。

SQLFlow,把艱深的 AI 與簡單的 SQL 結合起來,大大簡化了資料工程師使用 AI 技術的門檻。

而研發出 SQLFlow 的,正是螞蟻金服計算儲存首席架構師 何昌華 帶領下的 AI Infra 團隊。

螞蟻金服首席架構師何昌華:開源SQLFlow是牛刀初試,實時大資料系統才是未來基石

何昌華史丹佛博士畢業,先在 Google 總部工作 7 年,贏得過公司最高技術獎項,其後又在獨角獸 Airbnb 工作 2 年,負責後臺系統的應用架構。

2017 年 5 月,他正式加盟螞蟻金服,擔任計算儲存首席架構師,並在 2018 年入選了第 14 批國家“千人計劃”專家。

在螞蟻金服,何昌華的工作是開發新一代計算引擎,搭建金融型資料智慧平臺。

而 SQLFlow,就是計算引擎主線上的結晶之一。

不過對何昌華來說,世界正在鉅變,他還要帶隊探索一些沒人做成的事情。

比如 全實時的大資料智慧系統

未來技術基石

大資料的概念,最早來自於搜尋引擎行業,因為搜尋引擎面對的是人類在網際網路上留下的爆炸性增長的龐大資料。

2010 年底,谷歌宣佈新一代搜尋引擎“Google Caffeine”正式上線,這項技術的革命性在於,任何時刻,世界上的任何網頁發生了變化,都可以實時地新增到索引中,使用者也可以實時地搜尋到,解決了傳統搜尋引擎的延時問題。

何昌華當時正是Google Caffeine開發團隊的核心技術負責人之一。

他解釋,“Google Caffeine所實現的最核心的功能,就是實時。”

而現在何昌華在螞蟻金服工作的目標,同樣是搭建一個“完全實時”的大資料處理系統,或稱之為大資料智慧平臺。由於線下生活場景的多樣性和複雜性,這是個比構建實時搜尋更有挑戰性的任務。

他認為,這將成為未來技術的基石。

對於計算機來說,實時就是在發出請求到返回響應之間的延遲儘量小,對於大資料處理系統來說,這還意味著從資料生產到消費的延遲儘可能低,所有這些都意味著計算速度和能力的提升。

此前常用的大資料計算模型 MapReduce,對資料的處理是“分片式”的,資料的片與片之間有邊界的概念,這種批處理的模式不可避免地會帶來延時問題。

以搜尋的場景為例,假如以天為時間單位對資料進行批處理,那就意味著今天更新的網頁,使用者明天才能搜尋到,調高處理的頻率可以部分解決問題,一天兩次、一天四次、兩小時一次……

雖然能逐步接近“準實時”,但成本也會急劇上升。

要實現真正的實時,就必須打破這種批處理的邊界,讓資料處理的過程像水流一樣,隨來隨算,隨時反饋。

這也催生了後來流式計算引擎的蓬勃發展。

而在何昌華看來,除了快,“實時系統”還有兩層重要含義。

第一是 OLTP(聯機事務處理)和 OLAP(聯機分析處理)的融合。

在以往的觀念裡,OLTP 對實時性的要求高,OLAP 對時效性的要求不那麼高。

舉例而言,用支付寶進行一筆交易,需要即時查詢和增刪記錄,就是由 OLTP 來處理的。而對使用者行為特徵的資料分析,則由 OLAP 來處理。

但現在隨著業務場景需求的不斷變化,OLAP 的時效性要求也越來越高。

例如網際網路金融中的風控場景,就需要在完成一筆交易的極短時間中,透過分析使用者的特徵資料判斷風險,這要求 OLAP 也要能實時反饋,且反饋結果馬上就能夠線上訪問。

第二是智慧和資料系統的融合。

人工智慧和機器學習是大資料應用最熱門的領域,而現在絕大多數公司的做法,是將數倉和機器學習平臺分開,從數倉取一批資料,放到機器學習平臺上去訓練模型。

隨著業務場景的複雜化和多樣化,這種模式逐漸顯露問題,因為模型能否實時更新,能否能用更實時的資料來訓練模型,直接影響了應對複雜場景的能力。

螞蟻金服首席架構師何昌華:開源SQLFlow是牛刀初試,實時大資料系統才是未來基石

“資料實時流入、實時訓練模型,模型實時上線決策並反饋資料——這一條線如果能完全打通,對於業務將產生不可估量的價值”, 何昌華說。

資料、計算、智慧,所有這一切構成了何昌華設想中的“高效率的大資料底盤”,也就是一個融合的實時資料智慧平臺,或者叫“Big Data Base”,就像曾經資料庫成為無數場景的資料底盤一樣。

如今,不僅是螞蟻金服或者阿里巴巴集團,在各行各業中,資料驅動的業務都越來越多。

但大資料開發的門檻很高,如果每一項業務都從資料開發的底層做起,將會非常耗時耗力。

如何才能讓做業務的人有更多精力專注於業務?

何昌華認為這就是“Big Data Base”的使命,同樣也是“基石”的含義:

我們希望讓這件事變得簡單——各行各業的從業人員、各條業務線的同學,在堅實的平臺基礎上,不需要知道下層的細節,就可以很方便地開發上層應用。

離真正的智慧有多遠?

降低資料和智慧的門檻,這是何昌華對於新引擎和資料智慧平臺的期望。

目前,他帶領團隊開發的金融型多模融合計算引擎,已經實現了流計算與圖計算、流計算與機器學習的融合打通,距離他設想中的“大融合”越來越近了。

螞蟻金服首席架構師何昌華:開源SQLFlow是牛刀初試,實時大資料系統才是未來基石

何昌華透露團隊目標,就是讓業務變得“極簡”:

未來兩到三年,我們希望新引擎能夠承擔實時線上的融合計算任務。基於這個引擎,結合其他開源引擎,我們就能夠構建出一整套資料智慧系統。在這個資料智慧系統上,業務可以非常輕鬆地完成從功能開發到產品上線的流程,後續的吸引流量、分析決策等也都可以藉助這個平臺來完成。

他甚至勾畫了一幅很科幻的未來場景:你寫一個功能交給引擎,引擎會決定呼叫多少資源去計算,你無需關心具體的計算過程,結果將會在最短的時間內反饋給你。

當你構想出一種新型業務,資料智慧平臺會判斷需要哪些資料,採用哪種模型,如何上線,如何運營流量。

這些流程,都可以智慧化地自動完成。

這是個更長遠的目標。我們開發出資料處理的能力,未來,任何人都可以使用這種能力,真正實現“資料民主化”。

這樣一個融合多種能力的實時資料智慧平臺,目前在世界上還沒有哪家公司能完全研發出來。

何昌華也謹慎而滿懷信心地展望著未來:“我們也是在探索,如果完全實現了探索目標,我們就將真正站到全世界領先的位置。”

無人之境

世界瞬息萬變,資料作為物理世界的映象,理論上是無窮無盡的,問題只在於人類有沒有辦法去記錄和採集它們。

網際網路和移動網際網路的普及,讓人類的行為資料採整合本大大降低。

IoT 感測器裝置的普及,讓工業生產和社會生活中的資料也能夠大量地沉澱下來。

因此在過去的二十年中,資料總量出現了爆炸性的增長。

在整個世界發生數字化鉅變的同時,我們的生活也在悄然改變。

基於資料應用的發展,我們享受到了一二十年之前無法想象的便捷——電商、O2O、移動支付、智慧家居……

但在何昌華看來,數字化還處在非常初級的、在把線下的資料搬到線上的階段。

真正需要思考的問題,是未來當高度資料化的社會到來時,我們擁有什麼樣的能力去處理和應用海量的資料。

這關係到我們是否能夠基於資料做到更多的事,催生出更高的智慧,進而推動人類社會向著下一階段發展。

螞蟻金服首席架構師何昌華:開源SQLFlow是牛刀初試,實時大資料系統才是未來基石

這就是他回國加入螞蟻金服所要尋找的答案。

之所以回來,是因為覺得在這裡做的事,往大一點說,是面向人類社會發展下一階段的探索。

在這場全新的探索中,和海量的資料打交道是必修課,因此,他反覆強調著計算能力的重要性:大資料、人工智慧、深度學習……無不需要強大的計算能力,否則,向前的探索寸步難行。

人工智慧的發展趨勢,也是用更大更高更海量的計算,來模擬人的能力。

“真正的人工智慧=資料 + 100 倍的計算”,谷歌最新的人工智慧模型水平,換算出來相當於數百塊 GPU 持續計算一整年。

何昌華和團隊一起傾力開發的新一代計算引擎和資料智慧平臺,實際上是高效計算能力和強大資料處理能力的綜合載體。

它自螞蟻金服海量的業務場景和資料之中誕生,初衷是支撐螞蟻金服的各項業務,但隨著技術逐步成熟,它也可以具備多場景下的通用性。

金融屬性帶來的高可用性和高安全性,讓它可以廣泛用於其他行業,應對生活服務場景更加不在話下。

這項工作的意義,往大了說,是在推動社會的變革,雖然聽上去是個宏大的命題,但它並非那麼高高在上。

“每一項技術都必有它的落腳點。具體到螞蟻金服,這些技術跟數億人的日常生活緊密相連。”

每一天,當何昌華自己掏出手機使用支付寶結賬付款時,都能直觀地感受到自己的工作成果。就像他在谷歌工作時,每天也都會使用搜尋功能一樣:“自己做出的成果,自己每天都在使用,非常切實地感覺到技術對生活的改變。”

他這樣陳述自己的人生理想。在通往理想的征程中,他既站在技術的最前沿,也身處最為日常的場景中,這二者本就密不可分:

用技術改善人的生活,推動社會和人不斷往前進化。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2646678/,如需轉載,請註明出處,否則將追究法律責任。

相關文章