數棧人:從青銅到星耀,10年大資料人的奮戰晉級之路

數棧DTinsight發表於2021-05-07

今天,大家就請跟著數棧君一起,和申杭聊聊他從青銅到星耀的大資料之路。

數棧君:申杭,你是07年從華中科技大學軟體工程專業畢業的,能說說你當時為什麼選擇這個專業嗎?

申杭:當時會計、師範、機械製造、土木類專業比較熱門,一般家人都會讓報這些專業,出來好就業。而電子、計算機、軟體工程類的專業剛剛興起,前景並不是很明朗,不過我那時對計算機還是挺好奇的,覺得電腦上開幾個黑視窗,隨便敲一堆英文字母,就可以做很多事情,很神奇,當看到軟體這個名字,感覺很高階、神秘,所以就報了軟體工程專業。說起來,我是華科軟體專業第二屆的學生,算是較早入計算機坑的人。

騷粉的杭哥

數棧君:那現在很多軟體工程師估計都得叫你一聲前輩了。你有10多年大資料經驗,可以說很資深了,幾乎見證了中國大資料行業的誕生和發展。能給大家講一下你的工作經歷嗎?

申杭:這些經歷要說起來,能講三天三夜,不過今天就長話短說吧。

倔強青銅: 初入資料工程師的世界

2007年畢業時, 商業智慧(BI)在中國發展勢頭正猛,我的第一份工作就是在四大管理諮詢公司,行業所稱“四大”之一的上海埃森哲做BI顧問。期間,負責給平安保險、某外資銀行做資料倉儲的模型設計和開發,BI報表的開發等工作。

當時有能力和意願建設資料倉儲的企業還不多,率先進行資料倉儲建設的主要是保險、銀行、證券、電信等一些大型企業。主要是由於這些企業本身的IT系統建設已經比較成熟和完善,並且已經積累了大量的業務資料,對資料的分析,挖掘訴求也比較強烈。

當時,“大資料” 、“資料中臺” 、“資料平臺”等概念還沒誕生,那時業內主流叫法是 “資料倉儲(DW)”,但資料倉儲相關的技術很多都還沒有成熟、體系化,在服務這些保險、銀行、電信企業時,也碰過很多問題,尤其是剛畢業,技術水平和對業務的理解基本是從零開始,一路跌跌撞撞,摸爬滾打,才逐步入門。

在埃森哲工作的一年半里,我積累了很多資料諮詢、資料模型設計、數倉開發等方面的經驗,為後續一直從事大資料行業,打下比較好的基礎。

秩序白銀: 從0到1搭建完整、成熟的資料平臺

當時國內一些比較成熟的零售、製造企業,隨著ERP、CRM、WMS等IT系統的逐步上線和大規模使用,已經積累了大量的資料,但系統間的資料打通、交叉分析,面臨比較大的困難,所以這些企業開始嘗試進行 企業級資料倉儲的建設,解決資料孤島問題,充分挖掘已有的資料價值,輔助業務決策。

基於這個需求和發展趨勢,2008年底,我選擇加入了國內服裝行業領頭企業美特斯邦威。

2008年底-2013年年初,這4年多時間裡,我見證了美邦企業級資料倉儲從0到1的建設、再到大規模應用的全過程。

2013年3月,離開美邦的時候,我們建設的資料倉儲已經全面應用到企劃、生產、物流、零售、財務、人力等各個核心部門, 每天有幾百號人都使用我們建設的系統檢視資料,並利用資料來進行業務決策,可以說是一個很成功的平臺了。

連升三段直躍鑽石:經歷了大資料行業的火箭式上升

2013年是移動網際網路爆發的年份,國內以BAT為代表的網際網路企業都在爭奪移動網際網路的船票,各類APP井噴,大資料的概念興起。當時已是PC端電商霸主的阿里正積極佈局移動端,在此過程中積累了海量的資料,為了充分挖掘這些資料的價值,需要大量的大資料人才,當時獵頭聯絡到了我,建議我去阿里試試。

於是 2013年4月,我加入了阿里,入職無線事業部,跟著江楓(現袋鼠雲COO)一起做 無線資料分析產品,類似現在的友盟, GrowingIO等。我們當時主要負責為阿里集團絕大部分的APP(例如淘寶、天貓、聚划算等)提供行為資料埋點規範和採集SDK,並把APP上使用者的的瀏覽、點選、分享等資料採集過來做處理、分析, 構建集團級無線資料體系,並透過標準化、產品化的方式提供給運營、分析師、PD等使用。

在此期間,我感受比較深的地方是,傳統行業的ERP、CRM、WMS等系統儲存的資料,一般單表記錄數有幾千萬、過億已經算量很大了。但是在阿里,僅僅從移動端採集到的資料, 每天增量就有2-3千億條,如果到雙11、雙12這種電商大促的日子,資料量相比平常還會有幾倍的提升, 達到5-6千億的峰值

同時在資料應用上,以前做大資料的成果以BI分析報表為主,用來輔助決策。而在網際網路企業,資料對業務的價值大大擴充和強化了,能直接和業務結合,甚至產生一個新的資料驅動的業務,例如阿里的搜尋、廣告、千人千面以及螞蟻的芝麻信用分、花唄、借唄等,都是跟資料緊密相關的業務。

所以對於這種體量和規模的資料,我們面臨了各種考驗,每天都在絞盡腦汁地思考怎樣設計出更合理的資料模型,最佳化計算任務,在消耗更少資源的同時保證資料的快速產出和分析,及時正確地生成資料包表和分析結果給業務部門使用。

2014年底,我們團隊組織架構調整到了 阿里雲飛天一部,負責對外輸出移動資料分析產品,由於當時我們給阿里集團內部APP開發的無線資料分析產品已經非常成熟,所以集團決定將這些技術進行產品化封裝, 對外提供統一資料採集、分析和資料服務,幫助外部企業更好地採集、計算、分析、應用自身資料,提高企業的移動端流量運營、業務決策效率。

在阿里三年多的這段時光算是比較難忘的一段經歷,可以說是痛並快樂著吧。移動資料每天增量都有2-3千億條,計算量特別龐大,然後還得保證及時、準確地產出資料,每天都像在打仗一樣,壓力也比較大,死了不少腦細胞。

不過也正是這些經歷歷煉了我們,做出來的平臺不僅能很好服務阿里內部業務部門,也能很好地輸出和賦能更多外部企業。

至尊星耀:艱苦、激情與成就的三重奏

2016年7月份離開了阿里雲,主要原因是:

第一:當時大資料企業級服務還處在起步階段,特別是阿里雲數加平臺的對外發布,我發現大資料企業市場的前景非常廣闊,也想利用自己多年來的大資料經驗,為更多的企業服務,讓企業資料產生業務價值。

第二:當時拖雷、江楓已經出來創立了袋鼠雲,受到了他們創業夢想和大資料夢想的感召,也想做出一番事業,所以就加入了袋鼠雲,從此走上創業的“不歸路”。

數棧君:你以前一直是做技術專家,為什麼來袋鼠雲之後要轉行做產品呢?

申杭:沉浸大資料行業十幾年,親眼見證了大資料行業的各個發展階段,從最早的 關係型資料庫(例如Oracle,SqlServer),再到 MPP資料庫(例如Greenplum,Teradata),再到現在的 分散式資料庫(例如Hadoop,Spark,Flink),對大資料技術瞭解比較深和廣泛。

同時我也有甲方、乙方,傳統企業、網際網路企業的不同工作經驗,對不同型別企業的大資料使用的情況、訴求、痛點也已經有了比較深刻的理解。

所以決定從開發轉型做產品,希望能把自己這些年的經驗沉澱,抽象成產品,讓更多的企業能更便捷地享受大資料帶來的價值。


數棧君:能和我們講講你為什麼要做數棧這個產品呢?

申杭:進入袋鼠雲初期,接手了江西公安、貴州交警等幾個大的資料中臺專案,接觸了不少客戶,在服務客戶的過程中,發現了企業的一些痛點,其中有很多可以最佳化和提升的地方:

第一:以前一直做技術,主要是從技術角度去思考資料的邏輯、設計大資料架構,但是企業做大資料的目的是為了提升業務價值。所以我們需要轉變思維, 多從業務角度思考怎麼透過資料賦能業務,怎麼透過最小化的投入實現最大化的價值。

第二:不同的企業,資料中臺需求多變、複雜,如果給每個客戶都提供個性化,定製化資料服務,則實施週期長、效率低、見效慢、管理難。為了解決這些問題, 需要一個成熟、穩定、高效的平臺來支撐企業資料中臺的快速落地。

第三:經過調查,我們發現,市場上華為、星環、Cloudera等企業的大資料平臺產品雖然有很強的資料處理能力,專注於Hadoop叢集的部署、安裝、運維等工作,但是 基於叢集之上的資料開發、資料管理、資料治理的能力還沒有很好地實現體系化、系統化、產品化。對企業來說,建立資料中臺體系,門檻還是較高。

所以我們決定研發一個能覆蓋資料採集、資料處理、資料探勘、任務排程、任務運維、資料質量、資料地圖、資料模型、資料共享服務等全鏈路場景,充分滿足企業建設資料中臺過程中多樣複雜需求的平臺。

經歷將近大半年的日夜奮戰,袋鼠雲一站式資料開發平臺—— 數棧誕生了。

在接下來的2年半時間裡,我們持續進行產品研發、迭代,目前產品體系已經非常成熟, 在商業化不到一年的時間,數棧已經服務了幾十個客戶,幫助這些企業在很短的時間內完成了資料中臺的搭建、實施落地

申杭代表袋鼠雲發表演講


數棧君:數棧上市後,客戶對數棧有哪些評價呢?

申杭:客戶對我們產品的價值、定位還是很認同的:

第一,產品很 輕量,最小僅需5臺虛擬機器就可以部署,對需要建設資料中臺的中小企業來說是一個福音;

第二相容性很強,可以無縫對接Cloudera CDH、Hortonworks HDP、華為Fusion Insight等主流的商用大資料平臺,能很好的和企業已有的資料平臺做結合,避免重複建設。

第三敏捷靈活,平臺用起來比較便捷、一天就能上手。以前在進行大資料開發時,需要找各種各樣的工具,進行復雜的配置。現在透過數棧,只需要在介面上進行拖拽式、嚮導式的操作,就可以完成資料中臺的建設。 開發門檻大大降低,相比以前,大資料開發、管理、治理效率都至少提升 50%以上。

第四:產品服務好,我們提供基於數棧產品的 定製化服務,能和企業已有的系統,流程進行對接,滿足不同企業的個性化需求。

未來的王者:王者之巔就在不遠處

數棧君:關於數棧的未來,你有什麼想法和方向上的規劃?

申杭:在產品上,後續我們想研發資料資產運營和資料應用等通用型、行業型產品,逐漸 實現從PaaS到SaaS的過渡,從資料平臺到資料應用的縱向延伸。

比如針對新零售行業,我們可以在數棧產品裡面內建零售行業資料模型,透過簡單的修改,就可以適用不同的零售企業。同時也可以提供智慧標籤、使用者畫像、精準營銷等產品,讓資料能直接賦能業務,實現資料的變現,資料價值的最大化。

創業之路任重而道遠,公司目前在大資料領域已經站穩腳跟,我相信屬於數棧的未來前景無限廣闊。

數棧團隊合照

數棧君:現在正值畢業季,你對剛入行的開發同學們有什麼建議嗎?

申杭:一,隨著大資料技術平臺的發展,功能越來越豐富,未來大資料開發的門檻會越來越低,新入行的同學在 打好大資料技術基礎的同時,也要 加強對行業業務和資料的理解,並把這些理解融入到資料中臺模型設計中去,這樣設計出來的模型,才能具備比較強的可迭代性、維護性、健壯性。未來也會有助於個人實現從大資料開發角色到資料模型師,資料架構師的轉變。

二,現在機器學習、深度學習、物聯網、5G等很火,這些也是和大資料緊密相關的領域,新同學們也需要 關注這些最新的行業動態,時刻緊跟大資料行業發展的潮流。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2771248/,如需轉載,請註明出處,否則將追究法律責任。

相關文章