打造“資料金字塔”,小米大資料平臺建設之路

雲端計算頻道發表於2019-01-11

提到小米,我們首先想到的這是一家網際網路企業,主要產品除了手機,還有如空氣清淨機,淨水器,小米手環等智慧化產品。從某種角度來說,小米已被打上了智慧家居和技術創新標籤。其實,小米能有今天的發展,大資料平臺在其中扮演了最重要的角色。

提升效率,小米大資料平臺構建之初

什麼是大資料平臺?對於大資料概念,很多人都能理解,最典型的特徵就是資料量大、資料複雜,需要藉助專業工具才能在合理的時間內幫助企業擷取、管理、處理並整理成為有價值的資訊。而大資料平臺,需要在大資料基礎上,以一個平臺的形式,形成一整套解決方案,比如:資料接入、資料處理、資料儲存、查詢檢索、分析挖掘等、應用介面等,是一個統一體。

當然,不同型別的企業,大資料特色各不相同。小米公司經過8年的發展,積累了海量的日誌和使用者行為資料,已形成全生態,多樣性的資料資產。小米的資料來源於硬體、軟體和大量的網際網路服務,每天有超過萬億級的日誌,資料異構性非常強。如何處理和發揮這些異構資料的價值?是小米大資料團隊最大挑戰!

所以,構建一個全面整合的大資料平臺,成為小米技術變革道路上的新徵程,也是大資料團隊所有人員的最神聖使命。

小米大資料負責人司馬雲瑞

談到大資料平臺建設,小米大資料負責人司馬雲瑞,如數家珍。這可能和他過去的從業經歷,不無關係。2005年畢業後,司馬雲瑞在微軟亞洲工程院、微軟亞太研發集團負責雲服務和大資料相關工作。期間從事過前端、中介軟體、伺服器、雲端計算、資料工程、資料科學、資料產品等不同型別的開發工作。

對司馬雲瑞個人而言,微軟的從業經歷讓他實現了職業生涯中的三個重大跨越。第一,透過對技術深度和廣度的掌握,具備了對技術邊界的判別能力,並能從架構美學角度看待技術問題。第二,是對產品和業務能力的掌握,讓他具備了技術落地能力;第三,重塑技術思維模式,以業務的角度看待問題,更具商業掌握能力。

經過十年的歷練,司馬雲瑞在2014年加入小米,主攻方向是資料平臺、使用者畫像和資料應用。資料平臺的目的是:把資料管理、治理好,並提供工具幫助業務團隊高效地使用起來;使用者畫像的目的是:把公司關鍵的資料做好;資料應用的目的是:把資料用起來,賦能核心業務領域。

擁抱開源,打造“資料金字塔”

小米的大資料平臺構建,始於五年前。在設計之初,小米就大力擁抱開源技術,尤其是Hadoop生態。此外,小米在Hbase,Spark,kudu等關鍵技術領域,也做了大量的投入,並且把自己在開源方面的貢獻反饋給開源社群。

之所以要建大資料平臺,最主要的目的是提升效率,實現資料的一致性,並且要滿足資料質量提高和合規方面的要求。透過構建小米的資料治理體系——“資料金字塔”,打造統一的大資料架構,將資料的採集、處理、應用等各個步驟標準化,全面提升資料質量、一致性和開發查詢等應用的效率。資料平臺不僅提供強大的技術支撐能力,還要為所有業務賦能。

至於,為什麼要選擇開源技術?是因為小米有自己的大資料分層體系和架構。在做技術選型的時候,首先要看新的技術對需求的滿足程度,然後再看和現有體系的契合度,而開源技術和Hadoop體系,能大大降低小米的改造成本和學習成本。

大資料平臺上線後,我們可以看到兩個最重要的價值:一是效率。整體資料治理體系初步成型後,開發效率有大幅地提升,查詢效率有一至兩個數量級的提升,讓公司的業務層更易於使用資料。二是創新。資料平臺解決了以往資料孤島問題,把所有資料都彙總起來,並擁有了一致化體驗。其中產生大量的創新機會,比如:網際網路金融基於異構行為資料進行信用風險的判別,就是一個典型的例子。

萬變不離其宗,大資料平臺要為業務賦能

為了避免企業在大資料平臺構建中“採坑”,司馬雲瑞總結出自己的心得體會。首先,企業內部做資料平臺,要有打破資料孤島的意識;其次,要樂於和善於使用開源技術和既有的優秀方案;第三,要有整體的架構方向感和適用的資料治理體系;最後,也是最重要一點,要有業務思維,要明白平臺要服務於業務,為業務賦能。每一項工作都應該對業務有可衡量、可評估、可持續改進的效用。

小米的大資料平臺在為業務賦能方面,非常具有參考價值。以現在非常火的“小愛”為例,越來越多的互動轉移到使用者自學習、個性化需求實現方面。小米在MIUI上釋出了大量的AI能力,比如:為了提高系統效能而研發的App預測。在C端,大資料和AI正在將個性化推向極致;在B端,大資料和AI正在重構商業流程和模式。

雖然資料應用千差萬別,但其實各家實現的方法大同小異。司馬雲瑞希望透過各種行業活動及交流會的方式,把小米的大資料平臺建設經驗,分享更多企業。每年的DTCC大會,是他比較喜歡的一種交流形式。從旁觀者,到參與者,再到大會顧問。司馬雲瑞和小米,和業界更多成功企業,一路同行,攜手相伴。

想要了解大資料平臺建設的更多資訊,請點選 DTCC2019第十屆中國資料庫技術大會官網:

http://dtcc.it168.com/index.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545808/viewspace-2375519/,如需轉載,請註明出處,否則將追究法律責任。

相關文章