貨拉拉自助資料分析平臺實踐

陶然陶然發表於2022-11-28

   專案背景

  BI產品對於絕大部分公司來說是不可或缺的資料分析和商業決策產品之一,因為在企業發展的過程中會涉及到大量的資料分析和商業決策等工作,如何快速完成資訊流轉消除資訊不對稱,對於企業管理層進行市場研判起到了決定性的作用。而從技術角度來看,如何及時滿足業務資料分析需求,將大量資料得到有效轉化則顯得格外緊迫,對於技術部門和業務部門的合力協作,BI產品起到了至關重要的承上啟下作用。

  截至2022年8月,貨拉拉業務範圍已覆蓋352座中國內地城市,月活司機達66萬,月活使用者達950萬。隨著貨拉拉業務覆蓋範圍和場景的不斷增加,企業對於資料的應用也愈加強烈,如何快速完成資料流轉和高效的資料分析對於業務和大資料都是一項艱鉅的考驗。

   專案目標

  自助資料分析平臺作為大資料中臺與各業務部門聯絡最緊密的工具之一必須要做到如下幾點:

  • 易用性:產品覆蓋的使用者群體是企業內部所有員工,使用者對資料分析產品使用能力參差不齊資料分析平臺應該儘可能降低使用成本。

  • 穩定性:隨著資料處理量級和高併發場景需求的不斷增加,需要保障平臺算力充足以及操作流程的順暢和穩定。

  • 可擴充套件性:資料包表場景涉及廣泛,除了自助資料分析平臺內部需要報表場景外,其他平臺同樣有資料包表訴求,如何能夠快速完成資料包表功能複用是產品能力的關鍵指標之一。

  • 安全性:資料安全是企業穩定發展的重要前提,健全的資料許可權管理機制可以有效降低企業核心資料資產的洩漏風險,形成一定的資訊壁壘。

   方案選型

  商業化BI產品那麼多,自研是重複造輪子嗎?

  目前國內外BI產品種類繁多,從業務應用場景和主要功能點來看,可以劃分為傳統型(如SAP、IBM_TM1等)、敏捷型(Tableau、PowerBI、帆軟BI等)、垂直型(神策資料、GrowingIO等)和基於雲服務之上的BI分析工具(QuickBI、SugarBI等)。從Gartner2022年3月釋出的Magic Quadrant for Analytics and Business Intelligence Platforms中我們可以看出,處於行業領先位置的產品依舊是Microsoft、Salesforce(Tableau)和Qlik等主流產品,而國內BI產品目前仍處於追趕階段。

  雖然品類繁多的BI產品“五花八門”,但是這個產品的功能是否能真的滿足業務的資料應用訴求呢?以下是我們整理的有關採購和自研BI產品的一些差異點,以便於分析其中利弊更好地做出決策。

  從對比中可以看出,外部採購的BI產品雖然功能強大,覆蓋的應用場景多,但是在靈活度和資料安全等方面確實存在一定的欠缺和需求差距,所以無論是行業領導者還是特定領域者都無法滿足企業內部個性化的資料分析需求,為此結合業務自身痛點、資料安全和成本投入等方面考慮,最終我們選擇採用自研的方式進行產品開發,在產品功能上主要結合內部系統特點提供了個性化解決方案。那麼從0到1搭建資料分析平臺我們要怎麼做呢?本文我們將介紹貨拉拉自助資料分析平臺——資料雲臺,都具備哪些能力以及是如何解決這些問題。

   實踐和探索

  從0到1打造資料分析平臺需要如何規劃?

  資料雲臺產品定位與商業化BI一致,是基於大資料離線/實時計算能力,結合指標庫和OLAP引擎實現資料視覺化分析,透過簡單方便的拖拉拽操作降低資料分析門檻,提供多場景化的資料分析場景,為業務決策提供快捷方便的分析工具,將最後的分析結果呈現給管理者,為管理者的決策過程提供支援。所以我們結合成熟商業化BI產品(如Tableau、QuickBI、帆軟BI等)和內部業務需求,最終將資料雲臺功能歸納為五大模組。  

  • 資料來源接入:資料來源是BI系統的全部資料來源,是進行資料分析和報表製作的基礎,系統支援的資料來源型別涵蓋Excel、MySql、Hive、Doris以及內部資料來源系統。針對內部資料來源系統還提供了一鍵連線功能,方便使用者快速完成資料來源接入。

  • 資料預處理:資料連線完成後需要進行資料處理,在資料處理模組中提供了資料建模和自定義SQL兩種資料集建立方式。對於建立完成的資料集還提供了資料型別設定、資料表示式和欄位許可權設定等功能。在資料預處理階段,技術層面引入了多種OLAP查詢引擎以提升即席查詢效率。

  • 資料視覺化:資料視覺化模組主要提供各類資料圖表等展示與配置,其中包括工作臺、資料圖表元件、儀表盤等。使用者可以根據業務需求自行拖拽維度/指標快速完成資料圖表製作,針對不同場景還能進行圖表型別的快速變換,以滿足多樣化的資料呈現需求,最終以Dashboard形式進行呈現。

  • 資料分析:分析功能是平臺的核心能力,快速實現指標計算、多維分析和數理統計等有助於幫助業務快速完成關鍵資訊整理與輸出實現平臺價值。

  • 應用場景:主要包括資料指標探查、資料包表、資料大屏和API等,真正為各大資料系統提供資料視覺化解決方案,服務於業務資料分析場景。

  各個模組之間緊密聯絡,結合大資料中臺產品能力和資源優勢實現了既定的平臺目標,最終為業務資料應用需求提供了個性化的解決方案。

   問題和挑戰

  面對風險和挑戰我們是如何解決的?

  透過自研方式構建資料分析平臺本身就是一件極富挑戰的事,對於BI產品來說其功能點之多、計算需求之高、覆蓋使用者群體之廣都是需要專案設計之初就要優先考慮的問題。除此之外,平臺上線後的功能需要差異、功能bug等問題也會頻繁出現,如何有效保持需要與資源之間的動態平衡則顯得格外重要。

  • 充分的前期規劃。結合業務需要開展功能調研,儘可能多地從優秀BI產品中借鑑成熟經驗以滿足既定需求。在產品設計方案時需要特別注意企業內部需要與調研產品功能之間的差異,針對差異可以進行合理最佳化,以便於更好地讓產品功能服務於企業內部使用者。

  針對內部資料來源進行功能最佳化,系統內嵌賬號資訊減少頻繁操作降低資料洩露風險

  • 靈活的解決方案。對於業務的特殊需求往往需要提供多種解決方案,既要保障系統功能的通用性又要保障個性化訴求。在資料雲臺進行計算引擎選型時我們便遇到了這問題,針對多種資料來源如MySQL、Hive等進行資料查詢時如何保障資料查詢效率?最終選擇了整合多種計算引擎的靈活方案,透過系統研判科學地分配最適合的引擎進行資料查詢,不僅能夠快速完成使用者資料查詢需求,同時還大大降低了因計算資源侷限導致系統故障風險。  

  系統根據資料查詢需求科學選擇計算引擎策略,在提升計算效率的同時兼顧了系統穩定

  • 標準的SOP流程。使用者對於資料分析產品的熟悉程度參差不齊,一套系統如何滿足不同的資料分析需求同樣是一件非常棘手的事。除了在產品功能上提供更方便的使用者體驗外,對使用者進行群體型別劃分是一個行之有效的方法,不同的使用者群體給予不同的許可權,讓那些資料處理能力欠佳的使用者直接使用已加工的資料集進行分析就好,而資料能力較好的開發人員則為他們提供了更豐富的資料處理功能。

  層級的劃分有助於更好地提升使用者體驗,結合許可權體系可以更好地實現產品“千人千面”

   總結和展望

  本文主要從產品設計思路、技術選型等角度出發進行了闡述,旨在為讀者提供從0到1建設資料分析平臺的基本思路,對於平臺建設過程中的具體細節因篇幅原因並未做深入探討。目前貨拉拉資料雲臺產品仍處於內部孵化階段,產品正逐漸被技術研發、產品運營、業務管理等部門熟悉與使用,可預見的功能將覆蓋業務80%的資料應用場景,在企業提效增速的大背景下這星星之火將會發揮更大的作用和價值。

  當然作為一個承載大資料中臺資料應用領域的綜合型產品我們還有很多不足之處,對標行業優秀產品資料雲臺在功能豐富度、互動流暢性等方面仍然有著很大差距,但是對於平臺來說目前的首要任務是最大程度滿足自身業務需求,當業務需求被滿足的基礎上,我們將不斷追隨行業領導者的腳步逐漸擴充套件平臺邊界,為企業打造更加多元化的資料分析平臺而不斷探索。

來自 “ 貨拉拉技術 ”, 原文作者:大資料技術團隊;原文連結:http://server.it168.com/a2022/1128/6777/000006777467.shtml,如有侵權,請聯絡管理員刪除。

相關文章