一、什麼是自助分析平臺
自助分析平臺是構建在大資料平臺之上的,依託於大資料平臺的資料研發能力,通過統一的資料服務,實現對資料查詢、分析的統一管理,為企業業務分析提供高效的資料決策支援,同時也避免資料工程師陷入繁雜的提數需求中。自助分析平臺是有計算機基礎的業務人員能夠快速上手的前端產品,既要有大資料的處理效能,有需要有簡單好用的視覺化分析能力,只有讓業務人員能夠快速掌握使用方法,和公司的業務結合起來,自助分析平臺才有價值。其實,一直以來,各大公司的資料分析平臺都只有一個目標—— 幹掉Excel。
二、自助分析平臺該有哪些模組
上面已經介紹了,自助分析平臺是用來查詢資料,探索資料的,需要具備Excel已有的功能,還要比Excel做的更好。
-
支援多資料來源接入
自助分析平臺要能夠支援多種資料來源、不同資料型別檔案的接入,能夠讓資料工程師和業務人員快速的把資料匯入到自助分析平臺中。需要支援傳統的關係型資料庫、Hive、檔案匯入(Excel、CSV、TXT等)。
-
多維度分析
能夠對匯入的資料進行快速查詢、過濾、聚合、排序、關聯等動態操作。比如業務人員已經有一些使用者基本資訊,它能夠通過匯入使用者名稱,通過使用者名稱關聯到對應的使用者分析資料。並能夠對不同型別的使用者進行分組聚合操作。以上所有的操作需要實現拖拽式,不需要讓業務人員寫一行程式碼。
-
豐富的視覺化
需要支援常用的視覺化圖形,如餅狀圖、環圖、同軸曲線圖、柱狀圖、散點圖等,使用者需要繫結自己匯入或者通過平臺清洗好的資料,既可以快速的生產對應的分析圖表,製作視覺化報告。
-
許可權管控
自助分析平臺是對公司所有的業務人員使用的,需要有對應的許可權管控。比如A使用者製作的資料圖表,B使用者是不能夠檢視的,只有A賦權給B後才能檢視。自助分析平臺中的資料也要進行許可權管控,比如敏感資料不能開放所有使用者,下載資料需要有流程審批等等。
-
高效能
資料分析查詢要快、自助分析要快、視覺化要快。很多自助分析平臺最終變成了資料下載平臺,其中很大一部分原因就是不夠快,雖說大資料了比Excel快多了,但是實際業務探索中,很多時候資料量就是百萬以內的,要是還沒有Excel快的話,人家為什麼要用你的平臺呢?所以,不管是資料量大,還是資料量小,都要快!在技術上是否要考慮大資料量和中小資料量使用不能的查詢計算引擎呢?
三、自助分析平臺架構
-
自助分析引擎
對於超大資料量的複雜查詢分析,我們可以使用Spark提交任務的方式來實現自助分析。對於中小資料量的資料我們使用MPP資料庫實現快速查詢。
-
視覺化
我們可以使用echarts支撐多種型別圖表展示,或者使用superset等開源自助分析專案進行展示。
- 許可權
為做到相互隔離和資料安全,後臺管控系統通過條件限制控制資料的授權,對手機號、身份證號、郵箱等敏感資訊管控端採用加密演算法防止資料洩露。
四、總結
實際中業務人員和IT團隊對於自助分析平臺的搭建都有自己的想法,也想通過資料來給公司去做一些事情,所以在建立自助分析平臺時,可以和業務人員不斷的溝通,先定一些主題資料,做成果展示,和業務人員以及領導分享,讓其參與評價和建議,不斷優化和改善,當相關人員都有參與感時,自助分析平臺才會持久發展。
最後,還是要提醒一下,自助分析平臺的目的是“幹掉Excel”,讓所有的分析結果儲存線上上,千萬不要讓其淪為資料下載平臺。
歷史好文推薦