奇點雲資料中臺技術匯(一) | DataSimba——企業級一站式大資料智慧服務平臺

StartDT發表於2019-05-10

在這個“資料即資產”的時代,大資料技術和體量都有了前所未有的進步,若企業能有效使用資料,讓資料賺錢,這必將成為企業數字化轉型升級的有力武器。

奇點雲自研的一站式大資料智慧服務平臺——DataSimba,旨在提供資料採集、資料加工、資料治理、資料規範、資料資產、資料服務等全鏈路的產品+技術+方法論服務,構建面向業務應用的大資料智慧平臺。 其主要核心模組包括了資料開發套件、資料治理套件、資料服務引擎、資料智慧、資料安全。


1、資料採集

資料採集作為資料中臺第一個環節,不僅僅是要“採集”,也要將資料合理的“存”起來。DataSimba資料採集研發了兩套採集工具,一套是批次採集DataX,一套是實時採集DataS。

DataX為批次離線採集工具,支援市面上基本所有的關係型DB、NoSQL等資料庫。

DataS為實時的線上採集工具,支援關係型DB的操作日誌的實時讀取,如MySQL的binlog,也支援網頁埋點的服務日誌的實時讀取。

2、資料開發

資料開發套件作為產品的核心模組,底層是基於hadoop開源生態圈中的Hive、Spark、Flink、Impala為計算引擎,以Hdfs、Hbase、kudu為分散式儲存,為資料開發、資料分析、資料探勘、演算法工程師提供了一套視覺化開發介面。開發人員可在開發套件上做一站式開發,包括視覺化資料同步配置、建立各種開發任務(包括實時任務和離線任務)、資料建模、排程配置、運維監控等,大大地提高了開發人員的開發效率。同時開發套件實時採集了資料表的元資訊、表級、欄位級的血緣關係,為資料地圖提供了豐富的後設資料。

3、資料治理

資料治理套件主要圍繞開發完成的資料進行一系列的資料質量監控、資料規範定義、資料元資訊展示。一方面提供了多種規則模板,監控各個環節任務產出的資料質量,每天定時產出資料質量檢測報告,讓資料開發對資料的質量做到心中有數,可以及時地修正髒資料;其次提供了後設資料管理,形成全域性資料地圖,分析資料血緣,資料影響,為資料開發與維護提供支撐;最後還幫助開發人員制定一系列的資料標準進行名稱、指標、維度的設計規範,統一口徑,消除二義性。然後利用數學統計、機器學習、深度挖掘等大資料技術構建企業的標籤體系,把原始資料加工成企業可閱讀易理解的標籤體系,並且應用在不同的業務場合中,幫助企業解決痛點,提升商業價值。

4、資料服務

資料服務引擎打通了應用方和資料的通道,可以讓資料緊密的跟業務結合在一起,加速資料業務化過程。傳統的資料倉儲,通常在已有N個維度中隨機挑選幾個維度進行大資料量的聚合操作,返回結果集非常緩慢,OLAP引擎可以支援大資料量多維度查詢秒級結果返回,大大地提高了工作效率;另一方面傳統數倉在報表類資料展示上花費了很大的人力和物力,而且非常難維護開發好的介面,資料API透過視覺化模式快速生成介面,並且建立起介面元資訊,方便以後的維護,只需要輕鬆修改下介面元資訊即可滿足前方業務的變動,而且資料API還提供了介面訪問資訊的採集與監控,讓業務方可以及時地感知到介面的使用情況。

5、資料安全

資料安全可以幫助企業建立資料安全體系。 資料安全在資料訪問、資料流動、資料運維等幾個關鍵環節中都加入了身份認證和許可權訪問控制,透過網路傳輸加密、高可靠的資料儲存、敏感資料脫敏、日誌審計、事件溯源、高危操作攔截等功能來保障企業資料的穩定性和安全性。

6、資料模型

好的資料模型,是高內聚低耦合的設計,是可以滿足未來業務發展的擴充套件性。當然也不能過度設計,夠用的同時兼顧擴充套件性。

資料模型設計是一套方法論加上對業務的深刻理解,將業務高度抽象成的多維資料模型結構,模型的數量與複雜度與業務強相關,如大家都比較熟悉的電商業務,按業務過程來切分,可設計為流量資料模型、收藏資料模型、加購資料模型、交易資料模型等。

7、業務模型

前面的業務創新智慧化提到,圍繞節本增效,業務透過融合後的全域資料、演算法技術,將業務經驗與資料智慧相結合,為運營提高決策效率,如智慧選品模型;為業務提升經濟價值,如智慧折扣模型;為後端部門減少成本,如智慧排班模型。

DataSimba作為企業級一站式大資料智慧服務平臺,產品體系和服務能力隨著業務場景不斷升級迭代,現已在商業綜合體、大時尚、醫藥、酒類等領域投入使用,實現資料化企業運營,幫助企業能夠真正盤活資料資產,創造更多的商業價值!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69911376/viewspace-2643956/,如需轉載,請註明出處,否則將追究法律責任。

相關文章