Apache Doris 在同程數科數倉建設中的實踐
導讀:隨著大資料的進一步發展,實時分析資料庫的發展也越來越繁榮。Apache Doris 作為一個高效能、簡單易用、支援實時的 MPP 架構分析資料庫也被越來越多的公司使用。今天會和大家分享一下 Apache Doris 在同程數科數倉建設中的實踐。
今天的介紹會圍繞下面四點展開:
業務場景
架構演變
收益現狀
未來展望
分享嘉賓|王星 同程數科 大資料高階工程師
編輯整理|劉步龍
出品社群|DataFun
01
1. 企業介紹
看板類:業務實時駕駛艙;T+1 業務看板 預警類:實時業務流程預警(比如:風控熔斷、資金異常、流量監控) 分析類:資料查詢分析;臨時取數;實時使用者標籤查詢 財務類:財務清算對賬;支付對賬
架構演變
使用 CDH 構建,在現有 CDH 叢集下,能夠快速相互整合並投入使用 實時採集能夠視覺化配置式開發
引入元件過多,(元件、作業)維護複雜,問題排查困難,資料修復困難 資料開發鏈路過長,對數倉人員技術要求高,開發效率低 聚合查詢能力不足,大表 join 效率不高 離線與實時叢集未做分離,導致資源相互競爭 有預警能力,但是作業自動恢復能力不足
豐富的資料接入能力(支援眾多資料來源) 採用 MySQL 協議通訊 Doris SQL 基本覆蓋 MySQL 語法 支援MPP平行計算能力 官方文件健全,上手較快
Doris 的部署不依賴於現有大資料的元件,可獨立部署。 整體分兩層:FE(前端節點)、BE(後端節點)。FE主要負責接收請求和返回請求,對後設資料和叢集的管理,以及查詢計劃的生成;BE 主要負責資料節點的管理,和對執行計劃的執行。 Doris 整體運維簡便,高可用,可擴充套件性強。
routine load:業務資料(寫入kafka)實時接入 Doris broker load:離線資料定時或手工匯入 Doris(包含:基礎維度表、歷史資料等) insert into:定時作業,從 DWD 層處理出 DWS 層,之後處理出 ADS 層 良好的資料模型,使開發效率更高 unique 模型:業務資料接入 Doris 時使用,防止重複採集 aggregate 模型:從 DWD 層到 DWS 或 ADS 層使用,幫我們減少了很大一部分 SQL 程式碼量 使用門檻低,查詢效率高 基於 MySQL 協議,標準的 SQL 查詢語法,查詢分析無壓力 使用物化檢視達到預計算效果,如果查詢命中,將快速響應 部署架構簡便,運維維護成本低 針對 FE、BE、BROKER 角色,配置監控,異常重啟
快速開發:如何能夠簡單快速的將資料匯入 Doris,並快速實現 ETL 開發 排程管理:如何管理上線的任務,保證任務排程的穩定,以及排程恢復能力 資料查詢:生產與辦公網路隔離,如何讓大家安全便捷的查詢分析 叢集管理:如何感知節點異常,並且能夠重試自動恢復 整體宗旨:高效率、高質量、高穩定。
收益現狀
資料接入:新架構資料接入程式碼可快速構建,3-5 分鐘完成一個接入。老架構手工部分比較多。接入一張表需要 20-30 分鐘。 資料開發:Doris 自帶 unique、aggregate 模型,能夠加速 ETL 開發過程。老架構資料 ETL 過程沒有底層資料模型支撐,很多處理邏輯需要自行開發。 資料查詢:基於 Doris 新架構帶有物化檢視或 Rollup 物化索引提升查詢效率。同時大表 join 時 Doris 內部提供很多最佳化機制。 資料包表:基於 Doris 的查詢展示,報表相應速度基本在秒級或毫秒級響應。 環境維護:沒有 Hadoop 數倉環境複雜,整個平臺鏈路方案清晰。同時 Doris 叢集的運維成本遠低於 Hadoop 叢集運維(遷移一次就懂了)。
嘗試引入 Doris Manager 對叢集進行維護和管理 實現基於 Flink CDC 方式的資料接入。這是我們 3.0 架構規劃(進行中) 對現有 Doris 叢集進行升級,使用新特性,更快速響應需求 針對“指標管理體系”、“資料質量監控體系”進行強化建設
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2933266/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 萬億資料秒級響應,Apache Doris 在360 數科實時數倉中的應用Apache
- Doris和Flink在實時數倉實踐
- 萬億資料秒級響應,Doris在360數科實時數倉中的優秀實踐
- 快手基於 Apache Flink 的實時數倉建設實踐Apache
- Apache Flink X Apache Doris 構建極速易用的實時數倉架構Apache架構
- Apache Paimon 在同程旅行的探索實踐ApacheAI
- 實時分析全面賦能金融業務,馬上消費基於 Apache Doris 構建實時數倉的實踐Apache
- 複雜查詢響應速度提升10+倍,度言軟體基於 Apache Doris 實時數倉建設實踐Apache
- 數倉服務平臺在唯品會的建設實踐
- Apache Doris 在美聯物業的資料倉儲應用實踐,助力傳統行業數字化革新!Apache行業
- 網易有道成人教育數倉建設實踐
- Clickhouse實時數倉建設
- 農業銀行湖倉一體實時數倉建設探索實踐
- 實時數倉在滴滴的實踐和落地
- 美團點評基於 Flink 的實時數倉建設實踐
- 雲音樂實時數倉建設以及任務治理實踐
- 美團實時數倉架構演進與建設實踐架構
- B站運維數倉建設和資料治理實踐運維
- 58同城使用者行為數倉建設及實踐
- 低程式碼實時數倉構建系統的設計與實踐
- 位元組跳動資料湖在實時數倉中的實踐
- 基於Apache Doris的湖倉分析Apache
- 應用實踐 | 蜀海供應鏈基於 Apache Doris 的資料中臺建設Apache
- 併發提升 10 倍,運算延時降低 70%,領健從Kudu 到 Apache Doris 數倉升級實踐Apache
- Apache Doris在京東搜尋實時OLAP中的應用實踐Apache
- Flink Table Store 0.3 構建流式數倉最佳實踐
- 同程旅行吳祥平:同程湖倉一體應用與實踐
- 長安汽車基於 Apache Doris 的車聯網資料分析平臺建設實踐Apache
- 打破資料孤島,Apache Doris 助力縱騰集團快速構建流批一體數倉架構Apache架構
- Apache Doris 輕鬆入門和快速實踐Apache
- 基於 Kafka 的實時數倉在搜尋的實踐應用Kafka
- SelectDB肖康:Apache Doris在日誌儲存與分析場景的實踐Apache
- 快手基於 Flink 構建實時數倉場景化實踐
- 實時數倉混沌演練實踐
- 微信ClickHouse實時數倉的最佳實踐
- 基於 Hologres+Flink 的曹操出行實時數倉建設
- 基於Hologres+Flink的曹操出行實時數倉建設
- 如何構建準實時數倉?