與創新者同行,Apache Doris in 2023
在剛剛過去的 Doris Summit Asia 2023 峰會上,Apache Doris PMC 成員、飛輪科技技術副總裁衣國壘帶來了“與創新者同行”的主題演講,回顧了 Apache Doris 在過去一年所取得的技術突破與社群發展,重新思考了在面對海量資料實時分析上的挑戰與機遇,全面介紹了 Apache Doris 在未來的迭代計劃與演進方向。 以下為衣國壘在峰會上的演講節選,以衣國壘第一人稱敘述,經編輯。
非常高興可以看到這麼多朋友共聚一堂,現場幾乎座無虛席。我也相信,同樣有很多朋友線上上觀看峰會直播,跨越空間的距離,與我們共享此刻。
Apache Doris in 2023
01 從“全面進化”到“里程碑式的跨越”
-
引入自適應的並行執行模型和全新查詢最佳化器,盲測效能提升 10 倍,多表關聯提升 13 倍,單表場景提升 10 倍、高併發點查詢提升 20 倍; -
從報表和 Ad-hoc 等典型 OLAP 場景擴充到湖倉一體、高併發資料服務以及日誌檢索與分析,支撐更統一多樣的分析場景; -
支援實時資料高吞吐寫入、秒級時延,對各類資料更新都有完備的支援,構建更高效易用且穩定的實時資料處理和分析鏈路;
02 全球最活躍的開源大資料專案之一!
-
在 GitHub 上 Apache Doris 已經收穫了超過 9800 個 Star,與去年同期相比增長近 70%,且保持持續增長的態勢; -
總的貢獻者規模已經增長至近 590 位,每週都會有許多新面孔開始參與社群貢獻; -
平均每月的活躍貢獻者已穩定在 120 人左右,已大幅超過全球知名的開源大資料專案,包括 Spark、Elasticsearch、Trino、Druid 等; -
這些貢獻者們每週都會為 Apache Doris 貢獻超過 160 個 PR,同時社群也建立了更加成熟穩定的 CL 流水線,每個合入的程式碼都會經過數千測試用例,這也使得社群以極快速度迭代的同時,穩定性也得以保證;
03 開源實時資料倉儲領域的事實標準!
我們如何應對實時分析的挑戰
-
實時分析:在大規模實時資料上實現查詢效能,既包含了資料的高吞吐實時寫入和實時更新、也包含了更低的查詢分析時延; -
融合統一:在一套系統中提供對多種分析負載的支援、簡化複雜架構帶來的運維使用成本,除了持續加強過去 Apache Doris 一直比較擅長的報表分析和即席查詢外,湖倉聯邦分析、日誌檢索分析、ETL/ELT 的查詢加速以及高併發 Data Serving 等分析場景也是重要的突破方向; -
雲原生化:面向雲端計算基礎設施進行革新,利用雲的彈性降低儲存和計算成本,支援遷移到 K8s 容器等更多環境中進行部署及執行。 -
與此同時,在 Apache Doris 2.0.0 版本我們引入了全新的行列混合儲存以及行級 Cache,使得單次讀取整行資料時效率更高、大大減少磁碟訪問次數,同時引入了點查詢短路徑最佳化、跳過執行引擎並直接使用快速高效的讀路徑來檢索所需的資料,並引入了預處理語句複用執行 SQL 解析來減少 FE 開銷,在併發能力上實現了數量級的提升。
在多維度檢索場景中 ,我們同樣引入了倒排索引來提升效能,在關鍵字模糊查詢、等值查詢和範圍查詢等場景中均取得了顯著的查詢效能和併發能力提升。
02 實時寫入與更新
Merge-on-Write: Unique Key 主鍵模型的 Merge-on-Write 資料更新模式最初是在 Apache Doris 1.2 版本中引入,而在 Apache Doris 2.0 版本中這一能力得到進一步最佳化,功能穩定性得到大幅提升,並透過寫入效能的最佳化在典型使用者場景中,實現了近百萬行每秒 Upsert 操作的峰值寫入吞吐,同時引入了資料的關聯更新以及部分列更新,實現了對各類更新操作的完整支援。
03 更多分析場景
瞭解更多: 查詢效能較 Trino/Presto 3-10 倍提升!Apache Doris 極速資料湖分析深度解讀
04 低成本與高可用
走向實時分析的下一步
01 更快的分析效能與更實時的資料寫入及更新
查詢引擎方面 ,在即將釋出的 2.1 版本中,CBO 查詢最佳化器將實現全自動的統計資訊收集,並提供豐富的 Hint 語法,在最佳化器規則失效的時候可以支援手動調整規則,我們也將會發布 TPC-DS 的效能測試報告。多表物化檢視是社群使用者呼聲已久的功能,也將於 2.1 版本加入進來,同時我們還將引入 Union All 運算元並行執行來進一步加速 ETL 操作的執行效能,後續使用者在 Apache Doris 進行大批次資料處理將會執行得更快更穩定更簡易。我們還會引入新的 Join 演算法,將多表 Join 效能進一步至之前的兩倍。
實時資料寫入方面 ,我們將對所有資料寫入的語義進行統一,無論是關係型資料庫、資料流、本地檔案或者資料湖的資料檔案,對於 Apache Doris 而言都將統一具象為關係表、可以透過 insert into 的統一語義來實現資料寫入。同時我們還將簡化資料寫入的鏈路,透過內建的 Job 排程來執行資料寫入,避免引入第三方的資料同步元件。我們將引入服務端攢批機制,在上游資料高頻寫入時透過服務端攢批來避免小檔案合併問題、降低資料庫的寫入壓力。
在可觀測性方面 ,我們將為使用者提供全新的 Profile 便於使用者定位運算元執行情況,同時支援查詢任務的進度動態展示,並可以整合至 Doris Manager 中以視覺化的方式展現,這部分功能已經開發就緒、在 2.1 版本中即將上線。
02 更多查詢分析場景的統一
在湖倉一體場景上 ,我們會充分結合多表物化檢視與內建 Job 排程的能力,將物化檢視擴充到資料湖的多種資料來源上,無需任何其他元件、依靠自身排程能力即可實現從資料湖到資料倉儲的 ETL 作業以及數倉分層建模。在 2.0 版本中我們已經實現了對 JDBC 資料來源的寫回操作,後續對資料的寫入將會擴充到 Iceberg、Hudi、Paimon 等,實現資料查詢分析的更完整閉環。
除了讀取更多資料來源的資料之外,Apache Doris 也在打通被外部訪問的資料通道。目前 Doris 對外輸出資料的介面採取了 MySQL 連線協議,在應對大規模資料讀取或者資料科學場景時(例如 Pandas 之類的資料科學引擎),MySQL 協議的吞吐成為了系統瓶頸,因此在後續版本中 我們引入了基於 Arrow Flight 的高速資料讀取介面,直接透過 BE 將資料進行傳輸,在實際測試過程中資料吞吐效能較過去提升了超過 100 倍。
03 雲原生和存算分離
在之前的文章中我們曾介紹到 SelectDB Cloud 存算分離版本將會合入社群,但程式碼結構整理、相容性改造以及合入的工作量超過我們預期,好在這一工作已經進入尾聲。在 Apache Doris 2.1 版本中所有程式碼結構的調整將會完成,預計在 2.2 版本中將會面向社群全面可用,屆時大家都可以感受全新雲原生架構帶來的彈性,敬請期待。
與創新者同行
-
我們希望與熱愛開源技術的開源貢獻者們一起,以技術創新為資料世界帶來些改變; -
我們希望把認可並信賴 Apache Doris 的使用者代表聚集起來,以真實場景中的應用創新為更多人帶來啟發; -
我們也希望與上下游合作伙伴、雲服務廠商一起,以產品創新為行業注入新的活力,為所有使用者帶來新的選擇。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017904/viewspace-2993655/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 與創新者同行!Apache Doris 首屆線下峰會即將開啟,最新議程公開!|即刻預約Apache
- 恭喜! SelectDB 五位開發者成為 Apache Doris 新晉 PMC 成員和 Committer!ApacheMIT
- Apache Doris 入門 10 問Apache
- PhpStorm 2023: 與最智慧的PHP IDE同行PHPORMIDE
- [Apache Doris] Apache Doris 後設資料設計及DDL操作原始碼閱讀Apache原始碼
- Apache Doris設計思想介紹與應用場景Apache
- Apache Doris 2.0.4 版本正式釋出Apache
- Apache Doris 2.0.5 版本正式釋出Apache
- Apache Doris 2.0.5 版本正式釋出!Apache
- Apache Doris 2.0.3 版本正式釋出Apache
- 大資料技術 - Apache Doris大資料Apache
- Greenbook:2023年商業與創新報告
- 與開發者同行,共築生態
- Apache Doris 1.2.2 Release 版本正式釋出Apache
- 基於Apache Doris的湖倉分析Apache
- 《財富》:2023年全球人工智慧創新者50強人工智慧
- Apache Doris 1.2.4 Release 版本正式釋出|版本通告Apache
- Apache Doris 輕鬆入門和快速實踐Apache
- “王者榮耀2023共創之夜”:八年比肩同行 共赴精彩未來
- SelectDB肖康:Apache Doris在日誌儲存與分析場景的實踐Apache
- 更穩定!Apache Doris 1.2.1 Release 版本正式釋出Apache
- Apache Doris(incubating) 成功釋出第一個版本0.9.0ApacheBAT
- 如何基於 Apache Doris 構建簡易高效的使用者行為分析平臺?Apache
- GAIS大會2023:AIGC創新應用與投資峰會AIGC
- 耐世特與Tactile Mobility榮膺2023年CES創新獎
- 一路同行:開發者與華為雲的2022
- 以創新續動能|洞見RSA 綠盟科技十五載同行之路
- Apache Flink X Apache Doris 構建極速易用的實時數倉架構Apache架構
- Dealroom:2023年英國創新展望OOM
- Apache Flink 入選 2022 年“科創中國”開源創新榜Apache
- 基於Ansible實現Apache Doris快速部署運維指南Apache運維
- SegmentFault 思否 8 週年丨∞ 熱愛,與開發者同行
- 2023年創新動能:全球百強
- 全面進化!Apache Doris 1.2.0 Release 版本正式釋出|版本通告Apache
- 資源消耗降低 90%,速度提升 50%,解讀 Apache Doris Compaction 最新最佳化與實現Apache
- 攻擊者試圖利用Apache Struts漏洞CVE-2023-50164Apache
- 資料庫圈周盤點:Doris畢業成為Apache頂級專案;DataStax獲新投資資料庫ApacheAST
- AppCode 2023: 專為iOS/macOS開發者打造,智慧IDE引領創新風潮APPiOSMacIDE