內含福利|阿里雲資料庫再獲學術頂會認可,一文全覽VLDB最新亮點

大濤學長發表於2019-09-09

一年一度的資料庫領域頂級會議 VLDB 2019於當地時間8月26日-8月30日在洛杉磯圓滿落幕。在本屆大會上,阿里雲資料庫產品團隊濃墨登場,不僅有 多篇論文入選Research Track和Industrial Track,為了進一步加深產學研學術交流,阿里雲還在大會期間舉辦了“阿里之夜”交流晚宴。

0001.jpg
0002.jpg

8月29日晚,超200名論文作者、行業專家、來自MIT、CMU等高校的學術界資深教授、學者和產業界人士共赴 “阿里之夜——Alibaba Night Networking Event“,活動空前爆滿。在輕鬆氛圍中,參會者共同探討全球資料庫生態,並就阿里雲目前在資料庫和大資料方面的最新技術進展進行交流與研討,開啟了一場智慧碰撞的盛宴。

99999.JPG

在VLDB大會上, 阿里巴巴集團副總裁、阿里雲資料庫事業部總裁、達摩院資料庫首席科學家李飛飛進行題為《Cloud Native Database System at Alibaba: Opportunities and Challenges》的主題演講。李飛飛分享了雲原生資料庫在阿里發展的心路歷程,並表示:“雲原生資料庫天然擁有云計算的彈效能力,不僅具備開源資料庫的易用、開放特點,而且擁有傳統資料庫的管理和處理效能等優勢“。

他還詳細介紹了阿里雲自研資料庫的兩款明星產品: OLTP資料庫——POLARDB基於共享儲存的Scale-up 架構和基於分片的scale-out分散式架構,以及 OLAP資料庫——AnalyticDB的MPP架構、極具特色的全索引和行列混存結構,以及在海量資料場景下極致效能。

領跑資料時代 技術實力再獲權威認可

VLDB大會全稱International Conference on Very Large Data Bases,是資料庫及相關領域研究者、供應商、參與者、應用開發者所廣泛關注的主要國際學術會議,也是公認的 資料庫領域三大頂級會議 (SIGMOD、VLDB、ICDE)  之一,反映了當前資料庫研究的前沿方向、工業界的最新技術以及各國的研發水平。在發表論文難度和受關注程度上,與SIGMOD可謂並駕齊驅。

根據大會官方公佈,今年VLDB共接收了128篇Research Paper、22篇Industrial Paper和48個Demo。從投稿數量與錄用率來看,Research Paper投稿677篇,錄用率18.9%,Industry Paper為72/30.6%,**只有具有極高創新性的論文才有機會被VLDB錄用。
**
作為阿里巴巴IT基礎設施的重要組成部分,阿里雲資料庫在工程實踐和技術創新上一直走在領域前列,相關研究成果已多次入選國際資料庫頂級會議(SIGMOD、VLDB、ICDE等)。本次VLDB大會, 阿里雲資料庫共有3篇論文被收錄,下面小編將對入選的論文佳作進行彙總賞析,萃取精華之精華,以饗讀者。

No.1

論文題目:《S3: A Scalable In-memory Skip-List Index for Key-Value Store》

亮點:阿里雲攜手浙江大學的最新聯合研究成果入選Industrial Track

作者:浙江大學Jingtian Zhang、Sai Wu、Zeyuan Tan、Gang Chen,阿里雲資料庫產品事業部成柱石、曹偉、高玉嵩、酆曉傑

附送論文下載連結:

或關注  “阿里巴巴資料庫技術”公眾號,回覆 “VLDB”,即可獲取論文PDF

本文貢獻

  1. 針對 Skip List 這種被廣泛使用的索引結構,對其在高併發場景下的效能表現進行了詳實的測試驗證,建立資料模型分析在垂直下降和水平移動兩個不同方向上的 cost-model,確立 Skip List 在當前實現下的效能上限。
  2. 基於上述模型分析,設計實現了 S3:A Scalable In-memory Skip-List Index,透過分層的方法把整個結構分為兩部分:Top layer 利用 cache-sensitive 的資料結構來索引 bottom layer 的部分節點(guard entries),以大幅降低現有 Skip-List 在垂直下降過程中的效能損耗;Bottom layer 維護一個低層高的 Semi-ordered Skip-List,由多個 guard entries 分隔開,各 entries 之間有序、內部無序,以進一步提升其在插入方面的優勢。
  3. 考慮到 guard entryies 選擇的非確定性,結合實際場景中業務 workload 變化比較平滑,引入 Neural Model 來指導其selection,以達到更優的最佳化效果。

VLDB評委點評

“Many previous in-memory indexes, although showing significantly better performance than skip-list, have not been integrated with the real systems and thus, there is no clue about how they will work with other system modules. S3, on the other hand, can be easily integrated with the disk part of RocksDB and LevelDB, because it maintains the same interface.

The top layer is cache-oblivious, while the bottom layer can speed up the lookup operations of skip-list.

It’s an interesting idea to use a neural model, LSTM, to tune the index, i.e., optimizing guard entry selection and using some rules to optimize multi-thread access.

Extensive experiments for comparison of the proposed method with different in-memory indexes have been conducted and the result shows benefit, not to mention that it is implemented in a real system RocksDB.”

No.2

論文題目:《iBTune: Individualized Buffer Tuning for Large-scale Cloud Databases》

亮點:阿里巴巴在資料庫智慧化方向的重要里程碑,入選Research Track

作者:阿里雲譚劍、鐵贏、飛刀、艾奧、祺星、池院、洪林、石悅、鳴嵩、張瑞

附送論文下載連結:
或關注  “阿里巴巴資料庫技術”公眾號,回覆 “VLDB”,即可獲取論文PDF

本文貢獻

基於資料驅動和機器學習演算法的資料庫引數最佳化是近年來資料庫智慧最佳化的一個熱點方向,但也面臨著很大的技術挑戰。要解決的問題是在大規模資料庫場景下,如何對百萬級別執行不同業務的資料庫例項完成自動配置,同時權衡效能和成本,在滿足SLA的前提下資源成本最低,該技術對於CSP(Cloud Service Provider)有重要價值。

學術界近一兩年在該方向有一些研究(比如CMU的OtterTune),但該演算法依賴於一些人工先驗經驗且在大規模場景下不具備可擴充套件性。據瞭解, 其他雲廠商Azure SQL Database以及AWS該方向都有投入,目前尚未看到相關論文或產品釋出。

從18年初開始,阿里雲開始資料庫智慧引數最佳化的探索,從問題定義,關鍵演算法設計,演算法評估及改進,到最終端到端自動化流程落地,多個團隊通力合作完成了技術突破且實現了大規模落地。

這項工作不僅在資料庫智慧引數最佳化理論方面提出了創新想法,而且目前已經在阿里集團~10000例項上實現了規模化落地,累計節省~12%記憶體資源,是目前業界唯一一家真正實現資料庫智慧引數最佳化大規模落地的公司。

經過演算法探索和端到端自動Buffer Pool最佳化流程建設,FY2019集團內全網最終最佳化 ~10000 個例項,將整體記憶體使用量從 217T記憶體縮減到 190T記憶體,節省 12.44%記憶體資源(27TB)。

論文深度解讀請戳⬇️:

[前沿 | VLDB 2019論文解讀:阿里巴巴大規模資料庫智慧引數最佳化的創新與實踐
]( https://mp.weixin.qq.com/s/KHHvr39lt2KL8FVFp9y25w)

VLDB評委點評

Lessons learned from tuning many database instances in a production system offer interesting insights to the data management community.

It is encouraging to see how deep neural networks can help with tuning a parameter of the database system and how its results are used by the control plane of a large scale deployment to tune many database instances in a rolling fashion.

No.3

論文題目:《AnalyticDB: Realtime OLAP Database System at Alibaba Cloud》

亮點:阿里雲大規模、海量資料實時分析型資料庫系統——AnalyticDB最新研究成果入選Industrial Track

作者:阿里雲資料庫產品事業部佔超群、蘇茂萌、魏闖先、彭曉強、林亮、汪晟、陳哲、李飛飛、潘岳、鄭方、柴成亮

附送論文下載連結:
或關注  “阿里巴巴資料庫技術”公眾號,回覆 “VLDB”,即可獲取論文PDF

本文貢獻

已有的分析型資料庫(以下簡稱OLAP)諸如Impala、Pinot、Druid等,總結了OLAP系統在設計的過程中應該解決的問題:低延遲、資料新鮮度、多樣性、低成本、高擴充套件性、高可靠性。和這些已有的OLAP系統相比,AnalyticDB承載著更大的規模:2000+臺物理機器、10PB+規模資料、百萬張資料表以及萬億條資料行。

論文講述了AnalyticDB如何在設計與實現上,不僅解決了已有OLAP系統的問題,還攻克了以下三大業界難題:

  • 1) 隨著使用者分析需求的急劇增加,使用者的查詢變得複雜且多樣化:這些查詢涵蓋點查詢、全表掃描、多表關聯等,還會包含對任意列組合的篩選條件。如何在這種複雜分析場景下依然保證大部分甚至所有查詢的低延遲,是一個非常大的挑戰;
  • 2) 如何在保證低延遲查詢的情況下,仍然能處理每秒千萬級別的寫吞吐。傳統的設計理念在同一條鏈路上同時處理讀寫請求,這會造成讀寫效能的互相嚴重影響。
  • 3) 複雜分析場景下,會對行存、列存、關係型儲存、複雜資料型別(JSON、vector、text)都有著強烈需求。如何設計一個對這些儲存格式都很友好的儲存層,也是一個業界難題。

深度解讀請戳⬇️:

前沿 | VLDB論文解讀:阿里雲超大規模實時分析型資料庫AnalyticDB

VLDB評委點評

This paper presents a solid OLAP database integrating a few interesting and well-designed ideas including an asynchronous all-column index, an extended hybrid row-column layout and a read/write decoupling architecture. The presentation is clear and the solution has been shown to be effective empirically.

The combination of different design choices indicate that the system achieves significant performance improvements over other similar systems.


本文作者:Roin

原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69947441/viewspace-2656452/,如需轉載,請註明出處,否則將追究法律責任。

相關文章