一年一度的資料庫領域頂級會議 VLDB 2019 於當地時間8月26日-8月30日在美國加利福尼亞州洛杉磯召開。來自學術界和工業界的參會者們匯聚一堂,共襄盛會,探討交流資料庫領域最前沿的技術和發展方向。
在本屆大會上,騰訊公司與中國人民大學、新加坡國立大學合作,投中 Industry Paper 兩篇。其中 TDSQL 團隊的論文工作“A Lightweight and Efficient Temporal Database Management System in TDSQL”,介紹了基於分散式事務資料庫 TDSQL擴充套件而來的全時態資料庫系統T-TDSQL。該系統在保證OLTP效能的前提下,提供了輕量級的全時態資料管理功能和全時態資料的事務處理能力、以及集當前態資料於生產系統集歷史態資料於分析型系統的叢集架構,構成了全時態資料的完備解決方案。(論文原文)騰訊 TDSQL 團隊對本屆大會的論文進行了彙總歸納,萃取精華與讀者一同分享。VLDB會議的全稱是Very Large Data Bases Conferences,由 VLDB Endowment 主辦,來自全球各地的資料庫相關領域研究人員、供應商、參與者、應用開發者等共同參與和關注的國際重大學術會議。其目的在於促進和交換全世界範圍內的資料庫及其相關領域中的前沿學術工作。VLDB 與 ACM 主辦的 SIGMOD、IEEE 主辦的 ICDE 合稱資料庫領域三大頂級會議。而在發表論文難度和受關注程度上,VLDB 與 SIGMOD 可謂並駕齊驅。值得一提的是,與多數計算機領域學術會議一年一次或兩次的投稿週期不同,VLDB Endowment自 2008 年以來建立了 PVLDB(The Proceedings of the VLDB),此後以期刊的形式評審論文,每一個月為一次投稿週期,即每個月的1號為上個月投稿週期的截止時間,一年有12次投稿機會。而審稿週期較傳統期刊更短,論文作者一般會在一個半月到兩個月的時間內收到評審意見反饋。在每年的 VLDB 會議上,一年以來被 PVLDB 收錄的論文將進行集中報告。本年度的 VLDB 會議已是第 45 屆會議,於8月26日至30日在美國西海岸的著名城市洛杉磯舉辦。大會議程包括3個主題演講 (Keynote)、28個學術論文報告分會 (Research Session)、4個工業界論文報告分會 (Industry Session)、2個工業界邀請演講 (Invited Industry Talks)、2個系統展示論壇 (Demo Session)、7個教程 (Tutorial),以及博士生論壇 (PhD Workshop) 和多個子研討會 (Workshop)等。共歷時5天,其中首尾兩天是各個Workshop,正會3天。
今年一共有 128 篇 Research Paper,22 篇 Industry Paper,以及 48 篇 Demo Paper 入選。與去年相比,收錄的 Research Paper 和 Demo Paper 數量保持基本穩定,而 Industry Paper 有了顯著的提升,從去年的12篇增加到今年的22篇。從投稿數量與錄用率來看,Research Paper投稿677篇,錄用率18.9%,Industry Paper為72/30.6%,Demo Paper為127/37.8%。與去年相比,Research Paper的投稿數量略有下降,錄用率則基本持平。從工業界論文的收錄數量增加可以看出,今年的 VLDB 會議學術界和工業界合作交流趨勢進一步增強。而且除了 Industry Paper 以外,在 Research Paper 中也有許多工作是由企業或企業與高校聯合完成的,例如 Google、Microsoft、IBM 等均有多篇 Research Paper 入選。大會的程式委員會中也能見到諸多業界人士擔任分會主席或審稿人。國內方面,今年由大陸高校(不含港澳臺)和企業主導或參與的 Research Paper 共有 27 篇,數量上與去年相比略有提升,其中清華大學、浙江大學等高校均發表了多篇論文。來自大陸高校的論文中,最主要的研究方向集中在圖資料和機器學習,其中有 7 篇論文與圖資料相關。從往年大陸高校在 VLDB、SIGMOD 等資料庫會議的論文發表情況來看,圖資料一直是華人學者比較強勢的研究方向。此外,在查詢最佳化、隱私保護、空間資料、眾包、區塊鏈等主題上,國內高校也均有涉及。國內業界對於資料庫學術會議的參與度進一步提高,騰訊、華為等國內企業在本屆會議上均有論文發表,研究方向主要集中在 RDBMS 和分散式系統。
在本次VLDB會議上,騰訊公司也設立了展臺,歡迎各位與會嘉賓、專家蒞臨交流。接下來,本文主要從論文分佈和技術發展動向對本屆 VLDB 論文進行概覽。為了便於統一安排論文報告分會的時間長度,本屆大會將論文粗略地按照研究方向均分為了28個 Research Session 和4個 Industry Session,每個 Session 有4-5篇論文進行報告。由於論文的研究方向分佈不均衡,熱門的方向會安排多個 Session,例如事務處理、查詢最佳化、分散式系統和圖資料,而論文數量較少的不同方向可能混雜在同一個 Session 中,因此各 Session 之間的界限和層級關係並不太清晰。我們閱讀了全部論文的內容,在 Session 劃分的基礎上,根據每篇論文的研究方向以及針對的資料型別,將論文進行了更加細緻清晰的分類,便於大家瞭解各個領域的研究熱度。因為存在一篇論文涉及多個領域的情況,因此圖1中各個領域論文的數量之和大於了總論文數量。從圖1的分佈情況可以看出,關係型資料庫(RDBMS)的研究仍然是主流,但總體數量上比去年(見圖2)有所減少(今年34,去年42),佔總論文數量的約1/4;其次是關於圖資料和圖資料庫系統的研究,相關論文涉及了大規模資料圖上的子圖匹配、社團發現、帶約束的最短路徑查詢等經典演算法問題,以及分散式環境下的圖分割等問題。除了關係資料模型的統治地位不可撼動之外,近年來圖資料模型也逐漸被應用於實際業務中。而無論是關係型資料、圖資料或是其他資料型別,查詢執行和查詢最佳化始終是效能最佳化的核心問題。隨著移動網際網路、物聯網近年來的快速發展,不斷催生了依賴於時空資訊且實時性強的應用,因而時空資料和流資料的相關論文在本屆會議上也佔據了一席之地。此外,機器學習與資料庫逐漸聯絡緊密,也有一些論文嘗試使用機器學習演算法來最佳化查詢演算法。在與RDBMS相關的論文中,我們進一步按照其涉及的子領域進行細分,如圖3所示。本屆會議上有關事務處理的論文數量與去年(見圖4)相比有明顯增加,分散式事務處理既是難點也是熱點。而查詢最佳化、儲存最佳化、快取最佳化這些與效能密切相關的主題始終是資料庫領域研究的核心。此外,研究者們逐漸意識到如何促進使用者更方便直觀地訪問資料庫是一個需要解決的重要問題,學術界將其定義為資料可用性(Data Usability)問題,因而近年來也有不少論文圍繞這一問題研究了互動式訪問介面、資料視覺化等技術。圖3. VLDB 2019 RDBMS子領域論文分佈圖4. VLDB 2018 RDBMS子領域論文分佈工業界的論文來自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及國內的騰訊、華為等企業。除了 20 篇 Industry Paper 之外,根據我們的統計,在 Research Paper 中由企業獨立完成或主導完成的論文有 11 篇,企業與高校合作的論文有 17 篇,佔到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企業主導或參與的論文。由此可見工業界在資料庫研究中參與度之高,企業與高校的合作日益密切。明顯感到與學術界論文的區別是,工業界的論文更加註重系統實現和業務落地,而學術界論文則側重於某個技術難點或者說演算法問題的攻關。兩者的優勢結合則更有可能產出高質量的研究成果。我們從本屆 VLDB 論文中嘗試觀察總結資料庫技術發展的新動向,拋磚引玉,期待與讀者共同交流。如下是本屆大會論文討論到的一些重要話題。隨著摩爾定律的停滯失效,單機儲存和計算能力增長遇到了瓶頸,現代資料庫系統也朝著分散式多機叢集發展,而其中遇到的最大的技術挑戰即是分散式事務處理。如何保持分散式資料的一致性,事務隔離性不同級別的高效實現,都有待進一步深入研究。在本屆 VLDB 中,事務處理的相關論文數量也有了明顯增加。例如論文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一個簡單有效的AOCC(自適應樂觀併發控制)框架。根據查詢讀取的記錄數,以及涉及更新操作的併發事務的寫大小,AOCC自適應地選擇合適的Validation 策略來降低開銷,從而在不犧牲可序列化的前提下提升異質負荷的效能。論文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”則透過事務的批次執行和操作的重排序來提升OCC效能。恰巧,TDSQL的第二代事務處理機制,也是基於OCC機制,期待能有機會和大家深入進行探討。論文“SLOG: Serializable, Low-latency, Geo-replicated Transactions” 指出,現有的支援異地備援(Geo-replicated)的資料庫通常需要在三個方面做取捨:(1)嚴格可序列化,(2)低延遲寫入,(3)高事務處理吞吐量。該論文提出的SLOG系統利用了物理分割槽的區域性性特徵,能夠同時滿足以上三個要求。在事務處理中,資料的故障恢復機制是很複雜的一項。傳統的資料庫實現通常需要維護WAL(Write Ahead Log)和資料本身的持久化儲存,而且恢復演算法滲透到了系統的各個模組,即資料庫的各個模組在設計和實現時都需要考慮恢復功能的正確性,以保持事務的原子性。論文“FineLine: Log-structured Transactional Storage and Recovery” 中提出了FineLine——一個事務儲存和恢復機制,捨棄了傳統WAL,將所有需要持久化的資料儲存到一個單一的資料結構,達到了資料庫的持久化部分和記憶體中資料之間的設計解耦。區塊鏈也是當下的熱門話題之一,本屆 VLDB 增加了一個關於區塊鏈的單獨 Session,共有 4 篇論文入圍。值得一提的是,本屆 VLDB 的 Best Paper Award 頒予了論文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。這篇最佳論文的研究動機是,區塊鏈系統還沒有一個方便的方法來追溯資料的起源和變遷(Lineage,血統),只能依靠回放事務來重現過去的狀態,這種方式適用於大規模的線下分析,但是不適合線上的事務處理系統。論文給出一個簡單的例子:賬戶A給B轉賬,要求近期賬戶B的每日餘額位於某一閾值以上,才可轉賬,現有系統需要重放近期B賬戶每天的交易,才能作出轉賬的決策。為了解決這樣的問題,該論文提出了LineageChain系統,能夠做到細粒度、安全高效地回溯區塊鏈資料。LineageChain基於Hyperledger實現,底層儲存為ForkBase (同一團隊研發的面向區塊鏈的儲存系統,論文發表於VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。論文提出了一種新型的索引,針對區塊鏈資料起源和變遷的查詢作出最佳化。線上交易進行時,LineageChain能夠精細、安全地保留下資料的變遷,並且對外提供簡單的介面來訪問這些資料變遷。這篇論文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems”,其實,這是對於歷史資料的一種管理理念,其核心是認為“歷史資料具有價值”。這一理念,使得資料處理系統的資料處理疆域擴充套件,延伸到了歷史資料的儲存、管理和計算領域,非常有意義。作為“Best Paper”,該文有許多值得我們學習之處。而異曲同工的是,騰訊TDSQL在本屆VLDB投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系統地闡述了騰訊TDSQL對於歷史資料管理的完備方案和主要技術:從資料生命週期到全時態資料模型的建立、從事務處理到分散式系統的全域性讀一致,從查詢最佳化到索引建立,從事務型生產系統到分析歷史資料的分析型叢集的資料無損、效能無損的體系結構的一體化構建,表明了騰訊公司TDSQL系統處理歷史資料的完備性、先進性,以及技術的前瞻性。新的儲存硬體和計算硬體,例如NVM、SSD、NUMA,SIMD、多核CPU、GPU、FPGA等,為資料庫效能的scale up帶來了新的機會。如何充分利用新硬體的優勢來提高資料庫效能也是近年來的研究熱點之一。本屆VLDB有多達9篇論文涉及該方向,提供了使用GPU、SIMD加速RDBMS或者機器學習平臺的平行計算能力,使用NUMA實現分散式資料庫的高可用資料複製方案等新技術思路。機器學習、深度學習作為時下最為火熱的研究領域,也受到了資料庫學者的廣泛關注。機器學習、深度學習演算法通常是計算密集型任務,而且在實際應用中訓練資料通常也遠超單機所能承受的資料規模,因此如何利用大資料分散式儲存與計算能力,為使用者提供一站式的機器學習和深度學習平臺服務,是兩者的契合點。一個明顯的體現是最近三年來的資料庫領域會議如 VLDB、SIGMOD 增加了機器學習相關的 Track。這是機器學習與資料庫技術的另一個結合點。例如論文“Towards a Learning Optimizer for Shared Clouds”研究了在多租戶雲資料庫環境下,使用歷史查詢的執行統計資料進行訓練學習,來預估未來查詢的中間結果基數大小,從而指導生成更優的查詢計劃。此外,近兩年的VLDB、SIGMOD也有使用機器學習模型來最佳化索引結構、儲存、引數自動調優的相關研究工作。相比於關係表結構,圖模型更能靈活地表示事物實體之間的關聯關係。隨著知識圖譜的普及和應用,對圖資料的研究在資料庫領域佔據了一席之地。但與關係表的Lookup、Scan、Join等基本操作不同,圖的各種演算法操作種類繁多,而且其中很多演算法複雜度較高。大規模圖資料的儲存、查詢和各種分析計算,成為了新的技術難點。相關的研究內容有圖資料庫和圖分析計算平臺的構建。
以上介紹了這麼多,大家對本屆VLDB是不是有了更多的瞭解呢?歡迎與我們交流感想與思考。在後續的文章中,他二哥也會繼續為大家帶來更多的現場報導和技術分享,期待大家繼續關注今年VLDB的動態哦!作者簡介:
韓碩,2014年於北京郵電大學獲得工學學士學位,2019年於北京大學獲得理學博士學位。博士期間的主要研究方向為圖資料管理和知識圖譜。畢業後加入騰訊公司從事資料庫技術研發工作。