華東師範大學副校長周傲英:未來,中國需要什麼樣的資料庫?

OceanBase技術站發表於2023-04-28

本文為華東師範大學副校長,CCF 會士周傲英教授在第一屆 OceanBase 開發者大會帶來的分享。歡迎訪問 OceanBase 官網獲取更多資訊:https://www.oceanbase.com/


3 月 25 日,第一屆 OceanBase 開發者大會在北京舉行,華東師範大學副校長,CCF 會士周傲英教授帶來了《未來, 中國需要什麼樣的資料庫?》的分享,從他的視角為大家介紹了資料庫技術發展的趨勢、行業的機會,還有我們所肩負的使命。

以下為演講實錄:

很高興又來到 OceanBase 的會場,關於中國未來需要什麼樣的資料庫,是我特別想講的內容,我從1985 年讀研究生的時候開始學習資料庫,經過多年的發展,中國終於迎來了資料庫發展的新機遇。 今天我的分享將從資料庫的誕生、資料能源對於數字化轉型的作用、分散式資料庫評測基準三個主要方面展開。

應用驅動創新的資料庫

簡單回顧一下資料庫,從更高的維度來看,資料庫屬於什麼樣的技術範疇?假如資料是電能(power),需要把電送到千家萬戶,我們就需要一個賦能平臺,要有電力的基礎設施,此時,我覺得資料庫就屬於基礎設施裡面的一個重要內容,並且它具有先鋒性的作用。

展開講講賦能平臺,“賦能”這個詞是網際網路的概念,現在已經被廣泛使用,現在我們到處講的“賦能”,英文是 In-power,也就是說它的主語應該是 power,才能賦能其它的。這個角度來說資料庫就是賦能平臺的概念,最早在 50 多年前已經出現,現在已經到了廣泛的賦能平臺,現在就來分享一下,我們在和 OceanBase 合作中對分散式資料庫的理解。

大家都知道,我們在學計算機專業的傳統專業課程中,有四門課是我們這個專業獨有的——編譯、作業系統、資料庫、網路,而這四門課程中,只有資料庫成為了一個獨立的行業。作業系統中的 Windows 不是單獨賣 Windows,編譯也沒有單獨賣編譯的,網路是賣硬體的、沒有賣軟體的。從這個角度來說,在資料庫產業的發展過程中,Benchmark 基準評測起到了很好的作用,也規範了這個行業的發展,讓大家相對公平、有序地競爭。

▋ 資料庫為金融而生

資料庫是作為金融技術、金融科技而誕生的,支援的是 Mission-Critical 的應用,Mission-Critical 是人財物的精確管理,為了做到“精確”,我們需要資料庫。最早的資料庫從 COBOL (Common Business-Oriented Language,最早的商用程式語言)裡誕生。2000 年,美國由於千年蟲(Y2K)的歷史遺留問題,把很多在海邊獨居的老人請回來改程式碼,那時候的程式碼還是 COBOL 程式碼,最早的社保和醫保系統都是用 COBOL 來寫的。2020 年疫情剛開始時,因為很多醫保、社保在這一年馬上要兌付,很多老人再次被請回來改程式碼。

由此可見,資料庫是早期最經典的金融科技, 是典型的“應用驅動創新”的案例。

▋ 資料庫的發展歷史

20 世紀 50 年代,COBOL 開始出現;60 年代,COBOL 被定義為資料系統語言,第一個圖靈獎獲得者艾倫·佩利(Alan J.Perlis)在 CODASYL 會議上提出了 DBTG 報告;80 年代,資料庫概念達到頂峰,關係型資料庫開始出現,資料庫由此開始慢慢被人接受,並由此開始廣泛傳播,也是在這個過程中,兩個圖靈獎獲得者誕生了。

資料庫的發展史是 IT 技術創新史的縮影,資料庫的的成功是應用創新的成功。用應用驅動創新的資料庫,在理論和技術的相互促進中,形成了資料庫波瀾壯闊發展的幾十年。雖然資料庫技術在不斷髮展中越發成功,但是任何成功的案例都有它深刻的教訓: 原本我們以為一個關聯式資料庫能夠解決所有問題,但在大資料和谷歌的“三駕馬車”概念出來之前,大家好像都在哀嘆資料庫好像解決不了資料的問題,直到” One Size Fits a Bunch”( 即一類應用可以有一個資料庫)概念的提出。

我跟國外學者交流時,他們也很認可我的理念:學資料庫的人應該理解資料庫的抽象,關聯式資料庫就是對語義的抽象,事務處理就是對業務邏輯的抽象, 分散式資料庫就是陽振坤老師講到管帳、記帳、轉帳這些業務邏輯的抽象,而 Benchmark 是對功能、對能力、對規範的抽象,正是抽象成就了 30 多年的資料庫產業的發展。

資料之於數字化轉型

從現在的角度來看,我們怎麼來做新的資料庫?“Data is power(資料是新能源)”的理論,是 2016 年馬雲先生在雲棲大會上講的,這個 Power 指的是電,資料給生活帶來的深刻改變好比一百多年前,電的誕生對生活帶來的深刻改變一樣。

雖然四五十年前已經有人意識到資料的重要性,但我們對於資料廣泛意義上的重要性是網際網路教會我們的。從“蒸汽能 (Steam Power) ”到“電能 (Electric Power) ”再到“資料能 (Data Power) ”,每次 Power 的改變實際上不僅僅是一次產業的巨大改變,它帶來還有國際格局的根本改變。

Image

在蒸汽時代之前的馬能(Horse Power)時代,中國佔據世界中心地位幾百年甚至上千年;到了蒸汽時代,英國佔據了世界的中心地位;再到了電能時代,美國就取代了英國。而現在的“資料能”時代給中國帶來了機會,也給資料庫人帶來了機會,我們在走向世界中央的路上。

數字經濟不是產業的數字化、數字的產業化,這是非常表面的現象,本質上它會帶來整個經濟格局的改變。 就像電能時代,在把蒸汽時代所有的產業都做一遍的同時,也誕生了一批嶄新的產業,比如通訊、IT,資料是把人類從工業文明帶入數字文明的一個重要能源。

現在我們講的數字化轉型中,資料對於數字化的作用,就像電對於電氣化轉型一樣。2020 年 4 月上旬,美國微軟釋出了 Microsoft Power Platform,在這個平臺上將微軟所有的功能集合在了一起。

Image

雖然它沒有說這個 Power 指什麼,但卻強調了 Microsoft Power Platform 是助力數字化轉型的低程式碼平臺,現在微軟的 Word、Excel、PowerPoint 產品裡都融入了 GPT4,所以它講的 Power 就是 Data,如果把 Microsoft 摘掉,Power Platform 就是我們的電力基礎設施,電力、電網、遠距離超高壓傳輸電網,一直到家裡的配電盤以及變電站裡面的變壓器,整個這一套就是 Power Platform,它的根本目的要把資料大眾化,把開發大眾化,把 AI 大眾化。

Image

把資料大眾化,就是要讓大家都能簡單地使用資料,要低程式碼甚至零程式碼,這是它的基本邏輯,其發展的最高境界就是 AI 大眾化,所以我們要做資料賦能平臺,也就是馬老師以前提到的資料中臺。

我們要把資料中臺翻譯成 Data Power Platform,從而彰顯 Data is power。資料庫是資料中臺的重要功能,根本目的就是我們要認識 Data,知道電壓、電流、電阻,我們才研究這一套電,我們要有電網、有繼電保護,我們要讓資料技術裝備化、大眾化、平民化、傻瓜化,這是我們的根本目的。雖然我們不見得都理解電,但是我們每個人都會用電,ChatGPT 也是給我們這樣的路線,讓大家不需要編程式碼就可以把計算機和 AI 用起來。 “真正的 AI 時代”開始的根本目的就是要讓資料大眾化,把資料用好。

網際網路時代,我們對資料庫提出非常廣泛的要求,資料庫和網際網路碰撞到一起,帶來非常多的衝擊——場景和應用範圍不一樣了。原本的資料庫必須是資料庫的使用者才能用,現在的資料庫是有個手機就能用。

分散式資料庫評測基準

伴隨著雲端計算趨於成熟,在這樣的情況下,我們未來的分散式資料庫在什麼地方,OceanBase 是分散式資料庫的探索者。我認為分散式資料庫要有云上的系統,剛才我們都提到資料庫要擴容,要智慧運維, 如果要讓資料庫好用,要讓賦能平臺好用,就不能僅僅只是“One size fits a bunch”,而應該是像陽振坤提出的觀點“One Suite fits all”。

以前我們學分散式資料庫時,還沒有網路和現在的網際網路,現在在應用驅動創新下,有了網際網路,進而有了分散式資料庫。

Image

▋ Benchmark 對產業形成非常重要

在華東師範大學和 OceanBase 合作過程當中,我們認為:Benchmark 對產業的形成非常重要,也是在這個過程中,我們進行了總結。所以我們一直在研究基準,以此來引導分散式資料庫的發展。

基準是應用需求的抽象,有了抽象才能引導,我們都知道實踐出真知,由於真知形成了理論再引導實踐,正是統一的評測基準引導著分散式資料庫的發展,我們對傳統的 Benchmark 進行了總結,包括 OLTP 和分散式資料庫的總結,在 2022 年有一篇文章,全面地論述了從 Benchmark 的發展到分散式資料庫的發展。

Image

資料庫歷史發展圖

我們必須抽象,而抽象一定要從應用當中來,要了解應用的需求。因為應用的需求對分散式資料庫的可擴充套件性、高可用性、可排程性、彈性非常重要,所以為了做到這一點,需要形成量化的標準,我們希望用量化的方式來進行評測。

我們做了分散式資料庫評測的套件 Dike,目前已經公佈在 Github上面,叫 dbhummer。Dike 是可插拔的、定量的、動態的、不均衡的一種分佈的方式,今年也被選中在 SIGMOD 上進行了發表。我們的套件從不同的角度來進行評測,只要是分散式資料庫,大家都可以在這上面做 PK,希望以此引導技術往正常的軌道上發展,不會形成惡意競爭。

Image

▋ HTAP benchmark

我們對 HTAP 也做了相應研究,研究 HTAP 的 Benchmark 要點,比如:混合負載、抗干擾能力、實時資料獲取能力,在統一的業務場景上進行分析,把 TP 和 AP 放在一起,他們之間會存在交叉,同時保證不同的 HTAP 可橫向比較等等,對整個國際 Benchmark 學術界是一個非常重要的熱點問題,目前,華東師大和 OceanBase 正在聯合研製新的 HTAP 評測基準 Vodka ,我們對已有的系統和標準做了比較,希望很快能出臺標準。

Image

華師大能夠在資料庫研究裡面保持領先地位,在國際上保持一定的影響力,很重要的一點就是我們從 2014 年開始,一直在研究 Benchmark。Benchmark 對業界來說就是標準,它對資料庫產業的發展和學術的發展非常重要。

最後,資料庫是實現賦能最早、最經典的成功案例,我們要從更高的角度看這個 Power,並搭建 Data power Platform,把技術大眾化作為根本的出路,Benchmark 是引導資料庫發展的正確途徑,我們初步的方向在同樣的套件上面實現使用者所希望的所有功能。

謝謝大家,也祝 OceanBase 越來越好!


歡迎訪問 OceanBase 官網獲取更多資訊:https://www.oceanbase.com/

相關文章