哈工大(深圳)-南大通用雲資料庫研究中心舉辦成果展 共助國產資料庫發展

GBASE南大通用發表於2021-11-08

2021 11 4 日,由哈爾濱工業大學(深圳)、天津南大通用資料技術股份有限公司和深圳市計算機學會主辦,哈工大(深圳) - 南大通用雲資料庫研究中心承辦的 國產資料庫產學研合作交流暨哈工大(深圳) - 南大通用雲資料庫研究中心成果展示會 於深圳博林天瑞喜來登酒店成功舉辦。   此次成果展示會對哈工大(深圳) - 南大通用雲資料庫研究中心近一年的工作進行了總結,報告了研究中心的研究現狀、已經取得的研究成果和未來工作期望。同時,會議還邀請了多位來自學術界和產業界的資料庫專家進行了國產資料庫相關主題的技術報告。

 

五十餘位專家及代表參加了此次會議,主要嘉賓包括:

哈爾濱工業大學(深圳)科技處處長,趙軼傑

國家傑出青年基金獲得者、中國計算機學會 王選獎 獲得者、國家 973 計劃專案首席科學家、哈爾濱工業大學電腦科學與技術學院教授,李建中教授

廣東省計算機學會副理事長、深圳計算機學會理事長、哈工大計算學部副主任、哈工大(深圳) - 南大通用雲資料庫研究中心主任、哈爾濱工業大學(深圳)電腦科學與技術學院院長,王軒教授

南大通用資料技術股份有限公司高階副總裁、 CTO ,趙偉

深圳市計算機學會資料科學與工程專委會主任、深圳大學特聘教授、深圳計算科學研究院研究科學家,秦建斌教授

深圳市計算機學會資料科學與工程專委會副主任、南方科技大學電腦科學與工程系助理教授,唐博

中國計算機學會資訊儲存專委會委員、中國計算機學會系統軟體專委會委員、哈工大(深圳) - 南大通用雲資料庫研究中心委員、哈爾濱工業大學(深圳)電腦科學與技術學院副教授,夏文

南大通用資料技術股份有限公司資料智慧產品經營部總經理,張紹勇

南大通用資料技術股份有限公司資料管理產品經營部產品部經理,李世輝

南大通用資料技術股份有限公司華南區技術經理,蘇遠昌

南大通用資料技術股份有限公司華南區總經理,張玉芝

哈工大(深圳) - 南大通用雲資料庫研究中心副主任、南大通用總工辦主任,楊偉偉

哈工大(深圳) - 南大通用雲資料庫研究中心副主任、深圳市計算機學會資料科學與工程專委會委員、哈爾濱工業大學(深圳)電腦科學與技術學院助理教授,劉洋

哈工大(深圳) - 南大通用雲資料庫研究中心委員、哈爾濱工業大學(深圳)電腦科學與技術學院助理教授,漆舒漢

 

會議伊始,哈爾濱工業大學(深圳)科技處趙軼傑處長代表學校領導,向校企合作取得的階段性成果表示了誠摯的祝賀。趙軼傑處長提到,哈工大(深圳)今年科研經費已達 8.2 億元, 2021 年全年預計能達到 10 億元,學校繼續保持著工科領域的產學研用領先優勢。在當前的時代背景下,工業界與學術界需要緊密合作。哈工大(深圳) - 南大通用聯合研究中心長期深耕資料庫領域,共同致力於打造國產資料庫這一國之重器。在雙方的共同努力下,一定會繼續為校企合作培養英才做出新貢獻。  

南大通用 CTO 趙偉代表公司領導,對聯合研究中心從科研成果到工程化落地的工作給予了極大的肯定。他表示,資料庫關係理論和新資料管理技術離不開學術界研究,公司將繼續支援聯合研究中心的科研專案推進。同時,他也對研究中心的研究成果轉化提出了更高要求,希望哈工大(深圳)與南大通用的產學研用合作能進一步助力於基礎資訊產業高質量發展,加快資料庫基礎技術的攻關。  

  深圳市計算機學會資料科學與工程專委會主任秦建斌教授代表學會專委會為本次活動致辭。他對專委會在關係型資料庫、資料治理、隱私計算、 AI+DB 等方向的研究進行了介紹。他表示將繼續推動加強高校與企業的合作,加大產學研用中的人才培養,在產學研用方面為整體產業做出貢獻。   隨後,國家 973 計劃專案首席科學家、哈爾濱工業大學電腦科學與技術學院李建中教授做了題為《資料可用性的計算理論與高效演算法》的大會主題報告。

在報告中,李建中教授從 資料一致性 資料精確性 資料完整性 資料時效性 資料統一性 這五個度量維度介紹了資料可用性的基本概念。李建中教授在報告中提到,資料的低可用性會對物理世界帶來了巨大影響。例如:全球財務 1000 強公司中 25% 以上的關鍵資料存在錯誤;中國某城市的 3600 多萬條社保記錄中有 450 萬條記錄存在錯誤。此外,資料低可用性也使得采用 AI 技術進行的資料探勘結果的可靠性得不到充足的保障。

李建中教授表示,無論具有多麼大的資料,無論大資料計算的理論和技術多麼完美,如果不能確保資料可用性,大資料就可能產生錯誤結果,甚至災難性結果。以此為背景,李建中教授進一步介紹了資料可用性的若干研究問題。其中,重要的研究問題包括:資料可用性的表達機理、資料可用性的判定理論、資料錯誤的檢測與修復、若可用資料上的近似計算、資料高質量獲取理論和技術等。

針對上述問題,李建中教授團隊在國際頂級期刊和會議中發表了學術論文數十篇,構建了資料可用性管理系統,建立了具有資料可用性表達、資料可用性判定、資料錯誤檢測修復、弱可用資料近似計算、資料高質量獲取等功能的原型系統。該系統在中國某城市 8 億條社保資料上進行了應用,使資料準確率由 75% 提高到 90% ,資料完整性由 71% 提升到 95% ,資料一致性由 83% 提升到 100% ,資料時效由 78% 提升到 87% 。未來,李建中教授還會繼續探索降低問題計算複雜性的新方法學,擴充弱可用資料的近似計算理論。

深圳市計算機學會資料科學與工程專委會副主任唐博助理教授做了題為《面向異構計算硬體的大資料查詢處理和加速技術》的主題報告。 報告中,唐博老師結合新型硬體對資料庫系統帶來的挑戰和機遇,分享了其團隊在資料庫系統的可觀察性、查詢優化以及硬體感知的執行引擎三個方面的研究工作,介紹了系統原型的具體功能和測試效果,最後通過分析現有技術的不足,展望了架構異構硬體感知的資料管理系統的挑戰和難點。   茶歇過後,哈工大(深圳) - 南大通用雲資料庫研究中心委員夏文副教授以《面向 GBase 日誌的高效差量壓縮技術研究》為主題,進行了雲資料庫研究中心成果彙報。

夏文老師主要介紹了研究中心在資料去重壓縮等領域的研究工作基礎和積累,以及針對南大通用日誌儲存研究的差量壓縮演算法,多項研究成果發表在資料儲存和壓縮領域的國際頂會頂刊,並申請了多項專利。他提到,在 2021 年暑假期間,研究中心兩名同學赴天津參與 GBase 業務場景實測,與相關技術人員反覆論證測試,在業務場景驗證合成成果的差量壓縮演算法在 GBase 邏輯日誌壓縮率超過 60% ,通過減少日誌資料的寫操作將執行和同步用時縮短了約 1% 。這說明研究中心的差量壓縮演算法,在顯著提升壓縮率的同時,並沒有增加日誌儲存吞吐和時延方面的開銷,仍維持了 GBase 日誌儲存的高效能業務要求,最終實現了又快又好的儲存 GBase 海量資料的目標。

目前該工作作為研究中心的第一階段研究的階段性成果已經進入 GBase 工程化版本階段。夏文老師表示,下一階段的工作 ,將圍繞資料庫備份場景存在的海量資料儲存需求,將研究中心的資料去重壓縮成果也用於推動 GBase 在這一場景的儲存效率提升,實現更高質量的合作共贏。   隨後,南大通用張紹勇總經理、李世輝經理和蘇遠昌經理也分別就 “GBase 8a MPP 的市場地位、產品優勢、關鍵技術、典型案例 ‘“GBase 8s V8.8 護航核心交易 南大通用在分散式事務型資料庫的實踐 等研究進展和成果進行了彙報。  

分散式分析型資料管理系統 GBase 8a 是面向大資料分析類應用領域的一款高效能國產新型資料庫產品,用於滿足資料密集型行業日益增大的資料查詢、資料統計、資料分析、資料探勘和資料備份等需求,可用做資料倉儲系統、 BI 系統和決策支援系統的承載資料庫。 GBase 8a MPP 衝上 TPC-DS 世界榜單,節點數量最少,單節點算力最高,載入效能最優,更是通過國內最大規模 MPP 叢集測試( 4096 節點)。打造的中國農業銀行總行大資料平臺,榮獲中國人民銀行頒發的 2017 年度銀行科技發展獎一等獎、已部署 2000+ 節點、管理超過 20PB 資料,穩定執行超過 2000 天。

交易型資料管理系統 GBase 8s 是天津南大通用資料技術股份有限公司自主研發的、成熟穩定的企業級分散式事務型資料庫,擁有自主智慧財產權,並且具備兩高三低的特性:跨入第三代,守護每筆交易的高可靠性;兩地三中心,持續服務保障的高可用性;自動遷移工具, PL/SQL 直接使用可降低遷移成本;一體機模式,統一運管平臺降低運維成本;全棧國產生態,打破國外壟斷降低採購成本。該產品打造的某地方性商業銀行核心系統:備份耗時由原來 2 小時以上縮短到 20 分鐘以內;解決恢復表的不可用性,解決大表無法插入資料;實現資料分離儲存,大表資料分片儲存於不同空間,提升效能;實現配置優化,表鎖粒度、索引,配置引數等優化,提高併發效能。

分散式交易型資料管理系統 GBase 8c 是一款 shared nothing 架構的分散式交易型資料庫叢集,具備高效能、高可用、彈性伸縮、高安全性等特性,可以部署在物理機、虛擬機器、容器、私有云和公有云,為關鍵行業核心系統、網際網路業務系統和政企業務系統提供安全、穩定、可靠的資料儲存和管理服務。目前已滿分通過信通院分散式事務型資料庫評測。

在各位專家的成果展示和技術彙報順利結束後,深圳計算機學會理事長、哈工大(深圳) - 南大通用雲資料庫研究中心主任、哈爾濱工業大學(深圳)電腦科學與技術學院院長王軒教授為會議做了總結致辭。王軒教授表示,在雲資料庫研究中心成立的一年多的時間中,校企雙方發揮各自的長處,充分利用研究中心作為雙方合作的視窗、新技術科研成果的中試基地和產業化基地的作用,真正實現了產、學、研之間的無縫對接,提高了核心技術研究和產業化的高效性。聯合研究中心應專注卡脖子技術打造國產資料庫這一國之重器,繼續為國家信創基礎產業做出貢獻。

未來,雲資料庫研究中心也將持續堅持以哈爾濱工業大學(深圳)電腦科學與技術學院的科研力量來推動南大資料技術股份有限公司的業務發展;同時以南大通用資料技術股份有限公司的需求為導向,充分利用哈工大的人才與科技優勢,南大通用在資料庫領域的領先技術和經驗優勢,支援和推動聯合研究中心在相關核心技術方面的研究和積累,以國產資料庫這一國之重器為數字化時代中國資料資產的本質安全提供保障,深耕研究,繼續勇創佳績。

關於哈工大(深圳) - 南大通用雲資料庫研究中心

哈爾濱工業大學(深圳)電腦科學與技術學院與天津南大通用資料技術股份有限公司進行深度合作,與 2020 9 1 日成立 哈工大 ( 深圳 )- 南大通用雲資料庫研究中心 。該中心有助於促進南大通用與哈爾濱工業大學(深圳)在互利互惠、共同發展基礎上的合作伙伴關係,實現產、學、研緊密結合。同時,雙方在雲資料庫技術等領域優先開展技術戰略諮詢、技術創新、新產品研製、人才培養等方面的長期合作。此外,還將提煉實施技術專案的合作開發,實現專案技術產業化。

研究中心第一階段對資料庫引數智慧優化技術、資料庫列存資料壓縮方法、資料庫智慧安全審計技術等多個課題方向展開研究。

1 ) 資料庫引數智慧優化技術

引數優化是資料庫優化的重要手段,而資料庫引數之多也增加了引數調優的難度。大資料時代下,面對不斷膨脹的資料資訊、複雜多樣的應用場景、異構的硬體架構和參差不齊的使用者使用水平,傳統資料庫技術調參很難適應這些新的場景和變化。基於機器學習的智慧資料庫配置技術因其較強的學習能力,能夠有效提升資料庫引數調節的效率。該方向針對資料庫引數智慧優化技術進行研究,利用人工智慧技術對不同業務資料庫例項完成自動配置,同時權衡效能和成本。

2 ) 資料庫列存資料壓縮方法

在資訊科技高速發展的海量資訊時代 , 海量資料管理技術已經成為社會資訊化的迫切任務。如何有效地儲存和管理海量資料並高效地支援海量資料上的查詢 , 對資料庫管理系統提出了嚴峻的挑戰。海量資料庫最大的特點是存在大量的資料冗餘 , 即相同的資料在不同的地方多次重複出現。該方向從南大通用 Gbase 資料庫邏輯日誌差量壓縮的角度入手,通過輕量高效的 Ddelta 差量壓縮演算法壓縮日誌內前後映象,節省大表修改時邏輯日誌所佔空間。該研究目前已進入產品工程化階段,預計可節省 40% 的日誌儲存空間。

3 ) 資料庫智慧安全審計技術

資料庫作為業務平臺資訊科技的核心和基礎,承載著越來越多的關鍵資料,其安全性也越來越重要。資料庫審計技術能夠實時記錄網路上的訪問資料庫行為,對資料庫操作進行細粒度審計。除此之外,資料庫審計還能對資料庫遭受到的風險行為進行告警,如:資料庫漏洞攻擊、 SQL 注入攻擊、高危風險操作等。該方向針對資料庫審計技術進行研究,通過滿足國家資訊保安等級保護的安全審計系統抵禦來自內部人員日益增多的安全威脅,通過智慧、全面的資料安全方案進行漏洞掃描,阻止資料丟失,進行資料隱私保護。

未來,雲資料庫研究中心將成為雙方合作的視窗和新技術科研成果的中試基地和產業化基地。以哈爾濱工業大學 ( 深圳 ) 電腦科學與技術學院的科研力量來推動南大資料技術股份有限公司的業務發展 ; 同時以南大通用資料技術股份有限公司的需求為導向,支援和推動雲資料庫研究中心在相關核心技術方面的研究和積累,以國產資料庫這一國之重器為數字化時代中國資料資產的本質安全提供保障。

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979120/viewspace-2841074/,如需轉載,請註明出處,否則將追究法律責任。

相關文章