雙向賦能:AI與資料庫的修行之道

机器之心發表於2024-06-28
在這個資料為王的時代,資料是人工智慧的三大支柱之一,其重要性不言而喻。最近,OpenAI 收購了資料庫初創公司 Rockset,迅速引起了業內外的廣泛關注。OpenAI 早已在演算法和計算能力方面遙遙領先,透過這次戰略性的收購,OpenAI 將在其產品中融合 Rockset 的先進資料索引和查詢技術,幫助 OpenAI 將資料轉化為 “可操作智慧”。

現代資料庫人工智慧(AI)的融合,正如同一場席捲全球的技術革命,深刻地重塑著技術與產業的格局。

一方面,資料庫技術的技術迭代需要更好地支援人工智慧應用工作負責,比如向量資料庫,也就是 DB for AI;另一方面人工智慧技術也更好地讓資料庫運維更方便,實現自動化和智慧化,也就是 AI for DB。

在這一個變革過程中,資料庫產業正面臨諸多挑戰,比如海量資料高效能和大併發、大量資料庫例項智慧最佳化、保障資料安全防篡改的防護等。面對這種情況,企業如何透過技術創新和生態協同應對挑戰並抓住其中的機遇呢?

作為資料庫領域的領頭羊,東方國信、PingCAP、雲和恩墨透過自身的技術與產品實踐給出了他們的答案,同時他們與英特爾的協同創新,也讓我們看到了資料庫生態的蓬勃生機。雙向賦能:AI與資料庫的修行之道
新需求催生新挑戰

在 AI 大模型時代,由於資料庫的使用人數和資料量的爆炸性增長,資料庫系統的併發度會極大提升。雲和恩墨聯合創始人兼 CTO 楊廷琨強調,資料量爆發性增長帶來壓力的同時,硬體技術的快速發展也促進了算力提升,為提升處理能力和效能提供了可能性。這時候,資料庫廠商需從兩方面著手應對:一方面增強單機效能,另一方面透過架構設計實現平滑擴充套件,以滿足海量資料的處理需求。

同時,資料量的爆炸性增長也會帶來極大的資料冗餘。在此挑戰下,使用者從需求側又提出了很多新的要求,東方國信副總裁兼 CTO 查禮表示:使用者往往會希望數倉既能做資料加工,又能做分析和查詢,這要求資料庫系統具有高度靈活性和多功能性。

資料來源多樣化和使用者需求複雜化催生了對硬體越來越高的需求,資料庫要保持高效能、高穩定性,開發和運維人員又需要簡化資料庫的使用,這構成了一種 “悖論”。

為解決資料庫行業 “既要、又要” 的問題,越來越多的資料技術公司讓 AI “入局”,讓資料庫越跑越 “聰明”。PingCAP 服務總經理林景旭表示,他們正探索利用 AI 技術增強資料庫功能,同時簡化使用者操作。作為一家分散式資料庫廠商,PingCAP 提供的開源分散式資料產品與解決方案,透過分散式資料庫架構,實現計算和儲存的分離,以動態擴充套件滿足不同使用者需求,這其中便可以透過 AI 演算法來最佳化資源使用和效能評判。

資料庫產業需要不斷創新,開發更加高效、可靠、智慧的資料庫技術,才能滿足新需求的挑戰。同時,資料庫產業鏈也需要緊密合作,共同推動資料庫技術的發展,為數字經濟的發展提供更加堅實的基礎。

生態協同推動產業變革

資料庫產業面臨的挑戰是多方面的,這些挑戰並非單個企業能夠獨自解決,需要整個產業的協同合作,才能共同應對挑戰,並抓住其中的機遇。

憑藉先進的處理器技術、開源合作策略以及對客戶需求的深刻理解,英特爾資料庫領域的合作伙伴一起構建了一個開源開放、合作共贏的生態環境,助力資料庫技術的持續創新和應用落地。

英特爾中國雲創中心技術總經理張曉軍介紹說,第四代和第五代英特爾®️ 至強® 可擴充套件處理器內建了多項面向資料庫最佳化的技術,例如英特爾® QAT(英特爾 ® 資料保護與壓縮技術)用於資料壓縮解壓縮,以及英特爾® IAA(英特爾® 存內分析加速器)加速資料分析。在資料安全方面,英特爾也能透過英特爾® TDX(英特爾® 信任域擴充套件)和 SGX(英特爾® 軟體防護擴充套件)為使用中的資料提供端到端硬體級防護能力。

此外英特爾至強 6 處理器已於近期釋出,提供了兩種不同的 CPU 微架構版本,分別為效能核 (P-core) 和能效核 (E-core),讓多種工作負載的效能和能效表現再創新高。其全新功能和內建加速器為目標工作負載帶來進一步助力,實現了更高的效能和能效。圖片
基於英特爾® 架構的加速器與軟體工具

眾多的合作伙伴正在藉助至強處理器和加速器及軟體工具增強自身的產品競爭力。

比如 PingCAP 推出的 TiDB 開源分散式資料庫就得益於第四代英特爾® 至強® 可擴充套件處理器卓越的代際效能,其資料庫的只讀效能與讀寫效能分別達到基準配置的 1.62 倍與 1.43 倍。

圖片

圖片
此外 TiDB 利用至強®️ 可擴充套件處理器搭載的英特爾®️ IAA 提供的出色吞吐量壓縮和解壓縮功能,在不影響效能的前提下,提升了資料壓縮率,節約了儲存空間。PingCAP 採用英特爾®️ IAA 代替 LZ4 之後,TiDB 壓縮率為 LZ4 無失真壓縮演算法的 1.4 倍。
圖片
並結合 CPU 的迭代,效能提升可達到原配置的 1.56 倍 ,有助於客戶化解資料壓縮所帶來的效能困擾。
圖片
雖然硬體效能的提升為資料庫處理海量資料提供了基礎,但要真正發揮這些算力,需要對資料庫核心進行深度最佳化。雲和恩墨透過改進資料庫核心,使之更好地適應現代硬體,如多核 CPU、大記憶體和高速 IO 子系統,從而實現單機效能的顯著提升。

根據其透露的測試結果,在一顆至強®️ 雙路伺服器架構上,以 50G 記憶體配置,再加上一個 NVMe 的 SSD 快閃記憶體,雲和恩墨達到了 700 萬 TPCC 的指標,可以說是極大提高了單機能力。

東方國信適用於超大規模資料儲存和線上分析的大資料 BEH 平臺企業版透過整合 Gluten 與 Velox Backend 向量化執行引擎,為 Spark 注入了原生矢量化執行的能力,同時結合第四代英特爾® 至強® 可擴充套件處理器,以及處理器整合的英特爾® QAT 加速器,顯著最佳化了 Spark 批處理計算、SparkSQL 計算、SQL 查詢服務的執行效率。經測試,在相同硬體環境下,配合英特爾® QAT 的加成,Spark 計算效能可提升高達 2.9 倍。
圖片
除了硬體之外,英特爾還強化了在軟體及資料庫生態方面的投入。張曉軍還強調了英特爾在開源領域的貢獻,如 Apache 社群的 Gluten 專案,已經在很多客戶系統裡得到了廣泛應用,相比傳統的 Spark,效能可以提高 2-3 倍,如果其執行在英特爾的硬體上預計取得更優效能,顯著提升大資料處理效率。

資料庫與 AI 深度融合

隨著大資料時代的到來,資料量及系統數量都呈指數級增長,資料型別也由結構化資料逐漸演變成了非結構化資料和半結構化資料,這就對資料庫系統的穩定性和能力提出了更高的要求,資料庫技術和人工智慧技術相結合成為當前熱門的研究主題之一。

在 AI 時代,資料已成為驅動企業發展的核心要素,而資料庫作為儲存、管理和分析資料的重要基礎設施,與 AI 技術的深度融合將是大勢所趨。這種融合不僅能夠提升資料庫的效能和智慧化水平,還能夠推動 AI 技術的應用落地。

資料庫廠商在不同維度上探索和應用 AI,東方國信正在利用 AI 技術,尤其是在智慧取數方面,透過自然語言處理生成 SQL 語句,提高資料提取的靈活性和效率。同時,他們也在探索智慧建倉,嘗試透過 AI 技術自動化資料倉儲的構建和維護流程,旨在實現資料倉儲的自動化和智慧化。

查禮表示,公司正積極研發解決方案,旨在透過 AI 輔助減少人工介入,提高效率,預計透過 AI 技術的引入,數倉維護成本能降低 60%。

圖片

PingCAP 利用 AI 演算法進行資源管理,讓資料庫更適應複雜多變的業務場景。林景旭強調,透過整合 AI 技術,比如利用 AI 最佳化資料庫內部管理,提升資料庫本身的智慧水平,使其在滿足複雜業務場景的同時,降低使用門檻。這意味著資料庫不僅要有強大的資料處理能力,還需具備自我管理和最佳化的能力,確保在面對日益複雜的業務需求時,能更加自主、高效地執行。

雲和恩墨則推動自身 “AI for DB” 和 “DB for AI” 的雙向促進,楊廷琨指出,雲和恩墨利用 AI 提升資料庫效能,尤其是在資料庫智慧資源管理、智慧監控、智慧根因追蹤、智慧引數調優、SQL 智慧最佳化以及自動駕駛等方面的應用潛能。

結語

現代資料庫人工智慧的結合不僅對處理能力、架構靈活性和使用者體驗提出了更高要求,也為資料庫產業帶來了前所未有的發展機遇。

隨著技術的不斷進步和生態合作的深化,未來資料庫將更加智慧、靈活和強大,為數字經濟的發展提供堅實的基礎。英特爾資料庫領域的合作伙伴將一起共同推動資料庫產業向智慧化、高效化轉型,滿足客戶的業務創新需求。

相關文章