7月5日,以“開源生態築基礎,數字經濟鑄未來”為主題的2024全球數字經濟大會在北京成功舉辦,來自全國各地的專家學者、企業代表、資料庫行業從業人士及眾多開源開發者,共聚一堂,共同探討開源資料庫技術的發展現狀與未來趨勢,助力構建開放、共贏的資料庫生態體系,為開源生態的繁榮發展添磚加瓦。
在會上,白鯨開源CEO 郭煒於「開放原子開源資料庫生態論壇」上發分享了題為 《大模型時代下DataOps驅動企業數智化升級》 的演講,並在「開源與閉源,在行業應用中的發展潛能」的圓桌對話中分享了自己的開源心得體會與經驗。
他表示,資料雖然豐富但高質量、互通的資料卻稀缺,這一狀況在大模型時代愈發突出。全球範圍內,資料庫和大模型進入井噴時代,DataOps可以解決百模x萬庫互聯問題。他探討了DataOps的全球趨勢,並以SeaTunnel和DolphinSchedule為例,詳細介紹了中國的開源DataOps專案如何在全球範圍內快速增長,分析DataOps如何驅動企業數智化升級。最後,他結合中信建投的案例,分享了當前數智化升級中存在的挑戰,以及透過實時DataOps專案所獲得的收益。
DataOps全球趨勢
6月21日,OpenAI收購搜尋和資料庫分析初創公司Rockset,完成交易後,後者估值數億美元,成為OpenAI最大的收購之一。我們從中可以看到,隨著資料消費和AI資料消費的增長,企業面臨著資料供給的挑戰。這世界不缺乏資料,而是缺乏高質量、相互打通的資料。
在多雲環境下,資料來源和引擎的複雜性日益增加,這要求企業採用更為簡單、高效、準確的資料供給方式。當資料庫和大模型進入井噴時代,DataOps應運而生,旨在解決資料整合和資料質量的問題。
中國的開源DataOps專案
中國在開源DataOps專案方面取得了顯著成就。以Apache SeaTunnel為例,這是一個新一代開源實時多源資料整合工具,支援上百種源資料庫和目標資料庫的資料同步與整合。SeaTunnel的效能在多個方面超越了現有解決方案,如批次資料全量、增量整合以及實時資料整合等。
Apache DolphinScheduler是一個開源大資料工作流排程平臺,可以說是“大資料的作業系統”,它解決了大資料工作流排程的痛點,如多個任務單元、存在時間順序、存在依賴關係等問題,滿足了企業級場景面臨的執行頻率高、資料量任務量大,以及對雲原生的要求。
Apache SeaTunnel和Apache DolphinScheduler已廣泛應用於金融、網際網路、通訊、電商等行業,全球擁有6000+企業使用者。
金融行業DataOps驅動企業數智化升級案例
金融行業是DataOps應用的典型領域。例如,某證券公司透過使用白鯨開源DataOps平臺WhaleStudio,實現了資料一體化編輯、資料整合、資料管控等功能,大幅提高了資料研發效率。此外,透過DataOps平臺,該公司在反洗錢、實時盈虧計算、監管報送等核心應用中實現了自動化和實時性,有效提升了業務流程的效率和準確性。
根據全球最佳實踐釋出WhaleStudio結合了開源版Apache DolphinScheduler的所有功能,並增加了獨有的商業功能+信創適配/創新,幫助企業解決內部多資料來源、多資料系統複雜的資料整合,持續開發、持續部署、資料捕獲、資料打通等一些列問題,在金融安全和合規性上有充分的保證,已經被多個頭部券商、保險、銀行、海外網際網路客戶使用。
正如白鯨開源的Slogan——我們不生產/儲存資料,我們是大模型時代下的中石化,DataOps作為企業數智化升級的重要驅動力,正幫助企業應對資料供給的挑戰,提高資料處理的效率和準確性,透過開源專案和商業解決方案的結合,WhaleStudio為企業提供了一條通往智慧化、自動化資料處理的清晰路徑。