從資料到洞察:DataOps加速AI模型開發的秘密實踐大公開!

海豚调度發表於2024-07-08

作者 | 代立冬,白鯨開源科技聯合創始人&CTO

引言

在AI驅動的商業世界中,DataOps作為連線資料與洞察的橋樑,正迅速成為企業資料戰略的核心。

在WOT全球技術創新大會2024·北京站白鯨開源聯合創始人&CTO 代立冬 在「大資料技術與基礎設施」專場深入分析DataOps的核心理念、AI大模型開發流程,並透過白鯨開源科技的實踐案例,展望了DataOps的未來。

DataOps核心理念

DataOps是一種新興的資料管理和開發方法論,旨在透過自動化和協作,提高資料管道的效率和質量。

DataOps 在大模型開發中的作用

大模型訓練關鍵要素:

  • 資料集:大量、多樣化、高質量的資料是訓練和微調大模型的基礎
  • 模型架構:包括網路層數、隱藏層的大小、引數的型別等
  • 算力:大模型訓練需要極其強大計算資源,包括高效能的GPU,如 A100 等

DataOps與AI模型開發的融合,將加速AI模型的開發週期,提升模型的準確性和效率。

大模型訓練流程

大模型訓練是一個多階段過程,涉及資料工程、演算法工程和運維。

資料工程階段包括:

  • 資料來源:確定資料起點,包括雲、SaaS、本地等混合資料來源。
  • 資料準備與資料流管理:涉及資料抽取、轉換、載入(ETL)和資料質量管理。
  • 大模型訓練:利用高質量資料訓練模型,包括模型評估與測試。
  • 資料質量管理:包括資料版本管理、資料質量管控、資料影響分析

演算法工程階段包括大模型訓練、模型評估預測試,其中,經過預訓練、指令微調、增強學習的步驟,並完成效能評估、模型驗證和模型最佳化,訓練編排的pipeline才算完成,最終將訓練完成的模型應用於實際業務場景。

企業面臨的資料挑戰

企業在新技術環境下,面臨資料來源多樣化、資料處理流程複雜化等挑戰,具體包括:

  • 企業內擁有多組 “資料平臺”,資料資源和流程分散在各部門,難以掌控;
  • 企業大資料開發處於“野蠻生長狀態”,整體研發管理距離應用開發DevOps流程相差甚遠;
  • 大資料、流資料、AI資料加工缺乏工具管控形成了企業新的“蜘蛛網”;
  • 多種新興資料引擎、雲原生、新資料架構的變化缺乏管控,資料血緣、同步、排程與資料發展嚴重落後。

新技術環境下EtLT架構出現

雲、SaaS、本地混合資料來源讓傳統的資料處理流程從ETL、ELT變為能更加快速滿足業務需求的EtLT架構,EtLT能更加敏捷地應對離線/實時資料湖、資料倉儲、AI模型訓練當中的複雜多變的資料需求場景,從而解決以上企業面臨的諸多資料挑戰。

白鯨開源是一家開源原生的DataOps商業公司,由多個Apache Member成立,80%員工都是Apache Committer,主導2個 Apache頂級開源專案(Apache DolphinScheduler, Apache SeaTunnel),同時根據全球最佳實踐釋出商業版本 --WhaleStudio,幫助企業在大資料和AI時代智慧化地完成多資料來源、多雲及信創環境的資料整合,資料開發、工作流編排運維及部署、資料質量管控、團隊敏捷協作等一系列問題,已在 6000多家企業中得到實踐和使用。

DataOps關鍵實踐之任務排程平臺

  • Apache DolphinScheduler:雲原生排程引擎

作為雲原生的排程引擎,DolphinScheduler支援大資料工作流,解決企業級場景中的多個任務單元、高執行頻率、資料量大等痛點。

DataOps關鍵實踐之資料整合工具

  • Apache SeaTunnel:新一代實時多源資料同步工具

在資料整合領域,企業面臨的技術和業務挑戰同樣嚴峻:

  • 資料來源多達幾百種,版本間不相容,而且不斷有新的出現;
  • 資料丟失與重複,無法一致性
  • 出現問題無法回滾或者斷點繼續執行
  • 同步過程不透明,缺少監控
  • 頻繁讀取 binlog 對資料來源端影響大
  • 大事務、Schema 變更影響下游
  • 低吞吐高時延導致資料無法及時到達
  • 離線同步和實時同步常被分開管理,維護困難
  • 資料割接人工進行

Apache SeaTunnel是新一代實時多源資料同步工具,支援130+種資料來源,提供批次和實時資料整合。可以有效地解決以上企業面臨的困境。

  • Apache SeaTunnel特點

同時,為了實現更高效的資料整合,Apache SeaTunnel社群還“重複造輪子”,自研了專門為資料引擎而設計的SeaTunnel Zeta Engine。

與Spark、Flink等流行引擎相比,Apache SeaTunnel在資料同步上的優勢顯而易見:

  • 典型案例

同樣地,Apache SeaTunnel以其強大的資料同步和整合效能在數千家企業的大資料處理中作為重要的一環,發揮著不可替代的作用。典型的使用者包括美國醉的商業銀行摩根大通銀行和嗶哩嗶哩,兩者分別利用Apache SeaTunnel高效解決了跨雲資料準備和異構資料實時資料同步的巨大挑戰。

白鯨開源DataOps實踐

白鯨開源科技是DataOps領域的領先實踐者,提供開源解決方案和商業產品,為企業資料打造全流程DataOps閉環。

穩定高效的企業級dDataOps平臺——WhaleStudio

WhaleStudio基於Apache DolphinScheduler和Apache SeaTunnel,是一個分散式、雲原生並帶有強大視覺化介面的 DataOps系統,增加了商業客戶所需的企業級特性:

  • 完全自主研發,上下游生態圈廣闊,支援 160+ 種資料來源
  • 全面支援雲原生—雲、倉、湖 實時/離線批流一體化任務管控
  • 低程式碼實現企業大資料的作業系統和高速公路
  • 完善的DataOps流程可無縫整合程式碼工具
  • 豐富的資料來源對接和傳統ETL資料元件支援
  • 一站式完成從開發-》測試-》上線-》的運維閉環


WhaleStudio技術架構

工作流編排能力

WhaleStudio具有強大的工作流編排能力:

  1. 支援各類計算任務元件:Amazon DMS、Azure Datafactory,Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等
  2. 支援各類雲資料庫和計算架構,支援 K8S、MLDB。
  3. 平臺採用外掛式設計,支援自由擴充套件資料來源支援。
  4. 視覺化的資料來源管理,資料來源統一集中管理,一次配置,到處使用,大大減少配置修改帶來的工作量。
  • 支援160種資料來源介面,多種資料整合方式

支援160+種資料來源

WhaleTunnel支援160+種資料來源,例如MySQL,SAP Hana,Oracle,DB2,SQLServer,Gbase,Kafka,ClickHouse,RedShift、達夢等。平臺採用外掛式設計,支援自由擴充套件資料來源。

  • 支援多種資料同步方式:

    • 批次資料全量、增量整合
    • 實時資料整合
    • 批次無主鍵增量整合等
  • 支援商業資料庫實時CDC

  • Mysql
  • PostGreSQL
  • SQLServer
  • Oracle
  • DB2
  • AWS Aurora
  • 翰高
  • StarRocks
  • 達夢
  • 人大金倉
  • PolarDB

實時資料同步支援DDL變更觸發暫停、報警以及延遲告警

實時資料處理支援多種實時資料監測處理:

  • DDL變更暫停
  • DDL變更告警
  • DDL暫停加表
  • DDL手工處理

支援多種方式控制&監測速率:

  • 資料採集速率控制
  • 併發控制
  • 資料延遲告警
  • 資料全量完成告警
  • 資料CDC增量啟動告警

資料開發能力-線上IDE&整合,實現DataOps

資料質量把控–資料工作流血緣關係

  • 全域性跨工作流的任務和及例項間的依賴關係
  • 結合任務與表定義,實現表及血緣分析以及任務操作
  • 支援例項級別的依賴鏈路展示
  • 支援全域性檢視進行停止、暫停、重跑、依賴鏈重跑等操作

智慧基線–提前預知任務延遲從而提前採取行動

配置智慧基線幫助“智慧”告警:
✅定義核心任務基線,多一雙“智慧”的眼鏡
✅根據任務的執行歷史只能推算時長
✅設定安全預警時間,智慧告警

多種運維管理手段幫助運維人員快速處理故障

任務上線之後,面對各種突發情況,有多種手段來確保在任務發生異常時可以協助運維人員快速處理異常。


實踐案例分析

中信建投DataOps佈局

在經過對比調研後,中信建投採用了WhaleStudio平臺來解決當時在誰開發中存在的挑戰。

透過WhaleStudio平臺,中信建投實現了資料一體化編輯、上線和管控,極大提升了資料研發效率。



  • 工作流編排:定義超過3000個工作流,上線任務數量接近16000個。
  • 核心應用:應用於反洗錢、實時盈虧計算、監管報送、資料精算等核心業務。
  • 效率提升:日均執行工作流例項超過5000個,日均任務執行數量超過20000個。

目前公司各業務線資料處理任務還在持續上線DataOps平臺,整個平臺規模還在持續增長中。

DataOps未來

DataOps的未來將由AI技術進一步推動,實現更智慧化的資料處理、資料安全保護和跨平臺/雲資料治理。

大模型在資料處理流程中可以扮演多種角色,提高整個資料處理流程的效率和智慧化水平。大模型將應用於以下方面:

智慧排程策略

資料處理涉及複雜的任務排程,大模型可以分析歷史作業執行情況、資源使用狀況,從而預測未來的工作流需求,智慧地排程任務和分配資源。減少延遲,提高整體處理速度,並最佳化資源利用率。

資料質量檢測與清洗

在資料同步過程中,大模型可以輔助自動檢測資料質量問題,比如識別異常值、缺失資料或不一致性。透過機器學習演算法,模型可以學習資料特徵,自動清洗和修正資料,確保資料同步後的質量。

智慧資料分類與標籤

對於需要分類或標籤化的資料,大模型可以自動分析資料內容,對其進行分類或附加有意義的標籤,特別是在多模態資料處理場景下,這對於後續的資料分析和應用至關重要。

自適應資料同步策略

根據網路狀況、資料變化頻率和業務需求,大模型可以幫助動態調整資料同步策略,比如選擇最合適的同步頻率、確定優先順序高的資料流,以最佳化同步效率和減少頻寬消耗。

自動化異常處理

在資料傳輸或處理過程中遇到異常時,大模型可以基於歷史資料和模式識別,自動識別異常原因並觸發相應的處理機制,減少人工干預,提高處理效率。

結語

DataOps不僅是一種技術實踐,更是一種文化和思維方式。隨著AI技術的不斷進步,DataOps將繼續推動企業資料管理和AI模型開發的創新和發展。

相關資源

白鯨開源官網:https://www.whaleops.com
Apache Dolphin Scheduler官網:https://dolphinscheduler.apache.org
Apache SeaTunnel官網:https://seatunnel.apache.org

作者介紹

代立冬

  • 白鯨開源科技聯合創始人
  • Apache 孵化器導師
  • Apache DolphinScheduler PMC Chair
  • Apache SeaTunnel PMC
  • ApacheCon 亞洲大資料湖倉論壇出品人
  • 中國科協 “2023開源創新榜” 優秀人物

相關文章