本文由白鯨開源CEO郭煒撰寫並投遞參與“資料猿年度金猿策劃活動——2024大資料產業年度趨勢人物榜單及獎項”評選。
去年是大模型蓬勃興起的一年,熱度席捲全球,彷彿AI已經可以解決一切問題。今年隨著熱潮退去,大模型開始進入深水區,試圖深入改造各行各業的底層邏輯。而在大資料處理領域,大模型與傳統ETL的碰撞更是點燃了新的討論:大模型演算法中有“Transformer”,而ETL中有“Transform”,二者看似名字相近,卻代表了完全不同的世界。有聲音斷言:“未來,ETL會被徹底取代,因為大模型可以處理所有資料!”這是否意味著數十年來支撐資料處理的ETL將走向終結?還是說,這是一個被誤解的預言?衝突的背後,隱藏著關於技術未來的深層思考。
大資料處理(ETL)會消失麼
隨著大模型的快速發展,許多人開始設想未來是否不再需要傳統的大資料處理方式,甚至懷疑ETL的存在價值。大模型能夠從海量資料中自主學習規則、挖掘模式,其強大能力令人歎為觀止。然而,我的答案是:大資料處理(ETL)不會消失。到目前為止,大模型還是無法解決的一些有關資料核心問題:
效率問題
儘管大模型在特定任務上展現出了卓越效能,但其計算成本仍然高昂。一個大規模Transformer模型的訓練可能需要數週時間,並消耗巨大的能源和資金資源。相比之下,ETL基於明確的規則和邏輯進行資料處理,操作高效、資源佔用低,尤其在結構化資料的處理上具有顯著優勢。
在企業日常的資料處理中,大多數任務仍是以規則為導向的高效操作,例如:
- 資料清洗:透過明確的正規表示式或規則去除異常資料。
- 格式轉換:以標準化格式儲存,便於系統間傳遞和整合。
- 彙總統計:按天、周或月對資料進行歸類、聚合、計算。
這些工作完全可以透過ETL工具快速完成,無需依賴大模型複雜的推理能力。
自然語言的二義性問題
大模型在自然語言處理(NLP)領域大放異彩,但也暴露出其難以解決的根本問題——自然語言的二義性和模糊性。例如:
-
使用者輸入一個問題時,模型可能根據上下文得出不同的解讀,無法保證結果的確定性。
-
資料質量差異可能導致模型推理結果偏離真實需求。
相比之下,ETL流程是“確定性”的資料處理方式,基於預先定義的規則執行,輸出結果可預測且符合標準。尤其是在金融、醫療等高要求的領域,ETL的可靠性和確定性是關鍵優勢。
對結構化資料的強適應性
大模型擅長從非結構化資料(如文字、影像、影片)中挖掘資訊,但面對結構化資料的特定任務時,往往效率低下。例如:
-
在大規模關聯式資料庫中,傳統ETL可以快速提取資料表,完成JOIN、GROUP BY等複雜操作。
-
大模型則需要將資料轉換為特定格式才能參與處理,增加了冗餘環節和時間成本。
因此,在資料主要以表格或JSON等結構化格式存在的場景下,ETL仍是最佳選擇。
可解釋性與監管合規問題
大模型往往被稱為“黑箱”,即使資料處理完成後,其具體工作機制和決策過程難以解釋:
-
結果不可解釋:對於監管要求較高的領域(如金融、醫療、保險),大模型的預測結果可能因無法解釋而無法採納。
-
難以滿足合規性: 許多行業需要對資料流和處理邏輯進行全面審計,而大模型的資料流複雜性和決策機制使審計難度大幅增加。
傳統ETL流程則具備高度透明性,所有資料處理步驟都可以被明確記錄並審計,符合企業和行業的合規需求。
資料質量與輸入標準化問題
大模型對資料質量極為敏感,任何噪聲、異常或非標準化的輸入都會顯著影響模型效能:
-
資料噪聲:大模型無法自動辨別資料中的錯誤或異常值,可能將錯誤的資料作為“學習素材”,導致預測結果出現偏差。
-
缺乏標準化:輸入資料未經過清洗或轉換,直接“喂”給大模型可能導致維度不一致、缺失值等問題,這需要ETL等傳統工具提前處理。
相比之下,ETL工具可以在資料進入大模型前完成清洗、去重和標準化,確保資料的高質量。
儘管大模型在許多工中表現卓越,但其計算複雜性、對資料質量的依賴、對硬體的高要求以及應用中的實際侷限,決定了它無法完全取代ETL。ETL作為一種確定性、高效且可解釋的工具,仍將在未來與大模型共同發揮作用,為資料處理提供雙重保障。
CPU vs GPU 的趨勢就是 ETL vs 大模型的趨勢
ETL無法取代,但不可否認,大模型在資料處理領域的興起是歷史的必然。在過去的幾十年裡,電腦和伺服器都是以CPU為中心,其它叫做外設,也就是CPU才是資料處理的中心,GPU的顯示卡只是用於玩遊戲,而現在變為CPU+GPU(NPU)為中心進行資料處理了。而現在大模型火爆的程度,看看Intel和NVIDIA的股價趨勢就知道了,為什麼會發生這麼大的轉變呢?
計算架構的轉變:從單一計算中心到多中心計算
過去數十年間,資料處理的架構經歷了從“CPU為中心”到“CPU+GPU(甚至NPU)協同”的演進。這一趨勢不僅反映了計算硬體的效能需求變化,也深刻影響了資料處理的邏輯與工具選擇。
在“CPU為中心”的時代,CPU是計算系統的絕對核心,其它元件(如硬碟、顯示卡、記憶體)只是輔助外設。這一架構支撐了早期大資料的ETL流程:抽取、轉換、載入(Extract, Transform, Load)的計算模式幾乎完全依賴CPU處理複雜的邏輯操作。典型的應用包括資料清洗、格式轉換、彙總與整合,其特點是高度依賴順序計算和可預測的流程。
然而,隨著大資料複雜度(音訊、影片、文字)和儲存的指數級增長,單靠CPU的算力已無法滿足需求。GPU的出現,尤其是深度學習崛起後,其並行處理能力和高效浮點計算能力,使其成為大規模資料處理的另一極。如今,NVIDIA的顯示卡不再只是“遊戲裝置”,而是企業和科研計算的核心硬體。觀察Intel與NVIDIA過去十年的股價趨勢,也足以體現CPU與GPU在行業地位上的此消彼長。
從傳統ETL到大模型:資料處理正規化的演進
傳統ETL流程的設計,符合“CPU中心化”的計算模式,注重嚴謹的業務邏輯處理和高效的儲存訪問最佳化。CPU擅長處理複雜但較小規模的任務,例如:
- 資料清洗與驗證:檢查和修復缺失或錯誤資料。
- 格式轉換:將多種資料格式統一為規範格式。
- 資料聚合:對分散的資料來源進行統計和彙總。
在這一過程中,CPU的指令集設計和多核並行能力被最大化利用,滿足了大資料應用中“高吞吐量”的需求。
相比之下,大模型的資料處理需求完全不同。深度學習模型的訓練涉及高維矩陣運算和大規模的引數最佳化,GPU憑藉其成百上千的平行計算單元,在這一領域大放異彩:
- 資料預處理:GPU能在訓練時實時對輸入資料進行歸一化和分片處理。
- 模型訓練:浮點運算需求高,訓練大型Transformer模型需要GPU的強大算力。
- 推理服務:GPU透過批處理最佳化線上推理的延遲和吞吐量。
這一趨勢不只是技術的遷移,也是資料處理正規化的演進: 從注重“邏輯計算”到追求“類人腦計算”,從結構化資料的處理到非結構化文章、PDF、音影片的處理。
資料處理的核心和外延也從“計算+資料處理”變為了“計算+推理+知識提取”, 大模型的出現,資料處理也可以處理知識了。
大模型資料也需要新一代的ETL架構
另一外面,現在大模型資料處理還有很多痛點問題無法解決,也需要用更高階的方式來解決。
儘管大模型在許多領域表現出強大的能力,但其背後的資料處理卻面臨諸多複雜且尚未完全解決的挑戰。這些痛點不僅限制了大模型的效果發揮,也迫使企業重新思考資料處理的架構設計。
資料處理環節複雜且冗長
缺乏有效的資料處理機制,讓大模型對語料資料的依賴使得資料處理成為一個高度複雜的技術體系,包含多個環節:
- 語料歸集:企業需要整合分散在各個部門的語料資源,包括人、財、物等領域的資料。這一過程往往受到資料孤島和許可權限制的困擾。
- 資料清洗:去重、編碼處理、拼寫糾正等操作是語料質量的基礎,但面對海量資料時,現有的工具和演算法效率不足,難以快速完成。
- 資料預處理:包括分詞、詞形還原、詞幹提取等,這些任務需要高度定製化的工具鏈,而不同語種或領域的差異加劇了複雜性。
- 資料增強:同義詞替換、回譯、噪聲注入等增強技術需要針對模型目標進行調整,過度增強或不適合的增強方式可能對模型訓練產生反效果。
- 資料標註與準備:標註質量直接影響模型的表現,但標註工作量巨大且昂貴,自動化標註技術的精度仍待提升。
大模型缺乏有效的資料處理工具
缺乏有效的資料處理工具,這使得大模型資料處理的效率和一致性大打折扣:
-
重複勞動嚴重,效率低下 在不同團隊進行大模型資料處理時,語料歸集、清洗、預處理、增強、標註等環節需要從頭手工搭建。由於沒有統一的模板化工具,每個團隊往往需要重新設計流程,導致大量重複勞動,嚴重浪費時間和資源。
-
處理流程割裂,難以複用 資料處理流程缺乏模組化設計,導致各團隊自行開發的流程無法標準化或複用。例如,一個團隊開發的文字分詞或語料增強方案無法輕鬆共享給其他團隊使用,造成了資源的浪費和協作效率的低下。
-
缺乏靈活擴充套件性,難以應對多樣化需求 沒有外掛化的架構,各團隊在面對特定場景(如行業特定的語料處理或RAG最佳化)時,需要自行研發和調整演算法。這種“從零開始”的方式不僅耗時長,還難以快速響應業務變化的需求。
-
AI資源分散,專家支援不足 當前企業內部的AI專家資源往往是分散的,各團隊獨立探索大模型應用時,演算法調優問題(如幻象現象和RAG最佳化)只能依賴本地團隊解決,缺乏系統性的集中支援。這種低效的資源利用模式,導致了問題解決週期長,影響了大模型應用的整體成效。
-
資料處理質量不一致,缺乏標準化工具意味著不同團隊可能使用不同的方法處理資料,導致資料質量參差不齊,最終影響大模型訓練和推理的效果。這種不一致性不僅增加了維護難度,還可能導致業務決策的誤差。
-
高昂的開發和維護成本, 在沒有統一工具的情況下,各團隊需要花費大量資源進行流程開發、最佳化和維護,而這些投入很難在企業層面實現規模效益。例如,每個團隊都需要獨立處理分詞規則、增強演算法、提示詞最佳化等,造成了技術資源的浪費。
缺乏有效的的工具,企業在大模型資料處理中陷入了高成本、低效率和資源分散的困局。如果不能解決這些痛點,大模型的實際應用能力將難以釋放,企業也難以在AI驅動的競爭中佔據先機。這一現狀迫切需要透過新一代標準化工具來解決,為大模型資料處理提供更高效、更靈活、更統一的支援。
資料處理的終極趨勢:大模型Transformer X 大資料Transform
隨著技術的不斷進步,大模型與傳統ETL逐漸走向融合。在未來的資料處理中,新一代的ETL架構會要融合大模型的智慧與ETL的高效,變為萬物皆可處理的大模型大資料框架:
硬體:資料處理單元的融合
資料處理的基礎單元正從單一的CPU主導,轉向CPU與GPU的分工協作:
- CPU擅長基礎任務:完成初步的資料清洗、整合與簡單規則處理,如對結構化資料的抽取、轉換、載入。
- GPU驅動深度分析:利用強大的平行計算能力,在預處理後的資料上,進行大模型訓練與推理任務。
這種融合趨勢不僅體現在技術層面,還反映在產業動向中:Intel佈局AI加速卡,推動CPU+AI協作;NVIDIA嘗試進軍資料處理領域,將GPU的應用擴充套件至傳統ETL場景。CPU與GPU的協同,將為下一代資料處理提供更高的效率與智慧支援。
軟體:資料處理架構的融合
隨著ETL與大模型功能的深度結合,資料處理架構正在演變為一個多功能的協同平臺:ETL作為大模型的資料準備工具。
大模型在訓練前需要高質量的輸入資料,而ETL可以完成資料的初步處理,為大模型提供最佳的訓練條件:
- 去噪與清洗:剔除噪聲資料,提高資料集的質量。
- 格式化與標準化:將多種資料來源格式統一為適配大模型的輸入格式。
- 資料增強:透過規則化增強和預處理,擴充資料規模,豐富模型學習的多樣性。
架構:AI增強型ETL架構的出現
未來的ETL工具將嵌入AI能力,實現更加智慧化的資料處理:
- Embedding能力:ETL工具將整合Embedding生成模組,為資料的向量化處理提供支援。支援對文字、影像、音訊等非結構化資料生成高維向量表示;利用預訓練模型生成語義嵌入,用於下游的大模型訓練和語義檢索任務;在ETL流程中直接完成Embedding計算,減少對外部推理服務的依賴。
- LLM知識提取能力:結合大語言模型(LLM)的知識抽取功能,ETL工具可以高效處理非結構化資料,例如,從文件、網頁、對話中提取結構化資訊,如實體關係、事件資訊;利用LLM生成複雜資料欄位的補全和推斷,例如生成缺失資料值或預測未來趨勢;在資料整合環節,基於LLM實現多語種資料的翻譯和語義對齊。
- 非結構化資料識別與關鍵幀提取能力:AI增強型ETL將原生支援處理影片、影像和音訊等非結構化資料。自動識別影片內容中的關鍵幀,用於資料標註或訓練集生成;從影像中提取特徵資訊,如物件檢測、OCR識別等;音訊處理支援語音轉文字、情感分析等,生成適合大模型訓練的輸入資料。
- 動態清洗規則:AI增強型ETL可以根據資料的上下文動態調整清洗與增強策略,確保處理的高效性和適用性。實時檢測資料異常並生成適配的清洗規則,例如自動糾正偏差或補全缺失值;針對不同場景(如金融、醫療、營銷)最佳化清洗策略,使資料更加符合領域特性;利用AI分析歷史資料,預測潛在問題並提前最佳化處理流程。
- 資料自動增強與生成:透過AI模型嵌入,ETL工具能夠動態實現資料增強。基於原始資料生成更多樣本,例如同義詞替換、資料回譯、對抗樣本生成等;為小樣本場景提供自動資料擴充能力,滿足模型訓練需求;跨語言、跨領域的資料生成,支援更廣泛的應用場景。
AI增強型ETL不僅是傳統ETL的升級,更是資料智慧化的一次深刻變革。透過Embedding、LLM能力、非結構化資料處理和動態規則生成等功能,這類工具將從根本上提升資料處理的效率、靈活性和智慧水平,成為未來企業資料架構的重要組成部分。
舉例:新一代AI增強型ETL架構——Apache SeaTunnel
以開源的Apache SeaTunnel為例,這一開源專案正在打破傳統ETL模式的侷限,透過支援多種新型資料格式和處理能力,展現了資料處理未來的藍圖:
- 原生支援非結構化資料:SeaTunnel的引擎層面直接支援處理文字、影片、語音等非結構化資料,為大模型訓練提供了多樣化資料來源。
- 向量化資料支援:支援向量資料結構,使得資料可以直接適配深度學習和大模型推理需求。
- 嵌入大模型功能:SeaTunnel v2.3.8已經支援Embedding生成和LLM(大語言模型)的Transform功能,打通了從傳統ETL到AI推理的完整鏈路。
- “Any 2 Any”能力:SeaTunnel的願景是實現任意資料到任意目標格式的轉換。例如,將資料庫、binlog、PDF、SaaS、文章、影片或語音轉化為向量化資料,併傳送到任何儲存或分析平臺。
SeaTunnel的案例表明,現代資料處理已經不再是單一的ETL或大模型的任務,而是一種AI+BigData全棧化的協同體系,類似的工具將成為企業AI和資料處理戰略的核心。
總結
大模型Transformer和大資料Transform並不是對抗關係。未來的資料處理格局是 “ETL+大模型”的深度融合:
-
資料處理單元將由CPU和GPU協作完成,充分發揮二者的優勢,處理結構化和非結構化資料。
-
資料處理架構將實現動態進化,ETL在作為基礎資料管道的同時,將嵌入AI能力,支援Embedding生成、LLM知識提取和智慧決策。
-
以新一代的開源工具如Apache SeaTunnel為代表的新一代AI增強型ETL架構,已經展示了這一融合趨勢的雛形,為企業打造“Any 2 Any”資料轉換能力,打破傳統ETL的邊界。
未來大模型與ETL的協同將推動資料處理進入一個智慧化、標準化和開放化的新階段。我們相信,隨著技術的不斷髮展,資料處理將更加貼近企業的實際需求,成為驅動業務創新和智慧決策的核心引擎。無論是對資料工程師的角色轉型,還是對企業架構的升級,ETL與大模型的融合必將成為未來十年的關鍵趨勢,引領資料處理邁向更高效、更智慧的新時代。
- 關於郭煒:
郭煒,人稱“郭大俠”,白鯨開源CEO,Apache基金會成員, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 中國開源社群發起人和首席佈道師。
郭煒先生畢業於北京大學,現任中國通訊學會開源技術委員會委員,中國軟體行業協會智慧應用服務分會副主任委員,全球中小企業創業聯合會副會長,TGO鯤鵬會北京分會會長,ApacheCon Asia DataOps論壇主席,全球中小企業創業聯合會副會長,人民大學大資料商業分析研究中心客座研究員。
郭煒曾作為演講嘉賓出席波蘭DataOps峰會、北美Big Data Day,並被評為虎嘯十年傑出數字技術人物,中國開源社群最佳33人,金猿榜2023大資料產業年度趨勢人物,2024中國數智化轉型升級先鋒人物,並獲得2024年中國網際網路發展創新與投資大賽(開源)一等獎等獎項。
郭煒先生曾任易觀CTO,聯想研究院大資料總監,萬達電商資料部總經理,先後在中金、IBM、Teradata任大資料方重要職位,對大資料前沿研究做出卓越貢獻。同時郭先生參與多個技術社群工作,如Presto、Alluxio、Hbase等,是國內開源社群領軍人物。
本文由 白鯨開源 提供釋出支援!