心識宇宙 x TapData:如何加速落地實時數倉,助力 AI 企業智慧決策

Tapdata钛铂数据發表於2024-05-24

使用 TapData,化繁為簡,擺脫手動搭建、維護資料管道的諸多煩擾,輕量代替 OGG、DSG 等同步工具,「CDC + 流處理 + 資料整合」組合拳,加速倉內資料流轉,幫助企業將真正具有業務價值的資料作用到實處,將“實時數倉”方法論落進現實。

TapData 持續迭代產品能力,最佳化使用者體驗的同時,也在不斷探索各行各業資料需求的底層邏輯,力求為行業使用者提供更加簡潔、更具針對性的解題思路。本期內容便是我們在** AI 行業**做出的實踐以及展望。

我們早在 TapData Cloud 開放免費試用之初就接觸到了這款資料 CDC 產品,同時也在調研一些開源方案,綜合分析後,考慮到創業團隊起步階段的研發資源分配,最終決定在成熟的商業化方案中做選擇。隨著C端業務啟動,資料需求也在不斷加大,橫向對比下來,TapData 整體更加輕量、靈活,有明確的 MySQL→Clickhouse 場景支援,頁面邏輯清晰,操作簡單,支援半私有化部署,穩定性不斷最佳化的同時,在售後服務方面響應快速,價效比也更高。——心識宇宙

人工智慧時代,AI 逐漸滲透到我們生產生活的方方面面,AI 應用的“生產者”和“消費者”都越來越多。

國內外科技巨頭紛紛入局,正在以驚人的速度推動技術的發展以及智慧化程序。與此同時,大量人工智慧初創企業也在幾年時間裡加速湧現,越來越多技術創新和應用在全球範圍內生根發芽,並在各行業中推動自動化、提升效率、最佳化使用者體驗。這些企業不僅在研發和產品創新上投入大量資源,還積極探索新興市場,以保持競爭優勢。

而作為人工智慧發展的核心和基礎,資料不僅驅動演算法訓練和模型最佳化,還決定了 AI 系統的準確性和效能。高質量、豐富的資料使得人工智慧能夠識別模式、做出預測,並在複雜任務中表現出色。資料量的增長和資料處理技術的進步,在某種程度上直接推動了人工智慧的創新和應用擴充套件。

左手是 AI 技術發展基因上對於資料的依賴,右手是企業管理、運營團隊在 AI 產品或服務最佳化升級、分析決策等問題上所需的資料參考依據。因此,隨著企業的發展,產品線的擴充,AI 行業對於資料資源的需求只增不減。

大中小型企業百舸爭流的背景下,作為國內較早一批投入 AI 市場的“領先者”之一,心識宇宙正在用資料輔助智慧運營。

一、To B + To C 雙線並進,旺盛的資料需求與數倉 CDC 環節的缺位

創立於2022年1月,座標新加坡,心識宇宙(Mindverse.ai)的定位是一家通用人工智慧(AGI)公司。創始人兼 CEO 陶芳波博士深耕 AI 領域多年,先後在美國微軟研究院、Facebook Research、NASA、阿里達摩院神經符號實驗等從事研發工作。

在意識到大模型的應用價值後,陶博士選擇獨立創業,便有了今天的心識宇宙。其願景是透過人工智慧賦能虛擬人大腦,讓虛擬人具有思維、意識和人格,成為元宇宙的原住民,陪伴、服務每一個使用者。

早在 ChatGPT 上線之前,心識宇宙就一直專注於在大模型上構造虛擬心智,並在國內外嘗試了多種業務形式。創業至今,其核心產品 mindos.com,主要能力是幫助使用者及客戶構建基於大模型的應用層,主打以下兩個產品形態:

  • ToC 線-meBot:面向註冊使用者提供 AI 助理,幫助解決生活中的一些問題,偏實用性工具,例如記筆記、規劃旅行等。同時支援基於對個人基礎資訊的瞭解,定製化私人的 AI 陪伴,將老電影《her》照進現實。

  • ToB 線-mindos studio:多與大型企業合作,為其提供基於 AI 的工作鏈路(workflow)能力,與傳統 workflow 想比,能夠更智慧化地解決問題。位元組的“Coze 釦子”就是類似的定位。

在不斷最佳化產品,與使用者共同探索更多 AI 應用場景的過程中,心識宇宙各部門都提出了更多資料聚合分析的需求,且各有側重:

  • 管理部門:關注產品增長大盤以及財務報表等關乎戰略規劃及決策分析的總覽型資料。透過這些資料,管理層能夠了解企業整體運營狀況、市場表現和財務健康,制定長遠發展策略。

  • 技術部門:關注監控運維資料,如系統水位、指標等監控資訊。這些資料幫助技術團隊實時監控系統執行狀態,及時發現和解決潛在問題,確保系統穩定高效執行。

  • 產品部門:關注 A/B test 資料,這些資料幫助產品團隊評估不同產品版本或功能模組的效果,進行資料驅動的產品最佳化和使用者體驗提升。

  • 運營部門:關注使用者行為資料,如使用者註冊量、每日新增使用者、使用者留存率等。這些資料使運營團隊能夠分析使用者需求和行為模式,最佳化使用者體驗和營銷策略,提高使用者參與度和滿意度。

針對這些需求,心識宇宙依靠數倉來進行資料整合和分析。然而,在變更資料捕獲(CDC)環節的實現上遇到了一些挑戰。作為關乎數倉專案可用性及數倉資料質量的關鍵技術,CDC 用於實時捕獲並處理資料來源中的變更。這對於確保資料的及時性和一致性至關重要,但其實現過程複雜,尤其在處理高頻率、大規模的資料變更時,技術難度和資源需求較高。

因此,心識宇宙開始尋找能夠承擔這一關鍵環節的 CDC 工具。

二、開源工具 vs 商業化工具:小團隊更需要“解放雙手”,專注更核心的業務

心識宇宙的資料特點:

① 資料需求旺盛:全體部門都重視資料的價值和資料分析的力量,涉及多個資料來源

② 覆蓋系統多樣:包括使用者行為分析、使用者量統計、成本管控等 BI 系統,A/B 實驗系統,財務系統,以及監控告警系統等

③ 資料型別不一:數倉專案完全自建,底座為 Clickhouse,資料來源為線上資料庫 MySQL,異構資料庫資料同步壓力大

開源方案的優勢和不足

為了滿足 CDC 鏈路的需求,心識宇宙最先把目光投向了以 Debezium+Kafka 為代表的眾多開源工具。在實際應用場景中,其優勢和不足都比較明顯,尤其是對於初創團隊而言:

優點

  1. 實時性:
  • 實時資料捕獲:Debezium 能夠實時捕獲資料庫中的變化,並透過Kafka將這些變化快速傳輸到消費端,使得資料在傳輸過程中保持新鮮。
  1. 高可靠性和容錯性:
  • Kafka 的高可用性:Kafka 提供了高可靠性、分散式架構和強大的資料持久化能力,確保資料在傳輸過程中的安全性和一致性。

  • 容錯機制:Debezium 結合 Kafka 的容錯機制,可以在節點故障時自動恢復,確保系統的穩定執行。

  1. 擴充套件性:
  • 橫向擴充套件:Kafka 能夠輕鬆橫向擴充套件以處理大量資料和高併發需求,適應業務的增長。

  • 多資料來源支援:Debezium 支援多種資料庫(如 MySQL、PostgreSQL、MongoDB 等),可以靈活適應不同的資料來源需求。

  1. 開源社群和生態系統:
  • 活躍的開源社群:Debezium和Kafka都有活躍的開源社群,提供豐富的資源和支援,便於開發者解決問題和獲取幫助。

  • 生態系統支援:Kafka 有廣泛的生態系統支援,可以與各種資料處理和分析工具無縫整合,擴充套件資料處理能力。

不足

  1. 複雜性:
  • 配置和管理複雜:Debezium和Kafka的部署、配置和管理相對複雜,需要專門的知識和經驗來保證系統的高效執行。

  • 運維成本高:系統的複雜性增加了運維的成本和難度,需要專業人員進行維護和最佳化。

  1. 延遲問題:
  • 潛在的延遲:雖然Debezium和Kafka能夠實現低延遲的資料捕獲和傳輸,但在高負載情況下,仍可能出現一定的延遲,影響資料的實時性。
  1. 資源消耗:
  • 高資源需求:執行Debezium和Kafka需要較高的計算和儲存資源,特別是在處理大規模資料時,對硬體資源的需求較高。
  1. 資料一致性和完整性:
  • 資料一致性挑戰:在某些極端情況下,可能會出現資料一致性問題,需要額外的機制來保證資料的一致性和完整性。

  • 初始快照問題:對於非常大的資料庫,初始資料快照的生成和傳輸可能會耗費大量時間和資源。

首先,作為業界常用的 CDC 開源方案,其在實時性、可靠性以及可擴充套件性上的表現都有保障。但考慮到小型創業團隊的屬性,二次開發及後續運維所需的人力成本都必須綜合納入評估。對於寶貴的技術資源而言,雖然資料的重要性不可否認,但終歸只是眾多基礎模組之一,與其耗時耗力將開源方案打磨到可以滿足自身業務需求的程度,不如將專業的事情交給靠譜的供應商來完成,釋放開發資源供核心產品迭代最佳化。

成熟的商業化方案如何選擇?

① 全鏈路、一站式的資料分析工具:以神策、友盟等為代表

放棄開源思路後,心識宇宙開始尋找合適的商業化方案。鑑於資料分析的終極需求,類似於神策、友盟這樣的的全鏈路資料分析工具率先被納入評估。

一方面,此類產品功能完備,集資料整合、BI、埋點等模組於一體,幾乎可以滿足資料分析相關的全部資料需求。但從另一方面來看,作為一套放之四海而皆準的通用標準產品,“全面”也不全然是優勢:

  • 大材小用:對於心識宇宙而言,資料分析主要依賴自建方案,只需要填補 CDC 這一技術環節,選擇全鏈路工具多會導致功能冗餘,往往更適用於大型、複雜的企業應用

  • 靈活性不足:功能有餘而靈活性不足,難以滿足特定需求。不同於自建方案,企業使用者無法對系統進行細粒度的控制和定製。

  • 成本高昂:許可費用一般較高,且資源消耗往往也更高,直接導致總體擁有成本增加。

除此之外,由於誕生於 PC 網際網路時代,這一類工具使用的方法論更多是滿足上一個時代需求的產物。而隨著 ChatGPT 引流新的技術風向,眾多 AI 領域的新公司出現,無論是側重模型層的企業還是類似於心識宇宙這樣的 AI 應用層企業,都更傾向於採用自建方案而非外部工具的大包大攬,過程中可能會用到一些現代化的小工具,來更靈活、更穩定地解決更小的問題。

② 現代化資料棧工具:以 TapData Cloud 為代表

以小工具解決 CDC 特定需求的小問題為目標,心識宇宙充分考慮自身規模和業務發展情況, 找到了 TapData Cloud 這樣一款以 CDC 能力為核心特性的兼具雲原生優勢的輕量資料同步工具。

技術場景:

  • 資料來源:線上資料庫 MySQL

  • 資料目標:基於 ClickHouse 的數倉

  • 靈活性優先:考慮到 AI 業務形態變數較大,該數倉專案以自建為主,未使用雲廠商提供的封裝

  • 較為完整的服務,以避免與某個特定雲繫結過深。

  • 需求:異構資料同步,利用工具搭建資料來源與目標間的增量同步鏈路。

作為一組用於資料整合、儲存、處理和分析的技術和平臺,以 Fivetran、Airbyte、TapData 等為資料整合層面代表的現代資料棧工具旨在實現高效、靈活、可擴充套件的資料管理和分析。其各司其職的組合拳邏輯,恰好與心識宇宙的需求吻合,其優勢主要體現在:

1. 高效的資料捕獲與傳輸:

  • 實時處理:現代資料棧工具支援實時資料捕獲和傳輸,確保資料變更能夠立即反映在分析系統中。

  • 高吞吐量:可以處理大規模、高頻率的資料變更,滿足企業級應用的需求。

2. 彈性與可擴充套件性:

  • 雲原生架構:藉助雲資料倉儲和雲服務的彈性擴充套件能力,企業可以根據需求動態調整資源,適應資料量和處理需求的變化。

  • 分散式處理:支援分散式計算,能夠高效地處理大量資料和併發請求。

3. 簡化的運維與管理:

  • 自動化運維:現代資料棧工具通常提供自動化管理和監控功能,降低運維複雜性和人力成本。

  • 統一介面:整合平臺通常提供統一的管理介面,簡化資料管道的配置和監控。

4. 資料質量與一致性:

  • 資料治理:現代資料棧工具內建資料質量監控和治理功能,確保資料的一致性和準確性。

  • 容錯機制:具有強大的容錯和恢復機制,能夠應對資料傳輸過程中的故障和異常情況。

5. 靈活的整合與擴充套件:

  • 多源資料支援:能夠輕鬆整合來自不同資料來源的資料,包括傳統資料庫、流資料和第三方 API。

綜合上述因素,心識宇宙最終選定配備中文支援團隊的 TapData Cloud 作為與其需求恰好匹配的資料基礎工具。

三、TapData Cloud + ClickHouse:保障數倉資料質量的關鍵一環

經過一年多的使用,以 TapData Cloud 為資料 CDC 元件的數倉方案在心識宇宙的資料分析專案實踐中得到了充分的可行性驗證。

如上圖所示,源系統資料包括:

系統監控資料:系統水位、指標等時序資料

使用者行為資料:使用者註冊量,每日新增及留存使用者數、使用者頁面行為(如操作鏈路、按鈕點選等)等

財務系統資料:包括訂閱的一些第三方服務等 IT 常態消耗量,一些定量服務的採買和使用情況等管理層關注的成本分析資訊

……

上述資料以及一些線上資料庫的映象,都會經由 TapData CDC 同步、傳輸並儲存到數倉的 ClickHouse 中。值得一提的是,針對其中的使用者相關資料的脫敏需求,TapData 提供了相應欄位的過濾屏功能,支援遮蔽或用自定義方式替換敏感資料,保障使用者資訊保安。

*關於心識宇宙的脫敏說明:

內部資料如系統監控資訊無需脫敏處理,可以直接進行全增量同步。然而,對於使用者資料,必須遵循 GDPR 和 USDP 等使用者隱私標準。因此,需要從全量資料中剔除屬於使用者隱私的部分。這一過程利用了 TapData 的欄位過濾功能,幫助理解並排除敏感資料,以確保資料處理的合規性和隱私保護。

下一步,繼續借助 TapData 的 CDC 能力,經過數倉統一整合的資料,將流向下游的使用者行為分析、A/B 測試系統等 BI 系統,形成報表供內部分析與決策參考使用。

其中,A/B Test 作為傳統高使用者增長的 C 端產品的常用分析最佳化手段,在 AI 行業同樣適用,特別是對於心識宇宙這樣專注大模型上應用層的企業,這也是其打磨產品的關鍵思路。

基於大量的經脫敏的使用者資料分析,從中獲取有價值的使用者行為洞察和反饋,幫助最佳化演算法模型、提升產品效能、調整產品功能、改善使用者體驗,並推動創新和業務增長。這種資料驅動的決策方式,使得AI產品能夠不斷迭代和改進,更好地滿足使用者需求和市場變化。資料整合即資料分析的重要性由此可見一斑。

體驗反饋

1.明確的 MySQL → ClickHouse 異構 CDC 方案支援

調研之初,心識宇宙發現,業界能提供從 MySQL 到 ClickHouse 同步能力的供應商本身就不多,更多是同類資料體系之間的同步,甚至包括很多開源方案也是如此。而 TapData 內建 100+ 資料聯結器,明確支援二者間的全增量同步,且提供 Demo 演示。

  1. 學習曲線簡單,輕量易上手

作為直接使用者,心識宇宙的技術運維人員反饋稱 TapData Cloud 主打頁面邏輯清晰簡潔,包括一個支援log資訊查詢的監控模組,同樣是極簡但足夠適用。無論是安裝部署還是任務執行都以一鍵式操作為主,上手簡單。完全滿足內部在資料層面的需求。

  1. 靈活可擴充套件

隨著需求變化,TapData 可以靈活擴充套件,適應企業的不同階段和規模。剛開始接觸並試用 TapData 時,心識宇宙的 ToC 業務尚未正式開啟,更多在經營國內的大 B 生意,因此對資料的要求並不是很高,TapData 提供的永久免費計劃已經可以覆蓋住這一部分需求。直到 ToC 業務開始增長,資料需求量隨之上升,TapData Cloud 上的任務數也從最初的兩條,發展到目前的16條。

  1. 支援半私有化部署

考慮大奧 AI 行業在資料安全性上更高的要求,TapData Cloud 支援心識宇宙自主提供裝置來部署和運維 Agent,為其執行提供計算/儲存資源,可充分利用現有硬體資源,獲得更低的價格的同時,進一步提升安全性。

  1. 配套的售後服務與團隊支援

作為一套純國產自研的資料同步產品,TapData Cloud 對於中國背景的團隊更加友好,溝通更方便的同時,TapData 還提供專業的售後服務,能夠及時解決使用中遇到的問題,並幫助使用者快速體驗產品穩定性和功能上的最佳化升級。

  1. 更高的成本效益

在支援一定規模的免費試用之餘,TapData Cloud 提供價效比更高的定價模式。不同於花費較高的按鏈路數量計費(如 MySQL → MySQL,MySQL → ClickHouse 算作兩條鏈路),以及更為高昂的按資料同步行數計費,Tapdata 採取對使用者更加友好的定價模式——按例項規格計費(如 4C8G / 8C16G),取決於使用者自身的資料流量,不限鏈路。該模式最大好處在於,價格相對明確的,所需成本也相對較低。

總結

將整套資料體系視作一個串聯的資料流系統,CDC 環節就是其間的必經之路。心識宇宙選擇了 TapData 作為這一環節的關鍵工具。這一選擇不僅確保了資料的實時同步和準確性,也保障了資料的安全性和合規性。

透過 TapData,企業得以高效地管理和處理資料,從而為業務決策提供可靠的支援。這種資料驅動的決策方式下,企業將不斷改進和最佳化產品,滿足不斷變化的市場需求,實現持續的創新和增長。

未來,TapData 還將持續挖掘資料整合在 AI 領域的實用性價值,與 AI 企業共同見證人工智慧時代的新發展。

採用 Tapdata 實時資料平臺解決方案有哪些優勢?

廣泛的資料來源和目標支援:內建 100+ 資料聯結器,穩定的實時採集和傳輸能力

學習成本低,輕量易上手:開箱即用與低程式碼視覺化操作,支援資料模型預覽,無需專業的程式設計能力,即可完成複雜的資料整合和開發。

更實時,更高效:兼具秒級響應的資料實時計算能力,以及穩定易用的資料實時服務能力

支援資料、任務分類:可根據不同專案自定義標籤,方便快速篩選查詢,有助於對跨部門協同管理及後續維護

支援平臺級資料校驗:有效保障資料一致性

視覺化任務執行監控和告警:20+ 可觀測性指標,實時監測任務最新狀態

【相關閱讀】

  • AI 資料觀 | TapData Cloud + MongoDB Atlas:大模型與 RAG 技術有機結合,落地實時工單處理智慧化解決方案

  • 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?‍

  • TapData + 實時數倉:實時資料如何賦能船舶製造業,助力數字化應用升級和科學管理運營

  • 準實時數倉搭建指南:以倉儲式會員商超為模擬場景‍

  • 如何為頂級連鎖賭場打造中心化客戶資料平臺?

相關文章