一家公司為什麼要做資料庫和AI兩個賽道?

qing_yun發表於2022-12-14

目前國內資料庫產品百花齊放,創業者們身在時代機遇裡滿懷熱情,想要有一番作為。看清客戶需求,找準自己的定位非常重要。

在形形色色的國產資料庫品牌中,我們發現了一家比較特殊的公司——天雲資料,該公司擁有資料庫和AI兩個核心產品,並在今年3月宣佈獲得多家國家隊基金共同投資的數億元D輪融資。在凜冽的資本寒冬,獲得融資並不容易。

我們比較好奇,作為一家創業公司,資源有限,為什麼要做資料庫和AI兩個不同賽道的產品?在這個機遇與挑戰並存的時代,他們有怎樣的定位?對未來資料庫技術的發展有怎樣的判斷?

打造最小級閉環

天雲資料成立於2015年,在今年3月獲得了數億元D輪融資,目前該公司擁有資料供給HTAP資料庫Hubble與資料消費AI PaaS平臺 MaximAI兩大核心產品。在去年也有投資人困惑為什麼天雲資料一個公司要做兩個產品覆蓋資料庫和AI兩個賽道?

天雲資料CEO雷濤告訴IT168&ITPUB,現在市場上出現了很多同時做資料庫和AI的公司,Databricks是其中的代表公司。據悉,Databricks基於Spark從流開始向下做湖倉一體,向上延伸至AI。不過天雲資料庫同時做資料庫和AI並不是對標Databricks,而是有自己的考慮。

雷濤介紹,上個世紀90年代,IT是以Java為代表的流程驅動,隨著網際網路、移動網際網路發展,IT向DT遷移,由流程驅動轉變為資料驅動,背後的實質是IT基礎的核心元件發生了變化,這些元件從嚴謹執行人類指令的系統架構,包括程式碼程式,轉向了由資料驅動的供給和消費。就像燃油車和電車的區別一樣。現在的資訊化市場、IT市場正經歷一次結構性的變化,開始被一些新興的技術元件所替代。“這個元件的核心就是供給和消費的一個資料閉環。資料庫作為供給側,AI 作為消費側,這是我們相信的一個最小級的閉環。任何一個新事物的落地,它離不開最小級閉環。”

10年前在雲基地時,雷濤就發現了資料供給側和消費側最小閉環的存在。當時運營商的內容平臺專案需要做動漫、遊戲、音樂小說的客戶畫像分解,傳統的Oracle資料庫無法支撐億級使用者帶來的大規模海量上網日誌,資料供給側升級,轉而用HBase等分散式開源元件處理。而資料消費側也不是SQL、視覺化、報表、錶盤等,而是升級為機器學習(ML)等新興的資料處理方法。所以當雷濤看到資料的供給和消費升級,帶著團隊從雲基地出來創立天雲資料完成最小級閉環時,自然而然會做供給側的資料庫和消費側的AI兩條產品線。

所以天雲資料與Databricks只是形似,與Hadoop/Spark技術體系都有淵源,產品都包含資料庫和AI兩個層面。目前,天雲資料的資料庫與 AI平臺可以提供從供給到消費端到端的解決方案,有時候一個專案先引入其AI PaaS平臺,後面由於更實時的資料供給需求再引入Hubble資料庫。

在資料庫產品線,團隊早期沿著HBase技術路徑探索,創立天雲資料後,面對銀行A類核心系統ACID 的事務需求,以及銀監會要求的兩地三中心容災要求,團隊開始面向交易體系進行分散式計算的原創路徑探索,Hubble資料庫重寫了HBase儲存引擎,採用Go語言研發,更適於服務化的雲原生時代。在架構上Hubble採用存算分離架構,在儲存層、混合儲存、混合計算、混合排程三層複用,支援HTAP混合負載,上層透過邏輯計劃融合SQL、Graph、ML、3D點雲、NL2SQL等實現AI-Native資料庫。據悉,天雲資料入選了Gartner中國資料庫代表廠商名錄。

“我們是堅定地走在 Oracle 陣營上。”雷濤強調。所謂走在Oracle陣營,意味著天雲資料的Hubble資料庫更好實現從Oracle遷移升級,Hubble與MySQL技術路線體系有很大差異,雷濤介紹,Oracle支撐的應用,開發人員不一定把所有的邏輯寫在SQL中,可能存在很多儲存過程,但MySQL並不支援儲存過程,天雲資料沉澱的的相關工具可以自動化解析與 Oracle 語法的差異,其儲存過程觸發器、解析器能夠將80% 以上的儲存過程自動化遷移到Hubble,能夠大幅度降低遷移工作量。此外,從Oracle到分散式資料庫國產化遷移時,企業對國產資料庫的信心還不足,建立信任需要一個過程,出於安全考慮,很多專案都會在一定時期內雙庫並跑試執行,天雲在JDBC中內嵌影子庫的技術,可以同時實現任務向 Oracle 與Hubble並行分發,在底層再做資料集合,以保證一個相同的資料結果6 個月以上雙庫並跑試執行,確保使用者遷移成功。

去“O”不是替換,而是產業升級

相當長一段時間,去“O”一直是國內資料庫領域的熱門話題,最近幾年隨著國產資料庫不斷成熟,國產化浪潮下,去“O”又引起了更多關注。“替代Oracle,它是一個階段性過程。產業鏈升級的邏輯,我相信比替代邏輯更強。”雷濤指出,企業機構要經歷網際網路化和產業智慧化兩個發展階段,經歷產銷合一資料閉環升級。隨著產業升級,供給側的資料庫也在不斷升級迭代,以滿足業務新的需求。

雷濤指出,資料庫經歷了四個發展階段,第一代是IOE體系資料庫,是面向資料結構的融合,這些傳統的關聯式資料庫更多是解決資料結構、事實表、維表等資料結構問題。第二代是分散式資料庫,是面向物理資源的融合,解決了物理資源的擴充套件性問題,透過新的分散式技術能夠做更大的叢集,處理更大規模的資料。第三代是面向IO資源融合的HTAP資料庫,將交易與分析合併,網際網路技術帶來產銷合一升級,需要實時完成資料閉環,面向C端提供實時個性化供給,越來越多既需要分析能力也需要併發能力HTAP場景出現。第四代是AI Native資料庫,是面向服務的融合,透過更多的邏輯計劃豐富資料消費能力和形態。

“第三代資料庫是我們的立足之本。”雷濤指出,Hubble是一個HTAP資料庫,現在越來越多的HTAP業務場景出現,比如銀行的電票業務、反欺詐業務、反洗錢業務、權益類服務、實時結算類服務、券商實時淨值服務等網際網路化業務,都是跨越TP 場景的AP業務,同時需要推送到理財經理等客戶端,變成了一個高併發服務的OLTP 業務,要滿足以上這些HTAP場景不是簡單的對Oracle替代就能支撐。

目前市場上有的資料庫是一個TP庫外掛一個AP庫實現對HTAP負載支援,雷濤認為,這種外掛體系治標不治本,是一個延續性創新。HTAP資料庫有兩個核心技術點,一是資料新鮮度,外掛方法需要有資料同步,會導致消費的資料並不新鮮。二是雲原生化的資源隔離挑戰,AP業務對物理資源具有侵佔性,需要用更多的資源去響應高密集的IO 服務,而 TP 類業務需要冗餘支援更多的併發作業,所以資源隔離對於一個 HTAP 產品至關重要,而外掛體系存在資源隔離方面的挑戰。Hubble採用雙引擎驅動,可以解決上述兩個核心問題。

雷濤介紹,目前,資料庫正從第三代HTAP資料庫向第四代AI Native資料庫發展,從網際網路到產業網際網路,資料生產要素在升級。網際網路時代是從資訊化系統自然沉澱資料,人產生行為資料,而產業網際網路時代,感測器等物聯網產生更多的機器資料,這些機器很難用來決策,因為人類需要更強的科學知識才能理解這些資料。所以更多是機器生產資料、機器消費資料,資料庫邏輯計劃面向機器資料的升級是一個必然要走的路徑,不再僅侷限於資料視覺化這種服務為目標的 SQL 操作,而是面向機器學習演算法,資料庫內建ML能力。

Hubble是第四代資料庫的代表,據悉,Hubble已經實現了AI Native資料庫的很多特性,如上文提到的Hubble上層透過邏輯計劃融合ML能力,Hubble能夠支援36種原生AI演算法。現在團隊也在進行更多資料庫智慧化方面的探索,比如NLP SQL,自然語言不用解析成 SQL,而是解析成 SQL Element 對物理計劃的執行,讓資料庫直接響應人類最原生的互動方法。

據悉,天雲資料已為超過50+家五百強及上市公司提供服務,涉及金融、科技、石油、電力、生物醫藥等多領域。

雷濤指出,現在正處在產業智慧化升級階段,使用者需求的變遷其實很大的驅動來自資料這一生產資料的遷移變化,從IT 資訊化的流程驅動轉向資料驅動,新的第三波資料紅利來自於機器生產的資料,城市基建、物聯網等大規模的感測網路資料撲面而來,比網際網路行為資料的規模更大。

“對(機器資料處理)需求的爆發力遠遠超乎想象。所以我們如果不就緒好技術儲備能力,去面向機器資料這一波很難應對。破壞型創新並不是解決原有需求的,它是覆蓋一個新興的零消費市場。”雷濤強調,天雲資料庫所走的是破壞性創新之路,正如《創新者的窘境》這本書所講,破壞性創新是覆蓋零消費市場,而不是去過度服務已有市場,天雲資料庫看到的零消費市場是機器資料生產所帶來的第三波資料紅利,而這波紅利剛剛起步。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2928061/,如需轉載,請註明出處,否則將追究法律責任。

相關文章