星環科技TDH8.0使用必讀2: 10種資料模型全支援 未來屬於多模型大資料平臺

星環科技發表於2021-06-16

引言

星環科技於2021年3月釋出了星環極速大資料平臺TDH的8.0版本。相信很多使用者都對這款產品非常感興趣。

本系列文章向您逐一介紹TDH8.0全新功能和技術創新。幫助企業級資料平臺使用者更全面、深入地瞭解前沿的大資料技術,更好地技術選型。

您也可以在星環科技官方影片號、星環社群服務號、以及bilibili、騰訊影片等站點看到我們的影片。


2021年,你還在用單模型資料庫嗎

如今越來越多的企業在談論數字化轉型。早期階段,企業會選擇一些要點場景,進行資料採集、儲存、分析、決策、應用的嘗試。單一的、相對固定的成熟場景,購買市場上合適的大資料或資料庫產品通常都能支撐。


隨著數字化轉型的深入和企業的快速發展,業務部門的擴張、不可預測的需求變化、業務創新時機的來臨、企業管理標準的提高等各類情況出現時,各自獨立的大資料和資料庫產品如同一個個資料孤島,成為不同場景、專案、業務、部門間資料互通的壁壘。



企業在資料融合創新過程中, 可能需要使用關係型儲存、文字儲存、圖儲存、物件儲存、搜尋引擎、地理空間儲存、鍵值儲存、寬表儲存、時序資料儲存、事件儲存等更豐富的資料儲存模型。使用多種單模型資料庫將會導致資料冗餘、資料一致性治理難、資料跨庫分析難、資源配置難等一系列問題。同時,多產品的語言與介面不統一,學習成本高,運維成本高,系統的總擁有成本也會不斷提高。


企業為什麼需要大資料模型    

近年來,越來越多的企業逐漸意識到: 未來的大資料平臺,既要為不同的專案場景配置不同資料模型以保障其高效能,又要讓資料操作和運維更便捷、更統一。因此在一個統一平臺中多種資料模型並用變得越來越流行。

 

早期的幾種多模型資料平臺實現路徑,僅僅簡單地將多個單一模型資料庫組合在一個軟體系統中。使用者可以使用關聯式資料庫來持久化結構化表格資料; 使用文件儲存來儲存非結構化類物件資料; 使用鍵/值儲存來儲存雜湊表; 使用圖資料庫來儲存高度連結的參考資料。在同一個專案中組合多個單模型資料庫,僅僅在介面的統一,並不能根本性的解決問題。


與之相比,原生的多模型大資料平臺在以下方面具有天然優勢:

 

1. 更強大的資料一致性。業務需要不同的資料模型時,多模型大資料平臺天然支援一份邏輯資料,多種資料建模,應用於多個不同場景。避免了使用多個單一資料模型產品時,面對的資料一致性、資料匯入匯出延時、資料冗餘等問題。

 

2. 更靈活的資源彈性。多模型大資料平臺,將不同模型的儲存和計算資源池化,可以根據業務需要隨時增減資料模型的種類,靈活部署和回收計算和儲存資源,真正做到按需分配,用完回收,更靈活、更充分的使用好儲存計算資源。

 

3. 更簡潔的操作與運維。多個單模型資料庫產品,往往介面不同、語法各異,開發人員學習成本高昂,專業技能門檻高。使用統一的多模型大資料平臺,開發人員只用學習統一的語言、統一的介面來操作多個資料模型,難度顯著降低。


星環科技的多模型大資料平臺實現路徑

目前常見的多模型資料庫架構如下所示,傳統的架構主要採用了三種實現模式:

第一種:為每一種新資料模型開發獨立完整的存算策略。缺點是存算耦合,支援的模型越多,系統的開發量和複雜度就越高,消耗存算資源也較多。

 

第二種:用單一儲存引擎支撐多個儲存模型。缺點是由於不同計算資料模型對於儲存的要求不同,單一儲存引擎無法隨之匹配適合的儲存策略,從而限制了多模型資料庫的效能。

 

第三種:在多種獨立資料庫之上提供統一的使用者介面,對底層多個資料庫進行轉發。缺點是由於底層多個資料庫開發語言不一致,導致了實際開發時的高難度,排除故障的成本也較高。

 

這三種實現方式都存在著不同程度的問題,為了解決這些問題,我們需要一套統一的架構來同時支援多模型、高可用與高效能。星環極速大資料平臺產品 TDH(Transwarp Data Hub)8.0 版本採用了原創的分層架構設計: 提供了統一的 SQL 編譯器層,統一的分散式計算引擎層 ,統一的分散式資料管理系統層以及統一的資源排程層, 基於存算解耦合實現了支援10種資料模型模型。

SQL層:統一的SQL編譯器

Quark是星環自主研發的分散式SQL編譯器,相容多種方言的SQL編譯器,包括HiveQL,Oracle,DB2,Teradata等方言,也包括了運算元和型別系統。TDH中的各個資料庫產品遵從一致的SQL規範。使用者不需要因為場景切換、資料庫切換而造成介面、開發語言切換而煩惱。統一的SQL查詢使得開發人員學習成本極低,開發的程式碼可移植性更強,技術對接更加容易。

計算層:統一的分散式計算引擎 Transwarp Nucleon

Nucleon是星環自主研發的分散式計算引擎。計算引擎能根據不同的儲存引擎自動匹配高效能演算法,無需使用者手工干預,從而便捷地實現 跨庫關聯,避免資料匯入匯出。

資料管理層:統一的資料儲存系統為不同儲存引擎提供公共的儲存管理服務

TDDMS是星環自主研發的分散式資料管理系統,管理資料多副本間的強一致;管理資料在儲存介質上的合理分片分佈,擴縮儲存容量時,自動管理資料重分佈,充分利用儲存資源;保障資料高可用,在儲存硬體故障時,保持資料儲存服務不中斷。  TDFS (Transwarp Distributed File System)是星環自主研發的分散式檔案系統,提供檔案目錄結構及有關服務;主要用於資料批次匯入和匯出的時候以檔案形式進行資料交換的功能。 

資源管理層:統一的資源排程系統TCOS

TCOS是星環自主研發的雲原生作業系統,貼合伺服器硬體和作業系統;提供統一的資源排程框架,透過容器化編排,統一排程計算、儲存、網路等各類基礎資源。支援一鍵部署TDH, 線上擴容、縮容, 同時支援基於優先順序的搶佔式資源排程和細粒度資源分配。  TCOS基於先進的雲原生技術構建,適配了多種主流的CPU架構和多種作業系統,支援不同硬體、不同作業系統的伺服器混合部署。在叢集擴容時,客戶不用擔心新舊裝置相容性問題,資源利用率更高。

異構儲存引擎層:用8款異構儲存引擎支援10種儲存模型

採用星環科技的多模型資料管理平臺,不同源的資料,仍然使用不同儲存引擎儲存,保障其高效能。不同的資料庫,都架構在統一多模型資料平臺中,跨庫的關聯分析不需要額外的資料匯出匯入過程,避免了資料冗餘,使用十分便捷。TDH8.0提供了8款獨立的儲存引擎保障了不同儲存模型的高效能。使用者可以根據業務的需要,隨時增減不同的儲存引擎,做到資源按需分配。


1、關係型分析引擎 Inceptor——關係型資料儲存

Transwarp Inceptor 是星環科技自主研發的關係型分析引擎,提供PB級海量資料的高效能分析服務。Inceptor是全球首個透過分析決策系統國際基準測試TPC-DS的產品;同時支援完整的SQL標準語法,相容 Oracle、IBM DB2、Teradata方言,相容Oracle和DB2的儲存過程,可以平滑遷移應用;支援分散式事務處理,保障資料強一致性。Inceptor幫助使用者快速開發資料湖、資料倉儲等應用。


2、寬表資料庫 Hyperbase——寬表儲存、物件儲存、文字儲存

Transwarp Hyperbase是星環科技自主研發的NoSQL寬表資料庫,支撐百萬級高併發、毫秒級低延時業務需求。Hyperbase支援結構化資料,及文字、影像、影片、物件等非結構化資料的儲存;支援全文索引、二級索引等索引技術;提供多租戶管理;支援SQL標準語法,併相容開源HBase。Hyperbase幫助使用者快速開發歷史資料查詢、業務線上檢索等應用。


3、分散式圖資料庫 StellarDB——圖儲存

Transwarp StellarDB是星環科技自主研發的企業級分散式圖資料庫,提供高效能的圖儲存、計算、分析、查詢和展示服務。StellarDB支援原生圖儲存,百億點、萬億邊、PB級大規模圖資料儲存;具備10+層的深度鏈路分析能力,提供豐富的圖分析演算法和深度圖演算法;支援標準圖查詢語言併相容OpenCypher,並具備海量資料3D圖展示能力。StellarDB幫助使用者快速開發欺詐檢測、推薦引擎、社交網路分析、知識圖譜等應用。


4、搜尋引擎 Transwarp Scope——全文搜尋

Transwarp Scope是星環科技自主研發的分散式搜尋引擎,提供PB級海量資料的互動式多維檢索分析服務,能夠實現高可靠、高擴充套件性的全文搜尋與靈活查詢。毫秒級快速響應使用者的檢索需求;分鐘級快速恢復單點故障。Transwarp Scope支援結構化、半結構化,及圖片、音影、網際網路資料等非結構化資料儲存,並保障資料的強一致性。Transwarp Scope幫助使用者快速開發文字資訊分析檢索、企業級搜尋引擎等應用。


5、時空資料庫 Spacture——地理空間儲存

 

Transwarp Spacture是一款自主研發的分散式時空資料庫,提供空間地理、時空軌跡、遙感影像等海量資料的儲存、 查詢、分析和挖掘服務。Spacture具備高效能資料讀寫和分析能力。支援OGC標準圖形型別和空間關係,相容常見的開源和商業GIS軟體;內建了時空索引、空間拓撲幾何、遙感影像處理等高效演算法。Spacture幫助使用者快速開發時空查詢分析、時空模式挖掘、時空軌跡聚類等應用,廣泛應用於位置服務、城市管理、交通物流、疫情防控等場景。


6、鍵值資料庫 Transwarp KeyByte——鍵值儲存

 

Transwarp KeyByte是一款高效能鍵值資料庫,提供資料實時插入與高併發檢索服務。KeyByte 採用主從高可用架構,支援容災、主備自動切換和故障遷移;相容Redis核心資料結構與API;支援資料的持久化;支援彈性擴充套件。KeyByte幫助使用者快速開發熱點資料快取、高併發資料儲存、實時或限時業務支援等應用。


7、時序資料庫 Transwarp TimeLyre——時序資料儲存

 

Transwarp TimeLyre 是一款時序資料庫,提供海量時間序列資料的高效壓縮儲存和高效能分析服務。TimeLyre 支援資料高速讀寫,每秒處理數十萬條記錄和數百次查詢。TimeLyre幫助使用者快速開發各類業務與裝置的實時監控、 實時預警、實時故障診斷等應用。


8、事件儲存庫 Transwarp Event Store——事件儲存

Transwarp Event Store是一款高吞吐分散式NoSQL資料庫,提供訊息和事件的儲存與處理服務。Event Store支援資料持久化;支援資料從指定時間點重放,保證資料順序性;具備彈性擴充套件和容錯能力。Event Store幫助使用者快速開發日誌收集、應用監控、流式資料處理、線上分析等應用。

除了以上的8款儲存引擎之外,TDH8.0還依舊提供了我們的經典產品:實時流計算引擎Slipstream和資料科學平臺Sophon Discover,滿足使用者的多樣使用場景。


實時流計算引擎 Slipstream——實時監測、實時ETL

Transwarp Slipstream是星環科技自主研發的企業級、高效能實時流計算引擎,支撐百萬級高吞吐、毫秒級低延時業務需求。Slipstream 支援事件驅動和微批處理兩種模式,支援exactly-once語義、複雜事件處理(CEP)、規則引擎等功能,支援SQL程式設計與開發。Slipstream幫助使用者快速開發實時資料倉儲、實時報表分析、實時智慧推薦、實時欺詐檢測與風險控制等應用。


資料科學平臺 Sophon Discover——資料探勘、機器學習

Transwarp Sophon Discover是星環科技自主研發的資料探勘分析探索工具包,其包含豐富的分散式演算法庫,並內建了諸如金融反欺詐、輿情文字挖掘等多個行業應用模組。Sophon Discover可實現R、Python、Spark等多種程式語言進行資料分析處理,並支援Tensorflflow、Torch等深度學習演算法框架、異構硬體資源的統一運籌與管理。

TDH8.0 實踐方案

在TDH 8.0中,實時流處理採用Slipstream;結構化資料的批處理、資料湖、資料倉儲採用Inceptor;寬表儲存、文字儲存、物件儲存等非結構化資料採用Hyperbase;從而構建實時流處理、批處理、資料湖、資料倉儲一體化方案。

 

平臺還提供其他服務,適用於全文檢索的搜尋引擎Scope;適用於實體間多層級鏈路關係分析的圖資料庫StellarDB;適用於時空地理分析的時空庫Spacture等等。

 

多模型大資料平臺,與傳統開源方案相比,架構複雜度低、開發成本低、運維成本低、資料處理效率高。

 

總結

星環多模型大資料管理平臺TDH 8.0,採用“介面、計算、管理、排程四層統一、儲存模型十種異構”的創新架構,在保障不同資料模型高效能、高可靠、高可用的同時,實現了資源配置更靈活、操作運維更簡潔易用的目標。




在未來,我們相信,從大型企業和機構,到小微企業,再到個人開發愛好者,都可以透過便捷接入的方式,友好的開發環境,輕鬆的搭建、開發、運維自己的資料平臺和應用。將大資料來自每個人,又服務於每個人的理念,從科幻變為科技現實。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2776985/,如需轉載,請註明出處,否則將追究法律責任。

相關文章