星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

星環科技發表於2022-05-10
星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

星環科技大資料基礎平臺Transwarp Data Hub(TDH)從2013年開始釋出2.0版本至今,每年都會釋出一個大版本,經過多次迭代和技術升級,到2021年TDH8.0釋出,TDH已成為一個企業級大資料基礎平臺,基於其領先的多模型技術架構,8種異構儲存引擎支援10種資料模型,被廣泛應用在離線資料批處理、高併發的線上資料服務、資料集市、資料倉儲、資料湖、實時資料處理等各類大資料業務場景。

此外,通過星環科技的不斷自主研發,TDH成為一款國產化自主可控的大資料基礎平臺,可以替代Oracle、IBM DB2、Teradata等傳統主流資料庫在分析型場景中的應用及替代Elastic Search在分散式搜尋場景中的應用,並在政府、金融、能源、製造業等十多個行業內落地。同時TDH完成了與主流信創生態廠商的適配互認工作,滿足信創驗收要求,幫助企業打造更全面、更便捷、更智慧、更安全地國產化數字底座,加速企業數字化轉型。

近日,星環科技正式推出TDH9.0,基於多模型統一架構對多模型處理能力進一步加強,新增文件儲存引擎的同時實現了各模型引擎效能的數倍提升,統一大資料儲存底座提升5倍資料碎片承載能力,強化了儲存規模與可靠性,同時新增平臺智慧運維模組,完善的智慧運維體系幫助使用者更輕鬆地運維大資料平臺。此外,基於容器安全網路提升了資料訪問的安全性,結合自身基礎安全元件以及大資料開發工具,為使用者資料全生命週期提供安全防護。TDH9.0從整體上進一步提升了平臺綜合效能、可靠性、易用性以及安全性,為企業數字化轉型構建了統一、高效能、高可靠的新型數字底座。


星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

多模型統一架構 易開發、易運維、高效能

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

TDH9.0核心依然是統一架構的多模型處理能力,基於多模型統一技術架構提供統一的介面層,統一的計算引擎層,統一的分散式儲存管理層和統一的資源排程層。

統一介面層:基於統一的SQL編譯器Transwarp Quark可以實現統一介面處理不同的業務和不同資料模型,只需要簡單的SQL語句即可完成各種複合跨模型資料查詢,無需訪問不同介面即可操作不同的資料模型。對於場景切換、資料庫切換而造成介面、開發語言切換的問題就不存在了,開發和遷移成本大大降低。

統一計算引擎層:基於分散式計算引擎Transwarp Nucleon可以根據不同的儲存引擎自動匹配高效能演算法,不僅可以支援批處理、流處理等不同型別計算任務,還支援不同模型資料的流轉與關聯,方便使用者在一個SQL中使用不同模型的資料,降低開發難度,提升開發效率。

統一的分散式儲存管理系統:為不同儲存引擎提供公共的儲存管理服務,保障資料一致性,實現資料統一管理運維和高可用。當前TDH分散式資料管理系統接入了9款儲存引擎,支援10種資料模型的儲存。使用者不需要為不同模型建立單獨的儲存系統,而是通過統一的儲存管理,降低了運維管理成本,也避免了資料孤島。同時分散式資料管理系統的外掛特性,也方便後續業務的靈活擴充套件,可以根據需要接入其他儲存引擎,例如TDH9.0根據文件處理的新需求,新接入了文件儲存引擎DocStore。

統一的資源排程層:TCOS是星環科技自主研發的雲原生作業系統,提供統一的資源排程框架,通過容器化編排,能夠統一排程計算、儲存、網路等各基礎資源。TCOS還支援靈活、按需的異構硬體(X86,ARM混合部署)、異構作業系統的水平擴充套件,支援單獨擴充套件計算或儲存資源的水平擴充套件,避免因業務資料增長帶來的資源緊張而需進行繁瑣的擴容、遷移等工作。同時,也提供了相比虛擬機器損耗更低的資源隔離能力,使不同租戶、不同應用,資源隔離互不影響。

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

在開源大資料方案中,為了實現不同業務需求,通常需要部署多個不同的產品,比如為了做數倉需要Hive,為了做精確查詢需要Hbase,為了做搜尋業務需要ES等等。這些不同的產品首先在介面標準就不一致,Hive使用HiveQL,ES使用Restful API,Spark雖然API和SQL都支援但是標準也和Hive、ES不一樣。使用者需要學習適配多個產品的不同介面,開發成本高。同樣的,這些產品也使用了各自獨立的計算引擎和儲存,資料儲存在各自的生態中難以互通,若需要把資料從一個產品匯入到另一個產品中,需要通過文字離線匯入匯出,ETL流轉效率低,同時也難以保證資料的準確性、一致性和實效性。資料往往在離線流轉過程中,可能因為編碼或浮點數精度問題,導致資料不一致,最終影響業務準確性。各自獨立的計算引擎若部署在同一節點上,也可能會引起計算資源競爭問題。

相比之下,TDH多模型統一架構,把多種資料模型的介面層、計算引擎層和分散式儲存管理統統抽象了出來,避免了多個介面標準不統一,避免了計算資源的搶佔,避免了儲存不統一。一個SQL就可以實現不同資料模型的操作和查詢,模型轉化流轉以及跨模型關聯分析,解決了不同模型資料之間的組合使用問題。與開源傳統方案架構相比,TDH統一架構的多模型架構具有複雜度低、開發成本低、運維成本低、資料處理效率高等優點。


星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

以一個具體的跨模型聯合分析應用場景來介紹下多模型統一架構的優勢。例如,當需要研究30歲人群消費習慣和喜好時,可以將該人群消費的商品評價作為一個參考。那為了獲得該人群對某商品的評價資料,我們需要進行三次檢索,並需要使用到圖資料庫中的人群關係型資料,關係型資料庫中的人群消費記錄資料,以及搜尋引擎中消費商品評價資料。

第一步,定位30歲的人群。首先連線到圖資料庫中,使用圖資料庫查詢語言Cyper,找出30歲人群一度關係的人群ID集合。

第二步,獲取該人群的消費記錄。拿到了30歲人群ID後,需要再連線到關係型資料庫中,使用SQL查詢語言,用第一步獲取的人群ID作為過濾條件,獲取該人群消費商品ID,找出這些人群消費了哪些商品。

第三步,獲取包含特定關鍵詞的商品評價。使用者需要連到搜尋引擎,編寫RESTful API請求,使用前兩步獲取的人群ID和消費商品ID,檢索商品評價。

為了完成這個業務,使用者需要搭建3個獨立的資料庫,並在應用適配3種資料庫的連線方式和查詢語言,同時還要求開發人員同時瞭解這3種資料庫的開發技術,整個流程非常複雜,技術要求非常高。

此外,由於是3個獨立的系統,資料和可能存在不一致,比如說消費記錄更新到了關係型資料庫,但是相應的評價沒有更新到搜尋引擎中,導致分析語句的結果不準確。

而基於星環的多模型統一技術架構,使用者只需用一句SQL就能同時訪問這3種儲存模型進行聯合分析,替代了之前3段程式碼。一句SQL裡,同時對圖資料人群關係表,關係型資料消費記錄表,全文資料商品評價表,3個表進行了跨模型關聯,一次操作完成了之前三次操作才能完成的業務,大大簡化了開發複雜度,簡化使用者操作。同時資料也仍保留在原儲存引擎中,也不用對資料進行匯入匯出或者轉換,不會存在資料不一致或資料冗餘儲存的問題。

多模型能力升級 更多、更快、更強

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

TDH9.0在原多模型能力基礎上新增文件資料庫,實現9種儲存引擎支援10種資料模型,同時對儲存引擎進行升級,提供更高的效能和更強的功能,幫助企業使用者滿足更多以及要求更高的業務場景。


星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

  • 關係型分析引擎Inceptor

關係型分析引擎Inceptor進一步提升了SQL相容性,增強了SQL-2016標準支援度,改進了Hive語法相容,幫助使用者更方便地做應用遷移和對接;同時SQL編譯器也進行了表示式,遍歷演算法,優化,在複雜SQL場景,最高可提升10倍編譯效能。

此外,TDH 9.0相容了分散式分析型資料庫ArgoDB,來更好地支撐關係型分析場景。在這次釋出的ArgoDB5.0版本中,對計算引擎、儲存引擎、可靠性都做了重要升級,效能上相比於Inceptor提升了10倍資料掃描效能,10倍線上分析效能,實時資料入庫,更是支援每秒每節點,百萬的吞吐,大大增強了在關係型分析場景的效能。相比TDH Inceptor,ArgoDB不僅在資料倉儲、湖倉集一體、聯邦計算等老場景上具有更強的效能,同時還支援了實時數倉、高效能資料集市、AETP混合複雜、隱私計算等多個擴充場景。

  • 圖資料庫StellarDB

圖資料庫StellarDB,圖資料庫可以用於知識圖譜、知識推理、社群劃分、子圖分析等應用場景。StellarDB在TDH9.0迎來了4.0版本,除了易用性、安全性、開放性等全面升級以外,效能也獲得了大幅提升。批量匯入效能是開源產品的2倍,查詢場景中六跳查詢是開源的50倍,演算法實現上,常用的pagerank演算法和強連通子圖演算法效能都是開源的6倍。StellarDB通過功能的加強和效能的不斷提升,幫助幫助企業使用者更快、更高效地挖掘海量資料互聯價值。

  • 搜尋引擎Scope

Scope是一款相容開源生態的搜尋產品,支援TDH統一SQL查詢的同時,相容ES生態,保障ES平滑遷移。相比開源產品,Scope基於Raft協議保障資料一致性,支援跨資料中心多活部署,可以構建兩地三中心災備方案,可靠性與容災能力更強。日誌儲存解決方案中,因為資料量龐大,企業使用者一般對搜尋產品的儲存容量較為看重。Scope單例項儲存容量達到了100TB,是開源的5倍,同等規模下 Scope儲存密度更高,可以幫助企業使用者節約硬體成本,同時效能上,Scope相比開源也提升了30%分析效能和2倍檢索效能,能更高效的分析檢索海量日誌資料。

  • 時空資料庫Spacture

時空資料模型主要是以地理經緯座標與時間資訊等資料為主,Spacture支援原生的時空資料型別和向量資料,可以有效反映移動物件的運動過程。相比於開源時空資料庫,Spacture的天然分散式架構,可以支撐橫向線性擴充套件,比開源具備更強的時空分析能力。同時Spacture也相容國家行業標準,和開源商業主流GIS軟體,方便使用者遷移對接。

  • 時序資料庫Timelyre

時序資料庫Timelyre在TDH9.0升級到了2.2版本。時序資料在製造業IoT裝置等場景中經常出現,用於監控裝置或環境的一些指標,如溫度、電量、工作狀態等。由於裝置量龐大,指標資料生成頻繁,因此時序資料實時吞吐量龐大,歷史儲存需求容量較高。為了應對這類場景,Timelyre針對時序資料特徵,改進壓縮演算法,進一步降低了20%~50%儲存空間佔用,提升2倍寫入效能。同時相比於開源時序產品,Timelyre基於TDH多模型架構下的分散式擴充套件能力,讓Timelyre具備了更多裝置標籤儲存能力,以及基於TDH統一SQL分析能力,讓Timelyre具備了複雜關聯查詢能力。

  • 鍵值資料庫KeyByte

Keybyte鍵值資料庫支援高效能分散式快取和高效能分散式鎖兩種場景。

高效能快取是記憶體鍵值引擎較為常用的場景之一。開源鍵值儲存引擎基於叢集主備的分散式方案,一致性和穩定性都無法保障,容易影響線上業務的效能。

Keybyte鍵值資料庫基於單機KV記憶體儲存引擎實現了分散式強一致性的KV儲存能力,同時還支援記憶體用量限制和豐富的過期淘汰演算法,保障了服務的可靠性和穩定性。同時還相容了TDH統一SQL引擎的複雜分析能力,應用場景更豐富。

  • 文件資料庫DocStore

文件資料庫DocStore是TDH9.0全新推出的儲存引擎,支援半結構化資料XML/JSON、非結構化資料圖片/PDF/小檔案的同時也支援結構化資料儲存。

相比於其他儲存引擎,文件資料庫DocStore更關注於文件資料的高效能檢索。支援海量文件資料的儲存的同時,檢索上通過支援多種索引技術來加速文件資料的檢索效能,目前可以支撐百萬級高併發、毫秒級延遲的資料檢索能力。

統一大資料儲存底座升級大容量、高效能、穩定可靠

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

TDH9.0對大資料儲存底座進行了重大升級,統一分散式資料管理系統TDDMS和分散式檔案系統TDFS提供更穩定的小檔案管理能力和訪問效能,提升了儲存可靠性,保障資料安全不丟失。基於星環分散式交易型資料庫KunDB提供後設資料服務,提供更高效能、更加可靠的後設資料處理服務。星環科技分散式資料管理系統TDDMS在TDH9.0升級到了2.0版本,在儲存上優化了對資料碎片檔案的處理能力,提升了5倍資料碎片的承載能力,在同等硬體和資料分佈條件下,可以儲存管理5倍的表物件。同時TDDMS2.0改進了資料修復能力,可以更及時得自動完成資料故障遷移與副本修復,提升了資料安全性與服務可用性。

另一個較大的更新是TDDMS2.0支援了多模型資料自動同步的能力,不同儲存模型的資料可以基於統一的日誌系統binlog,實現資料在不同儲存模型間的自動轉換。例如,實時資料寫入到關係型分析引擎時,可以通過TDDMS同時自動同步一份副本到圖資料庫和時序資料庫中,方便使用者直接進行圖分析和時序分析,大大增強了業務實效性,降低了開發複雜度。星環科技分散式檔案系統TDFS主要負責相容開源Hadoop生態體系的檔案儲存能力。開源體系中,主要使用HDFS作為分散式檔案儲存系統,但是開源HDFS在架構上存在一定瓶頸。開源HDFS的需要將檔案後設資料儲存在NameNode節點記憶體中,由於單節點記憶體有上限,因此無法管理大叢集海量檔案,也無法處理大量小檔案的儲存。

星環科技分散式檔案系統TDFS基於開源HDFS架構,在保留了儲存節點DataNode的架構下,改寫了後設資料儲存模組,使用了星環自研的Name Manager和Block Manager作為替代。相較於HDFS,TDFS後設資料基於Raft協議進行分散式一致性管理,相容Hadoop生態的同時,容錯性更強,不存在單點瓶頸。由於解決了海量小檔案管理問題,TDFS除了支援分散式檔案系統以外,還支援物件儲存,支援檔案儲存和物件儲存兩種模式並行執行。

在4節點測試環境中,TDFS支援10億以上檔案數穩定執行,遠超開源HDFS 5倍檔案數管理能力,後設資料QPS比開源快1.7倍,能支撐更高吞吐的業務場景。同時TDFS比開源HDFS重啟速度快16倍,在一些運維場景下能更快的恢復服務。在TDH9.0中,後設資料服務基於星環科技分散式交易型資料庫KunDB作為底層儲存,在後設資料併發訪問場景下,相比於TxSQL,KunDB TPS最高提升3.6倍,QPS最高提升4.4倍。後設資料服務的升級可以綜合提升TDH大資料平臺底座基礎,保障更強的一致性、更高的效能、更可靠的後設資料儲存能力。

智慧運維,安全無憂

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

運維方面,TDH一直致力於提升產品運維易用性,降低運維難度和成本。TDH9.0推出了智慧運維模組,結合了大資料技術特徵與業務最佳實踐,通過對TDH平臺上大資料服務特徵指標的收集,基於智慧運維規則庫匹配判斷,提供叢集改善運維建議,保障叢集長期高效穩定執行。

例如,在數倉數集場景下,一般需要對關係型資料進行分桶儲存,不合理的分桶會影響叢集的穩定性和處理效能,智慧運維模組可以通過收集叢集中表的分桶大小來幫助使用者判斷當前的分桶是否合理,提前給出分桶改進建議,避免後續因分桶問題的進一步惡化導致叢集不穩定。類似的,智慧運維模組還會根據叢集歷史儲存用量分析,提供預警式擴容計劃建議,通過分析叢集計算資源使用率,提供資源配置優化改進建議。

智慧運維模組包含100多個智慧運維規則,開箱即可用,幫助使用者更輕鬆地運維大資料平臺。資料安全是近期比較火熱的話題,也是使用者比較關注的問題。TDH9.0升級了網路安全策略,使用了Overlay容器安全網路。通過網路虛擬化的方式,隔離物理網路,用訪問許可權控制的方式管理叢集網路和外部網路的直接訪問,避免了未授權的外部訪問以及內部資料的洩漏,降低了使用者管理難度,提高了叢集網路可用性、安全性和可靠性。除了容器網路隔離以外,TDH結合自身基礎安全元件以及大資料開發工具TDS,保障使用者在資料開發過程中,獲得全生命週期的資料安全防護,從資料採集、傳輸、儲存,到處理、流通、銷燬,每一步都提供了全面的資料安全技術保障,如加密、脫敏、許可權、審計等功能一應俱全,在完善的大資料平臺安全體系下,可以方便使用者建立起資料安全環境與操作流程,保障資料安全。

TDH社群版讓大資料分析觸手可及

星環科技多模型大資料基礎平臺TDH9.0:十種資料模型組合拳 打通大資料業務全場景

星環科技一直致力於大資料技術的創新以及大資料技術人員的培養。TDH經過9年的迭代,已經取得了一定技術的積累和行業經驗,此次星環科技新推出TDH社群版,為企業使用者、高校師生、科研機構以及其他專業開發人員提供更輕量、更簡單、更易用的資料分析開發環境。社群版提供星環最具競爭力和最成熟的Inceptor元件、Waterdrop等自研開發工具以及Hadoop 3.0和星環科技的精選元件服務等,為使用者構建批處理資料倉儲、資料湖等提供平臺支援。TDH社群版同時具有輕量資源即可高效部署,簡單易用,便捷運維,以及效能優異等優點。

為滿足多人群需求,TDH社群版分為訂閱版和免費版。其中訂閱版面向企業級使用者,無節點容量限制,可以提供更高階別的技術支援、業務規模支援和業務場景支援;免費版面向科研機構、高校教師、開發者、個人愛好者,免費提供4節點、10TB容量支援,可進行百億級別的資料處理,應用於學習、教學、科研等場景。自誕生以來,TDH助力數千家企業打造了統一的、高效能大資料平臺,為企業建設資料湖、資料倉儲、資料中臺等提供平臺支撐,為企業數字化轉型助力。星環科技將持續自主研發與技術創新,強化大資料平臺統一多模型處理能力、高效能、易用性、可靠性、和安全性,為核心基礎軟體國產化,為企業構建數字底座,為大資料社群與人才培養提供領先的技術力量,發揮大資料技術更大的價值。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2893244/,如需轉載,請註明出處,否則將追究法律責任。

相關文章