巨杉 x DSG:突破單一IT架構限制,實現結構化資料高效能實時入湖
合作伙伴公司簡介
迪思傑(北京)資料管理技術有限公司(以下簡稱DSG), 是全球領先的資料複製技術專業公司,擁有幾乎所有主流資料庫,如:Oracle、MySQL、PostgreSQL、DB2及各類國產資料庫的實時日誌分析複製技術和完全的自主智慧財產權。DSG全球領先的資料庫統一實時轉換資料模型,能夠快速、統一實現各類資料庫之間的轉換和異構載入,及對各類大資料元件的支援。DSG各類產品線已應用於政府部門、公安、銀行、證券、保險、企業等1000多家客戶。
方案應用背景
隨著雲端計算與大規模並行資料庫的興起,傳統IT架構與並行叢集資料庫之間、與基於雲端計算的大規模非結構化的資料庫之間,需要實時高效能資料複製共享,使企業突破單一傳統IT架構限制,走向效能可無限擴張的混合雲架構。
當前,客戶業務存在以下問題:
-
低效能日誌分析:企業業務更改都記錄在日誌中,當需要了解資料庫中所作的交易時,需要先分析日誌。大型資料庫一般峰值日誌產生量高達200G/小時以上,傳統日誌分析技術處理過程繁瑣,分析效率低,對源生產端的執行造成較大的壓力;
-
無法進行全同步與增量同步:傳統資料複製工具不支援全同步功能,資料首次同步需要通過備份恢復實現,即通過備份軟體將生產端資料庫的資料進行全備份,然後再通過恢復功能將資料恢復到某個時間點。首次同步完成後,使用者還需要手動建立增量同步的SN點(手動操作會導致操作失誤率提高),複製軟體才能實現增量同步,無形中增加同步時間,效率低下;
-
難以進行異構資料庫複製:傳統資料庫複製軟體大都僅支援單種資料庫間的資料複製,即使可以實現異種資料庫之間的複製,也需要進行復雜的資料匯出及資料轉換,導致資料複製時間長、系統停機及人為操作失誤;
-
資料上雲困難:傳統的業務應用程式不但過於複雜,而且成本高昂,企業採用雲服務模式將節省大量用於購買IT產品、技術和維護執行的資金,方便地利用資訊化系統,但當前大多同步軟體不能很好的支援雲下資料庫異構上雲。
方案內容
DSG提供SuperSync大型資料庫高效能複製平臺,實現對SequoiaDB巨杉資料庫的高效日誌分析及使用、不中斷業務的首次全同步及實時增量同步、資料庫的資料複製遷移平臺。
SuperSync通過select方式對多種源端資料庫進行全量匯出為xdt資料,再通過vagentd讀取分析資料庫日誌檔案,當資料庫有DML或者DDL操作時,vagentd將分析到的資料轉換成xdt檔案。SuperSync對同步資料xdt先快取在源端目錄中,以支援斷點續傳,然後再通過nfm_sender將xdt資料傳送給目標端。
SuperSync目標端使用nfmd接收xdt資料並儲存在本地目錄中,通過yloader對xdt檔案進行解析,生成目標端資料庫可以識別的SQL,再通過目標端yxad裝載到目標端SequoiaDB巨杉資料庫中。
方案亮點
-
實時併發日誌分析
採用併發多執行緒分析線上日誌檔案,提前預分析線上日誌檔案轉化成供分析程式需要的精簡日誌檔案格式,供不同的分析程式多次使用,甚至在資料庫非歸檔模式下,日誌切換覆蓋之前,保留未分析完的日誌檔案。增量分析日誌速度可達:100-200G/小時。
-
全量增量一體化同步
不停機、不停業務、不修改資料庫引數,一鍵化啟動全量資料同步、增量資料同步,自動完成源端全量資料的匯出、目標端全量資料裝載、源端增量資料實時分析、目標端增量資料實時裝載。特別採用自主研發的底層工具直接dump資料檔案匯出存量資料,非呼叫資料庫介面方式匯出全量資料,減少對於生產資料庫的資源佔用及對應用系統的影響。全量匯出正常資料速度可達:200-400G/小時。
-
頻繁DDL支援
採用非觸發器模式通過抓取到日誌檔案裡的具體DDL語句,並且取得DDL後準確的資料字典資訊,目標端無故障、無感知的完成DDL操作及後續DML的裝載。支援瞬間批量頻繁的DDL操作,支援異構資料庫之間DDL的轉換。
-
特殊欄位表同步
對LOB欄位表(BLOB/CLOB/BFILE)優化的全量匯出演算法,提供斷點續導、併發匯出、壞塊檢測、LOB欄位單獨匯出、單獨裝載等方式,達到全量匯出LOB資料錶速度:100-200G/小時。同時支援XML、UDT、IOT等特殊欄位表的同步。
-
統一的資料流格式
可以將不同源端資料庫、不同目標端資料庫之間的資料流動採用統一的資料流格式檔案,即可以實現源端 Oracle 、PostgreSQL、DB2、MySQL等多種資料庫同步到SequoiaDB巨杉資料庫中,也實現對SequoiaDB巨杉資料庫到各種資料庫的迴流,幫助客戶更好的高效的完成業務應急接管,容災切換時間小於5分鐘。
客戶價值
-
業務無需中斷
SuperSync在不中斷業務的情況下可以實現資料首次全同步和不一致資料修復,無需人工干預,簡化軟體操作,減少使用者工作量。
-
資料庫零停機遷移
SuperSync支援Oracle、MySQL、PostgreSQL、DB2等多種資料庫遷移到SequoiaDB巨杉資料庫。
-
滿足複雜同步需求場景
針對客戶不同源端資料庫、不同目標端資料庫之間的資料流動,SuperSync採用統一自主智慧財產權的資料流格式檔案xdt,從而可以支援源端資料庫到目標端資料庫的複製的任意組合,適應客戶的多種資料庫之間、不同平臺元件的複雜同步需求場景。
-
提高業務應急接管能力
當生產庫發生故障時,容災系統能高效的完成業務應急接管,容災切換時間小於5分鐘。
-
降低生產業務影響
SuperSync的日誌併發分析,加快日誌分析效能。僅對日誌進行一次分析,結果就可供多程式、多工使用,同時分析結果可存放在本地或遠端,以減輕資料庫日誌重複分析對源端系統帶來的壓力。
互認證證書
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31534344/viewspace-2842358/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 巨杉 x 吉貝克:實時打破資料孤島,湖倉一體打造金融行業資料管理平臺行業
- redis資料結構實現(一)Redis資料結構
- 通用資料湖倉一體架構正當時架構
- js實現資料結構--單連結串列JS資料結構
- 資料結構 - 單連結串列 C++ 實現資料結構C++
- 資料湖+資料倉儲 = 資料湖庫架構架構
- B 站構建實時資料湖的探索和實踐
- 2020-09-23【學習筆記】【企業資料湖】三、Lambda架構:一種資料湖實現模式(1)筆記架構模式
- 資料湖--架構師如何助力“湖加速”?架構
- 一、【資料結構】向量(vector)的實現資料結構
- 資料結構——單連結串列的C++實現資料結構C++
- 資料結構之php實現單向連結串列資料結構PHP
- Apache Hudi 在 B 站構建實時資料湖的實踐Apache
- Java實現資料結構之線性結構Java資料結構
- 資料湖架構,為什麼需要“湖加速”?架構
- 資料結構--LinkedList的實現資料結構
- js實現資料結構--棧JS資料結構
- 快手流批一體資料湖構建實踐
- 資料結構-2.單向連結串列的實現資料結構
- 用c語言實現資料結構——單連結串列C語言資料結構
- 資料結構——單連結串列介面實現(C語言)資料結構C語言
- 資料結構--單連結串列(通過陣列實現)資料結構陣列
- 資料湖架構及概念簡介架構
- JavaScript資料結構——圖的實現JavaScript資料結構
- 資料結構之php實現棧資料結構PHP
- js實現資料結構--陣列JS資料結構陣列
- js實現資料結構--佇列JS資料結構佇列
- 【資料結構】ArrayList原理及實現資料結構
- 結構化資料、半結構化資料和非結構化資料
- 實時資料架構體系建設指南架構
- 直播預約丨《實時湖倉實踐五講》第四講:實時湖倉架構與技術選型架構
- 直播預約丨《實時湖倉實踐五講》第二講:實時湖倉功能架構設計與落地實戰架構
- 讀資料湖倉08資料架構的演化架構
- C++ 手撕--基本資料結構的簡單實現C++資料結構
- 杉巖資料非結構化資料儲存解決方案
- 資料結構系列之單連結串列實現一個簡單的LRU演算法資料結構演算法
- 【資料結構】連結串列(單連結串列實現+詳解+原碼)資料結構
- java實現單連結串列、棧、佇列三種資料結構Java佇列資料結構