【客戶案例】白鯨開源WhaleStudio助力某證券公司打造全面資料解決方案:探析DataOps平臺革新與應用

海豚调度發表於2024-03-22

背景

近年來隨著國際形勢的變化,信創產業成為我國國家戰略的一部分。一直以來,一直以來,全球 ICT 產業底層標準、架構、產品、生態等要素均由國外公司或機構制定和控制,使我國 ICT 產業乃至廣大使用者面臨被卡脖子、資料洩露、資訊保安等諸多風險,尤其是 2018年以來,中興、華為等公司的遭遇成為鮮活的例項。

file

為了應對這種局面,我國將信創產業納入國家戰略,提出了“2+8”發展體系,志在擺脫對國外 ICT 產業的依賴,此即信創產業產生的背景。國家《“十四五”國家資訊規劃》指出,資訊化進入加快數字化發展、建設數字中國的新階段。加快數字化發展、建設數字中國,是順應新發展階段形勢變化、搶抓資訊革命機遇、構築國家競爭新優勢、加快建成社會主義現代化強國的內在要求,是貫徹新發展理念、推動高質量發展的戰略舉措,是推動構建新發展格局、建設現代化經濟體系的必由之路,是培育新發展動能,激發新發展活力,彌合數字鴻溝,加快推進國家治理體系和治理能力現代化,促進人的全面發展和社會全面進步的必然選擇。

在信創戰略和國家數字化轉型的大背景下,越來越多的金融機構主動擁抱變化,突出“資料驅動業務”的重要地位。近年來,在全球經濟數字化浪潮的帶動下,我國大資料與實體經濟的融合應用不斷擴充。

某證券公司(後文簡稱“公司”)今年來深入信創、數字化轉型相關工作,積極推進資訊系統的信創化改造和數字一體化實踐。當前公司正在數字化轉型的關鍵階段,隨著數字化的深入,公司內部運營和業務系統每天都會積累大量的資料,對於沉澱在系統深處的資料進行提取和整合愈發困難,然後上層應用對於資料的需求卻越來越迫切。

傳統的資料開發工具已經無法滿足現有業務部門的引用需要:

  • 世界金融形式動盪,對於中國金融反洗錢要求越來越高,傳統的資料開發與排程方式無法滿足券商反洗錢打通所有業務資料流程和時效性需求,往往一次源系統的變化就會需要大量的人工參與與調整;
  • 監管報送要求很高,不同頻次不同優先順序的報送,傳統排程無法自動化滿足複雜場景報送要求;
  • 新興資料來源與湖倉一體給資料開發和排程對於開源生態和國產信創生態提出了更高的挑戰;
  • 業務實時性要求更高,盈虧情況、資產賬戶資訊、持倉股票資訊都需要實時計算,批流一體對於大資料研發和排程都提出了更實時、更及時的挑戰;
  • 資料處理結果要支撐下游業務部門,部分業務關乎市場交易、公司經營,對於系統穩定性有極高的要求。
    在以上背景下,公司基於信創技術路線建設適用於券商業務場景的DataOps平臺,提供一站式的資料開發、任務編排、運維管理服務,目標提升資料需求的交付效率和流程管理水平。

概要

某證券公司證券基於白鯨開源旗下產品WhaleStudio打造DataOps平臺,為資料需求開發交付提供統一高效、完善的解決方案。DataOps平臺採用全棧信創,從伺服器晶片、作業系統到資料庫、中介軟體均選用國產自研產品,實現全面替換。DataOps平臺自2022年11月上線以來,提供了良好易用性、功能全面的資料開發工具集,資料共享交換、SQL指令碼開發、編排排程、任務運維、資料服務的整合,有效降低資料處理鏈路的開發成本。公司資訊科技部、基金子公司、期貨公司的資料開發人員基於DataOps平臺,對公司經紀管理、投資銀行、經營分析、託管等業務的資料需求進行開發、編排、排程,運維,平臺應用於公司反洗錢、實時盈虧計算、監管報送、資料精算等多個核心應用,累計編排定義工作流超過3000個,上線任務數量接近16000個,交易日平均執行工作流例項數量超過5000個,日均任務執行任務數量超過20000個。目前公司各業務線資料處理任務還在持續上線DataOps平臺,整個平臺規模還在持續增長中。
file

圖1 DataOps平臺模組

專案所涉及的資料來源情況

專案涉及資料來源:資料來源於該證券公司內部各業務部門實際使用資料,涉及交易、賬號、資金流水、融資融券、基金、期貨等等涉及公司業務各方面的資料,同時來自於內部研發和業務部門需求反饋統計,部分資料根據公司監管要求進行了模糊處理。

成果所涉及的資料驅動業務能力

DataOps平臺對於券商大資料治理的業務驅動主要體現在以下幾個方面:

  • 為了滿足反欺詐、監管報送等業務需求,基於工作流的任務編排可以將資料處理的各個環節進行串聯,開發人員能夠在全域性視角對資料處理鏈路進行定義、修改、運維。
  • 鑑於湖倉一體、多種業務相互關聯的背景,系統提供豐富的依賴方式,能夠支援對外部、內部條件的依賴觸發。並且支援依賴影響分析,幫助開發者快速瞭解任務上下游情況。
  • 鑑於監管報送有複雜的要求以及實時性要求,系統以平臺化方式納管全量的週期化任務,提供豐富的運維手段,出現故障第一時間通知運維。
  • 對於該券商內部10餘個部門,提供租戶-專案-使用者的許可權體系,在保證高效協作的前提下,有效控制團隊間任務和資源許可權,保證符合合規要求。
  • 根據券商特殊的交易市場業務,針對券商交易日曆場景設計自定義日曆和日曆函式功能,在配置大資料任務排程時間、業務日期、補資料等方面提供便利,使用者可以靈活根據業務日期的要求進行傳參。
  • 面對券商監管和合規要求,工作流、任務以及所使用的資源資訊都支援打包釋出,且提供相關API介面對接持續整合工具,從而支援資料任務的敏捷開發,符合DataOps發展趨勢。

綜上所述,DataOps平臺在資料任務的管理、開發、編排、運維等方面均提供了靈活豐富的解決方案,能夠有效提高資料需求的開發交付效率,同時藉助DataOps平臺也能讓整體資料需求的開發流程更加規範。

成果涉及的關鍵技術和工具平臺

某證券公司DataOps平臺以基於OushuDB為主的資料引擎作為底座,在此基礎上搭建資料交換平臺、離線/實時資料開發平臺、統一排程系統等子系統。DataOps平臺開箱即用,容易上手,各業務部門的資料分析師、資料開發人員可以自主使用平臺進行資料開發和配置。公司各資訊系統的資料由資料交換匯聚到湖倉平臺,再透過離線資料開發平臺和實時資料開發平臺開發資料處理任務。統一排程系統將各種型別的任務編排為工作流,以工作流承載整個資料處理流程,並納管任務執行節點,分配伺服器資源,定時進行任務呼叫。資料在DataOps平臺中經過清洗、抽取、標記、建模、分析形成指標資料或者結果資料,然後再透過資料交換或者資料服務共享給下游。

file
圖2 DataOps平臺功能架構

某證券公司DataOps平臺針對證券行業增加了企業級產品功能並加強系統安全與穩定性,提供使用者開發、執行管理、配置監控幾大模組,提供雲IDE開發除錯數十種資料環境之外,也幫助使用者低程式碼的拖拽或者匯入開發排程與資料同步任務,支援與Git整合實現自動化的CI/CD。助力企業資料消費者、資料探索者、資料分析家、資料科學家
,以及資料客戶/供應商提高排程效率,降低生產成本,有以下優勢:

  • 簡單易用:視覺化操作介面,直接使用拖拽就可以數十種資料元件的開發和呼叫,也可以使用Excel匯入或者Python程式設計的方式實現批次任務生成;
  • 節約人力:強大的運維和Ops工具,適配各種複雜開發和運維場景,可以結合Git實現自動化CI/CD,上線之後有多種運維工具和自動化處理機制幫助處理生產環境異常。
  • 執行穩定:各子系統服務均採用的分散式架構,部分服務節點故障不會影響整體穩定性,支援彈性擴充套件,從而實現效能線性增長,一個叢集可管理多雲百萬任務;
  • 多生態支援:支援雲元件、大資料元件、資料元件、AI元件、Http元件等數十種常見元件,並結合開源生態不斷擴充套件升級中。
  • 全模式DAG開發
    在後疫情時代,遠端辦公與A/B分組已經成為常態,而各種資料元件的複雜埠和各種開發使用的客戶端往往是遠端辦公的挑戰。同時,在現場辦公室來自不同團隊水平各自不同,有習慣使用程式碼開發的程式設計師,有隻會SQL的資料分析師,DataOps平臺提供全模式DAG開發能力,可以使用IDE、低程式碼、python程式碼、Excel匯入等方式,快速整合內部使用者和開發者的開發使用流程,最終實現內部的DataOps流程落地:
    file
    圖3 DataOps平臺DAG編排功能
  • 全研發鏈路管理
    在研發部署管理過程中有多種管理模式,部分採用DevOps的CICD模式,部分採用匯入匯出的部署模式,支援企業多種研發模式的管理,幫助企業快速適配DataOps流程,實現開發、測試、部署的整體流程提效:
    • 結合Git的CI/CD能力
      DataOps平臺與Git工具整合,該解決方案將持續整合/持續部署(CI/CD)實踐與工作流結合使用。CI/CD可以加快程式碼釋出速度,CI/CD不僅使開發人員能夠更快地做更多的事情,而且還使他們(和他們的運營夥伴)做得更少。利用好CI/CD有如下好處:結合使用我們自己的工具和開源工具來構建,測試和部署程式碼;自動測試,在程式碼審查批准後自動部署;模版化的CI/CD流程大大加快了構建和部署到多個雲中多個環境的時間;自動化測試和持續整合使部署更安全,更最佳化;CI/CD大大減少了構建和部署應用的時間,並消除了構建環境的問題;CI/CD管道自動化大大提高了團隊的交付速度。
      file
      圖4 DataOps平臺持續整合流程
    • 高效能全鏈路保障
      得益於去中心化的多Master多Worker機制,DataOps平臺的排程模組獲得了極高的穩定性和效能,目前在使用者生產環境已經有數百萬任務線上,秒級任務高大10萬併發都可以順利執行的實際案例。因為排程模組系統採用Master與Worker分離的模式,在保證高效能高穩定的的同時,也可以對呼叫的資源進行控制和分配,同時利用多租戶結合類似Yarn、K8s等底層資源池,可以實現任務之間的並行度控制、資源控制、使用者資源限制等諸多功能。目前經過測試排程模組比同型別排程產品Airflow效能要快15倍,同時也支援了更好的穩定性。
      file
      圖5 DataOps平臺排程模組分散式部署架構圖
  • 高效多維的排程監控運維
    在生產環境當中,經常會遇到一些不可控的意外情況出現,例如某些系統資料晚到、源系統變更或者出現一些特殊髒資料,導致部分任務和資料處理工作流異常。而大部分企業,管理層和監管層的日報對於上報的時間的要求是極為嚴格,如果沒有強大的工具幫助,此時就需要大量的運維工作來處理異常,而且極容易產生誤操作。DataOps平臺實現了一套強大的容錯機制和工作流執行管理,讓運維人員事半功倍的處理各種複雜場景。
    • 資料處理工作流、任務的血緣追溯
      file
      圖6 DataOps平臺資料開發任務血緣分析

    • 強大的容錯機制
      在企業資料執行過程當中,經常由於其它系統訪問或者大任務處理造成資料來源的響應時間過長,從而導致客戶端訪問失敗的情況DataOps平臺有豐富的容錯機制,讓使用者設定等待時間、重試次數時長等,最大限度的讓系統自動從錯誤機制中恢復,而無需人工參與。

  • 豐富的時間管理
    對於時間的變化經常會遇到各種複雜場景:例如日曆不是自然日曆,有多種業務日曆;切日時間不是正常的0:00分,而是特殊時間點;指令碼當中處理的資料日期與排程時間不同等。如果沒有強大的時間管理功能,企業非常難以推廣到更多的部門使用。
    • 多種日曆管理
      日曆管理支援按業務需求定製化,比如可以自定義跳過週末不執行,僅工作日執行。也可以將已有的日曆匯入系統中,或者透過提供的日曆模版編寫自定義日曆。切日時間調整
      使用者可以透過修改日切時間,更改日切T的日期邏輯判斷。如下圖,以跑批日曆為例子,日切時間為16:00,以20220323舉例,16之前,透過圖中T-1=20220322,可推斷T為20220323,16點之後T為20220324。
    • 資料日期(牌)管理
      建立牌(資料日期、業務日期),從而實現排程時間和資料業務日期不同的情況,DataOps平臺支援前後自定義翻牌;支援自定義指令碼直接生成業務日期數值。操作上,在DAG畫布中透過建立翻牌任務,關聯牌,這裡便是強大的業務翻牌任務的使用。

專案成果效益

直接效益方面

  • 在國際金融動盪的大環境下,加強反洗錢流程自動化程度和檢測效率:過去由於反洗錢涉及到多個信創、大資料平臺的計算,缺乏合適的自動化平臺化管理,很多指標依賴於大資料叢集,運維難度高。很多操作需要人工稽核或者修改程式碼,缺少視覺化、自動化的平臺和方法實現反洗錢業務流程效率無人看守和自動處理。使用本專案的自動化開發和排程平臺之後,人員運維投入減少50%,同時提升業務修改實現效率50%,可以打通整個反洗錢相關資料的獲取和服務,更好的為反洗錢業務提供資料支撐。
  • 提高監管報送自動化比率,減少人員手動運維20%工作量:監管報送含有多張複雜報表(有一些特殊複雜的需求,每月第一、第二、第六交易日需要取上個月最後一個交易日,每週第一、最後一個交易日跑上週資料和當天資料),過去使用之前幾乎每一個不同交易日都需要定製化資料處理任務,這樣設計比較複雜,開發週期長且容易出錯。新業務需求過來需要非常複雜的開發工作,而使用新平臺提高了整體新業務對於監管報送的工作量,整體運維和開發工作量減少20%。
  • 實現公司批流一體計算,讓經紀業務實現實時盈虧分析:使用本套平臺和可以利用批流一體對場外基金的盈虧資料做出實時展示,過去大多用離線資料批處理,對於增量資料處理用微批(半小時),這樣資料的時效性和準確性不夠,現在用離線+全量+實時增量資料(日間),這樣大幅提升了盈虧分析資料展示的時效性和準確性。可以對盈虧情況、資產賬戶資訊,持倉股票資訊等實現實時分析,讓經紀業務客戶滿意度大幅提高。

不可替代性:

智慧化的大資料開發和排程系統系統在大規模資料處理和分析中具有不可替代性,其自動化排程、分散式架構和視覺化設計能夠提高反洗錢、監管報送、經紀業務等業務的工作效率、減少人工干預、最佳化資源利用、提高資料處理速度等,在競品中有著獨特的優勢。其針對券商應用場景所設計的自定義排程日曆、日曆計算函式等功能,有效覆蓋複雜的排程傳參應用場景,具有鮮明的獨創性。

潛在效益:

目前DataOps平臺在多項證券業務上體現出顯著效果,公司在業務擴充、提高業務處理效率方面得到明顯提升,而平臺未來在更多的業務部門使用和適配,可以全面提高資料驅動效率,減少人工參與,在數字化轉型、資料湖倉一體化建設中都將發揮關鍵作用,是長期業務發展的前提和基礎。透過DataOps平臺上任務的高效執行,資料才能源源不斷地被彙集、分層、加工、輸出,為企業持續提供資料服務,將資料價值轉化為業務價值。

專案亮點及創新性

支援反洗錢,跨多系統依賴的自動化排程

反洗錢涉及到多個信創、大資料平臺的計算,缺乏合適的自動化平臺化管理,很多指標依賴多個大資料元件,運維難度高。很多操作需要人工稽核或者修改程式碼,缺少視覺化、自動化的平臺和方法實現反洗錢業務流程效率無人看守和自動處理。

反洗錢任務排程中一個重要問題就是如何解決依賴觸發,工作流中的任務往往具有上下游的依賴關係,很多工必須在某種條件達成之後才能夠執行。在資料處理鏈路中,可能涉及多個系統、多種業務的複雜依賴情況,針對此類問題,DataOps提供了多種方式的依賴管理方式。
首先是反洗錢工作流內部的依賴管理,這種情況使用畫布中的連線即可確定任務的前置任務。

專案內部的工作流之間的依賴,DataOps平臺的編排排程模組提供了子工作流的節點型別,可以直接將專案內部的某個工作流作為另一個工作流的任務節點,由此形成依賴。

對於對於反洗錢還涉及到多個業務系統資料的跨工作流的依賴,排程模組引入Dependent節點。此節點支援跨專案對整體工作流或者單個任務進行依賴。在工作流中可以引入此類節點,配置依賴的專案和任務,只有上游都執行成功,下游才可以繼續執行。
file
圖7 依賴配置圖
在反洗錢還有一類場景是任務依賴外部條件,如需要資料庫某個標誌或者是某個檔案的生成。DataOps平臺支援事件觸發功能,事件觸發分為檔案、資料庫和Kafka三種方式。

  • 檔案事件觸發方式會檢查使用者設定的檔案路徑的檔案是否存在,發現檔案存在可以觸發後續執行流程。
  • 資料庫事件支援使用者自定義SQL,一旦發現SQL查詢有結果即可觸發後續流程。
  • Kafka訊息事件,使用者可以配置Kafka資料來源,檢查指定Topic的資料是否到來,從而觸發後續執行。
    大資料開發與排程平臺在依賴管理方面為使用者提供了多層次的選擇,能夠滿足各種依賴的場景,讓人員運維投入減少50%,同時提升業務修改實現效率50%,可以打通整個反洗錢相關資料的獲取和服務,更好的為反洗錢業務提供資料支撐。

多種交易日曆實現建工自動化報送

監管報送含有多張複雜報表(有一些特殊複雜的需求,每月第一、第二、第六交易日需要取上個月最後一個交易日,每週第一、最後一個交易日跑上週資料和當天資料),過去使用之前幾乎每一個不同交易日都需要定製化資料處理任務,這樣設計比較複雜,開發週期長且容易出錯。而監管報送的資料日期與交易所開市時間密切相關,公司絕大多數的業務資料並非按照自然日進行處理的。

交易日曆中遇到節假日、週六周天的情況,都需要跳過處理。然而在各種業務資料的完成時間同樣有很大差異,例如基金申購、贖回、確認等,都可能涉及T-1、T-2等方式。因此排程時間和業務時間絕大多數情況無法同步,不能簡單獲取當前日期進行資料處理。

下圖列舉了A股市場資料處理中需要使用的日曆、排程時間,可以看出整個邏輯相當複雜。如果涉及香港、美股甚至其他市場的業務資料,那麼排程時間的複雜性就會成倍增加。
file
圖8 券商排程週期示意
DataOps平臺針對證券行業的排程需求,設計了日曆、牌、日期函式等工具,有效解決此類問題,提供靈活多樣的定時方式。首先引入自定義日曆功能,使用者可以點選或者匯入excel配置日曆。日曆的作用有如下三點:

配置定時的時候引用,用於控制排程日期。

配置牌值使用,用於控制業務日期。

補資料時候,業務日期範圍會與日曆取交集,來確定補資料的業務日期。
file
圖9 日曆配置
牌主要作用是為工作流確定業務日期,具體實現是關聯某個日曆,然後按照日曆的日期,在規定時間翻牌,從而達到業務日期的更新的目的。
file
圖10 牌的配置
結合日曆和牌可以靈活的設定排程時間和資料業務時間。例如:需要在每個交易日之前完成T-1交易日資料處理的場景,就可以使用跑批日日曆來配置排程時間,使用T-1交易日的牌來確定業務時間。

統一大資料開發和排程平臺還支援了日曆函式的相關功能,能夠基於任何一個自定義日曆和基準時間來計算日期,比如計算業務日期所屬月、當月第一個交易日、每年最後一個交易日等。利用日曆函式可以在工作流任務中靈活的進行日期引數的動態傳遞。從而實現新業務開發對於監管報送的自動化處理,整體運維和開發工作量減少20%。

批流一體計算,讓經紀業務實現實時盈虧分析

盈虧分析作為某證券公司蜻蜓點金App一個重要的功能,主要是為使用者提供當前賬戶資產、持倉、盈虧收益等資訊,幫助使用者根據當前持倉情況及時作出投資決策調整。因此,該功能不僅要向使用者提供準確的盈虧收益資料,也需要對資料時效性有一定要求。

過去受限於技術壁壘主要採用離線批處理的模式,凌晨會對全量使用者基金淨值資料進行離線加工,然後針對日間增量補充的資料則使用定時離線微批的方式,從而在開市期間為使用者提供盈虧收益資料,這種傳統的處理模式不僅處理流程複雜,而且時效性不足,存在很大的缺陷。因此有必要藉助新的技術和工具進行改造。

DataOps平臺作為某證券公司全新打造的研發運維一體化平臺,基於DataOps平臺,採用流批一體的處理模式,盈虧分析場景整體處理方式改造為離線批處理完成對夜間全量資料的計算加工,基於夜間全量計算結果針對日間的增量資料採用實時計算方式,實時計算能高效的完成增量資料的處理,極大的縮短了資料延遲,為使用者提供新鮮的基金持倉盈虧收益資料,幫助使用者及時作出投資決策,讓經紀業務客戶滿意度大幅提高。

許可權設計與全鏈路資料任務編排

大資料開發排程系統中在操作層面有專案、工作流、任務的開發、執行、上線等操作,在選單層面有定時、日誌、告警等配置,平臺涉及多種排程資源如日曆、牌、定時、資料來源等。所以在許可權體系設計過程中,涉及多種資源和選單的許可權管理,需要依託於專案來設計許可權體系。DataOps平臺採用租戶-專案-角色的許可權體系,具體描述如下:

(1)租戶下有若干專案,使用者需要加入租戶,才能加入租戶下專案;

(2)租戶作為資源管理單位,租戶中的日曆、牌、資料來源等在租戶下的專案中對使用者可見。

(3)在專案中分為管理員、資料開發、資料運維、訪客4種許可權,分別對應不同的選單和操作許可權。

(4)分為平臺級(不可修改的共享資源)和租戶級。平臺級資源由超管配置,對於所有使用者可見、可使用,比如日曆、牌、定時等。租戶級的資源,如資料來源、環境、worker分組、租戶內特殊定時、日曆、牌等,使用者自定義資源預設在租戶內專案下可見、可以使用。

綜上所述,在許可權體系方面DataOps平臺的理念為透過租戶管理資源許可權,透過專案角色管理選單和操作許可權。此種設計理念對於其他存在選單、資源、操作許可權控制需要的系統,都具有參考意義。

同時,DataOps平臺為了實現資料處理任務的編排,需要將資料處理全流程進行串聯,就不可避免要把資料中臺各個系統的任務進行串聯。針對這個場景,DataOps平臺支援了自定義任務型別的接入方式。

DataOps平臺採用API介面方式,抽象出來標準任務流程的介面:

  • 專案任務查詢介面:查詢當前專案下目標系統的任務列表,用於為節點選擇對應的任務。
  • 任務執行介面:根據任務資訊,呼叫啟動目標系統任務執行。
  • 任務狀態獲取介面:根據任務標識獲取任務狀態,用於DataOps平臺上任務狀態展示。
  • 任務實時日誌介面:根據任務標識獲取任務日誌資訊,用於檢視任務執行日誌。
  • 任務停止介面獲取:透過任務標識終止任務執行。
    目標系統的任務支援以上介面,就可以對接在DataOps排程模組上進行統一的任務編排。另外,DataOps的排程模組支援傳遞動態引數給目標系統任務,能夠達到根據傳遞的資料日期進行資料處理的目的,從而可以執行歷史資料。
    這種任務透過API抽象接入的方式,對於許多有系統互動、任務執行的系統具有借鑑意義。

跨環境的釋出方案

DataOps作為資料開發過程中的重要工具,必然涉及開發環境到生產環境的遷移。針對此問題,DataOps平臺的各子系統均提供了釋出打包功能,支援任務粒度進行跨環境釋出、匯入。具體的實現流程如下:

(1)使用者選擇專案、工作流進行打包,每個工作流任務資訊被轉化為json格式,按照專案工作流目錄進行存放,生產釋出包。

(2)使用者在測試開發環境打出釋出包,在生產環境進行匯入操作,系統會檢查相關排程資源如執行使用者、定時、日曆、任務組等資源是否存在,許可權是否滿足。校驗完畢之後,就會將相關工作流匯入到對應專案中。

在此生產釋出過程功能的開發和使用過程中,總結了以下經驗:

  1. 任務相關相關配置、資源資料都需要使用唯一標識,且保持生產測試環境保持一致。
  2. 使用者許可權在生產和測試環境需要保持一致。

全棧信創部署架構

DataOps平臺採用全棧信創架構,具體技術選型如下:
信創底座:在伺服器和作業系統的選擇上採用了全面國產信創替代的方案,其中:伺服器統一使用了鯤鵬ARM v8處理器,這種處理器具有出色的計算效能和節能優勢,能夠有效滿足海量資料處理的需求。作業系統則統一使用了麒麟V10系統,該系統透過安全加固和最佳化,保障了系統的安全可靠。

大資料底座:大資料儲存系統選擇國產極速雲資料庫OushuDB,這套系統既擁有強大的擴充套件性,具備良好的容錯能力,能夠穩定管理千萬級的資料,此外,OushuDB作為新一代分散式湖倉一體資料底座,可以提高查詢響應的速度,非常適合券商千萬級的互動式分析和報表生成等需求。

資料整合工具:實時採集工具從Attunity替換為了國產SeaTunnel。SeaTunnel具有配置簡單、採集低延遲等特點。離線採集工具從Infomatica PWC替換為國產DataX。DataX支援多種異構資料來源採集,可靠、高效、易於遷移。

資料處理工具:採用了國內領先的一站式大資料處理平臺數棧,提供離線指令碼開發和實時指令碼開發能力。

總體來看,本方案全面採用國產核心系統和工具,不僅考慮了安全可控的需要,也兼顧了效能和擴充套件性。從伺服器到作業系統,從資料儲存到資料採集,實現了核心技術自主可控,有效保障了券商資料的安全性。

聯絡方式
公司網站: www.whaleops.com
聯絡郵箱: zenghui@whaleops.com

下滑探索更多WhaleStudio的優勢,讓我們幫助你構建一個高效、安全的大資料解決方案。🚀

本文由 白鯨開源 提供釋出支援!

相關文章