在人工智慧時代下,如何讓券商的資料做到「快準穩」

DataPipeline發表於2018-12-10

財通證券股份有限公司是一家經中國證券監督管理委員會批准設立的綜合性證券公司,成立於1993年的浙江財政證券公司,現為浙江省政府直屬企業,主要經營證券經紀、證券投資諮詢、證券自營、證券承銷與保薦、融資融券、證券投資基金代銷、代銷金融產品等業務。

作為公司中不可或缺的一部分,財通證券的資料團隊管理著日增約為6000多萬 – 1億條的資料,為公司的不同層次、不同型別的服務提供著穩定可靠的資料資訊。

人工智慧的新時代下,為實現批次化資料整合,財通團隊放棄老式整合工具,選擇DataPipeline的產品,用5分鐘就完成了以前需要50個小時的任務配置工作。除此之外,DataPipeline獨有的跳板機設定,減輕了資料團隊潛在的管理負擔。

中小型券商資料團隊的痛點

全國120家券商,約40家的中大型券商企業已經建立獨立的基礎資料部門,而對近80家中小型券商企業來說,資料團隊都是在成立中,或者是在二級部門的狀態。

對於中小型券商,一個很大的痛點就是資料整合的問題。這是由於資料組人力資源非常有限,而資料整合因為對效能和穩定性要求高,開發繁瑣,變化頻繁又無法外包。對於資料整合,大多數券商平臺使用的老版的ETL資料整合工具,由於採取單表級粒度,導致抽取任務的開發,排程管理及測試效率較低。而券商資料流的特點是任務基於清算狀態,當上遊的生產系統完成清算後,資料任務啟動取數至中間庫,當取數任務完成後,再觸發下游系統消費資料。

對於企業級的券商平臺來說,初步的資料採集不需要做繁複清洗轉換工作,只需提供貼源資料給到下游合作商來加工和處理。

其次,目前的常用抽取工具不能對資源進行相對精細的控制。由於上游系統具有強勢的生產性質,券商系統對於資料採集的資源消耗要求很高。券商的預警機制基本在系統流量到30%以上開始預警。

資料使用端沒有驗證規則,沒有自己的冗餘性機制,所有的壓力都在源端資料層。隨著管控的資料規模不斷增加,源端資料出現問題的風險也在提升,導致資料團隊填寫事件單已經成為家常便飯。

另外,對於金融企業來說,資料安全是重中之重,所以核心系統的資料都是透過網閘進行網路隔離。使用老版資料整合工具的時候,由於老版資料整合工具的特性,導致資料團隊的整體服務都必須放在內部網路,一旦任務失敗,團隊必須去到現場的內網機器進行操作,運維十分困難。

解決方案

我們(財通證券)選擇與實時資料管道技術上領先的DataPipeline進行合作,打破了傳統工具在ETL上的束縛。財通證券基於DataPipeline開放的底層平臺,開發了監控預警、資料校驗、個性化排程等功能,以產品化加開放API的組合拳,實現了符合證券行業應用場景的資料整合方案。

批次化的加速提取

在目前大資料時代,資料的加工流程已經發生了變化,從以前的單表採集、清洗轉化、落庫(ETL)轉向資料單純採集不進行轉化直接落庫。所有的轉化在資料落庫後透過大資料技術進行清洗轉化(EL)。

而目前市場上,更多得資料採集的粒度還是在單表級,並且需要進行視覺化轉化清洗等操作,浪費了不必要的時間。

DataPipeline適應了時代的需求,採取批次化的採集方式,同時對同個系統的幾十幾百個表一併採集,大大提高了我們(財通證券)的資料採集效率。

對資源的監控

老版資料整合工具等抽取工具,在執行的時候會完全放開抽取程式的能力,會有很好的抽取速度,但是由於沒有辦法進行統一的任務管控,這會對上游系統的資料庫造成很大的壓力。

使用傳統的整合工具,我們最高能消費掉到系統生產備庫50%的效能,單庫每秒鐘的流量條數接近10萬,但這樣做就觸發了上游系統的預警,為保證生產系統的安全穩定,採集系統必須進行波峰限流。

DataPipeline的工具定義了採集條數和採集流量的雙重閾值,而且由於其任務是對於整個任務下的所有表的總值進行限定,粒度更加適合企業級統一採集工具的使用,保證了企業應用的安全性。

跳板機的實施

作為金融企業,資料安全是重中之重,所以核心系統的資料都是透過網閘進行網路隔離,如何快速將資料從不同的網路環境抽取資料,那麼就需要透過跳板機模式進行處理。

DataPipeline透過跳板機的方式,讓跳板機承擔資料中轉服務,整體採集的控制端存放在非內網環境,確保出現問題可以在外部環境中進行直接管理和問題排查。

值得一提的是,DataPipeline是市場上唯一可以做到這一點的公司。

人工智慧時代的考慮

券商以前追求的是高質量的可用資料(結構化資料),如視覺化的股價、經濟資料等。在人工智慧時代下,更多維度,數量更大的基礎資料(結構化或非結構化資料)顯得更加重要,所以需要採集的表的數量更多,資料也分佈在更多的業務系統。各系統的資料庫型別也不一樣,所以也出現了對於異構資料庫抽取到某一個特定的資料庫這樣的需求。

業內更多使用的是訊息中介軟體的方式去進行,而DataPipeline在上游資料來源和下游資料庫之間建立中介軟體,使用通用的中介軟體架構完成非結構化和結構化資料的架構統一。

高效的服務,肉眼可見的成果

DataPipeline的研發團隊的工作期並不止於產品完成。交付產品後,DataPipeline團隊在短時間內對客戶的各種行業特性需求快速響應,本著客戶至上的原則,為財通提供了優質及時的服務。

三月份與貴公司(DataPipeline)談一次需求的最佳化,很快改版就出來了。基本上券商行業的一些特定需求都可以很好地滿足了。

這樣的效率帶來的高效結果也不會驚奇:僅僅是提取結構性資料一項,DataPipeline就“完爆”了前輩的老版資料整合工具。使用老版工具,幾百張表的抽取配置需要花費50個小時,而使用了批次化採集的DataPipeline基本可以在5分鐘內完成。

結語

由於金融行業具備的資料同步與集中性,ETL對效能和穩定性要求非常高。而ETL開發繁瑣,變化頻繁又無法外包,這就成為了所有券商的痛點。財通證券作為一家典型的券商公司,透過DataPipeline的幫助,更敏捷、更高效、更簡單地實現了複雜異構資料來源到目的地的實時資料融合和資料管理等綜合服務,使中小型券商的痛點得到有效的解決,並且為新時代的到來做好了充分的準備。

相關文章