達觀智慧文件審閱系統,推動證券非結構化文件處理提質提效

達觀資料DataGrand發表於2021-12-02
隨著智慧證券的推動發展,利用 OCR、NLP等先進技術解決基金確認單、託管劃款指令、基金宣推材料審批、通用表格解析多類場景的非結構化文件的資料識別與處理,實現相關場景非結構化文件的 識別解析、智慧稽核及與業務對接等,並透過平臺化建設提供一定的可擴充性和泛化能力。 實現提高業務自動化率、節省人力,提升業務辦理效率、提高滿意度,降低業務差錯率、促進業務創新等目的


lQLPDhrrbzlCIIXNA-jNCS6w-nqyBpd4DQwBrvqHkYA2AA_2350_1000.png_720x720q90g

以某一線城市的證券經濟管理部門業務為例,需要對基金公司釋出的宣傳海報裡的過往業績、基金評價、風險提示、股東背景等要素按照證監會要求進行審批。業務人員接收到的海報材料五花八門,且不同基金公司不同型別的樣本質量參差不齊,使得業務人員花費大量時間在稽核過程當中。

達觀智慧文件審閱系統可以從樣本中找出關鍵稽核要素,透過對現有業務痛點的深入分析,基於 OCR、NLP、機器學習等金融科技能力構建非結構化 文件智慧稽核平臺,將非結構化文件數字化、結構化,實現內容的 自動識別、智慧提取、智慧稽核,在節省人工的基礎上達到提質增效的目的。
lQDPDhrrbzR9bKHNAjzNBFOwsmlRv8kiRFwBrvp_9MC5AQ_1107_572.jpg_720x720q90g

智慧文件關鍵要素抽取預審


以基金公司宣推海報為例:

1、透過全篇海報副文字提取,支援 禁用詞庫靈活配置,機器智慧稽核海報語義合規性

lQDPDhrrbzR9bHPNAWjNAbWwMEBOlguynLoBrvp_9MA2AA_437_360.jpg_720x720q90g
禁用詞庫自由配置,可根據不同詞性做詞庫歸類與分級

2、針對宣推樣本特點,針對性表格抽取模組,對錶格進行 規則抽取與組合抽取,將基金公司與業績評價組合起來變成可能,透過模型增加召回率。

lQDPDhrrbzR9bH7NAjPNBFOw7ahP0E2jDxMBrvp_9UC8AA_1107_563.jpg_720x720q90g
靈活新增新的禁用詞,次數代表該禁用詞被擊中的次數

3、透過字型、位置資訊,“理解”文字,分辨出股東背景、風險提示、特殊基金等 重要資訊進行稽核。

lQDPDhrrbzR9bH_NAkrNBFOwcu3rHtd3DgIBrvp_9MC5AA_1107_586.jpg_720x720q90g
根據證監會不同時期要求,對海報新增稽核規則。規則分為邏輯 與必有必無規則,支援靈活配置與調整。

首先會進行機器預審,抽取原文綠色則是透過,紅色則是預審不透過。並且在原文中會對關鍵元素高亮以及定位,快速定位問題核實結果。根據不同規則,在稽核詳情中清晰明瞭的展示稽核依據,便於業務同事快速判斷預審準確性。

截止2021年10月, 達觀智慧文件審閱系統已完成對120多家基金公司的確認單解析,支援PPT、複雜類、一頁通等七類宣推海報的解析與100多個關鍵要素的識別和抽取, 透過智慧識別、智慧審批,有效節省業務人員的稽核與比對的工作時間,並降低業務的差錯率,真正實現了資訊化、智慧化辦公。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2845301/,如需轉載,請註明出處,否則將追究法律責任。

相關文章