AI助力智慧投研|廣發資管聯合達觀資料打造智慧知識圖譜系統

達觀資料DataGrand發表於2021-06-18
隨著人工智慧技術的發展與應用,知識圖譜作為AI進步的階梯越來越受到學術和產業界的重視,並且已經在很多金融領域體現了應用價值。作為證券的龍頭企業,廣發資管一直走在技術創新的最前列, 在廣發資管與達觀資料合作的知識圖譜系統中,透過AI賦能智慧投研,有效提升投資效率。 知識圖譜
達觀知識圖譜平臺致力於以知識圖譜為中樞的知識中臺,為企業實現一整套圖譜全流程設計構建工作。從原始資料來源(包括結構化資料、非結構化資料)、資料集管理到設計、構建圖譜以及圖譜的管理、應用,進行了平臺化、工具化的功能整合和最佳化。
主要功能包括:達觀知識圖譜首頁、圖譜管理、圖應用、時序圖應用、機器學習建模、圖譜模式設計、實體和關係標註、資料來源管理、資料集管理、知識獲取、系統管理等功能模組。
知識圖譜2
在智慧投研場景中,知識圖譜平臺依託資料和技術,用機器輔助研究與投資。以下介紹達觀資料與廣發資管合作的知識圖譜系統在智慧投研場景的應用實踐。

#1  智慧投研圖譜建設主要需求分析

智慧投研以資料為驅動,經過NLP自然語言處理後形成直觀的視覺化指標資料,最終給決策參考帶來有價值的投研情報。在這過程中,要實現最終的視覺化投研情報,我們主要需要做以下幾點:?圖譜構建:在最新的圖譜技術框架上構建公司基礎圖譜、公司關係圖譜、股權結構圖、證券圖譜、地區圖譜、地區公司圖譜、產業鏈進出口圖譜、國家進出口圖譜、人物圖譜、行業圖譜等。?關係量化:透過特定數值權重和演算法,將圖譜節點之間的關係量化成數值,圖譜節點根據風險程度(或者實體重要性、實體關注度等其他權重)來展示顏色、大小。?智慧搜尋:按照公司關注度對搜尋結果進行排序,根據關係量化結果智慧推薦實體重要的關聯方。

#2   智慧投研圖譜建設解決方案

達觀圍繞以上三點主要訴求進行方案設計,構建起一套完整的知識圖譜系統。

圖譜構建

以下為一個圖譜構建完成的例子來介紹整體圖譜結構:
知識圖譜3
01

公司基礎圖譜

透過公司基礎資訊、財務指標、關聯公司、關聯證券和屬性等資料來了解公司相關資訊。
知識圖譜4
02

公司關係圖譜

檢視公司間多重關係、公司關聯方的特徵分佈。
知識圖譜5
03

股權結構圖譜

股權結構透過股權關係,可以瞭解一個公司投資另一個公司及投資佔比。
知識圖譜6
04

人物圖譜

從公司基礎資訊表中將人物資訊作為節點,將個人資訊與公司進行關聯,將任職關係表中的公司程式碼與公司節點進行關聯,構造圖資料庫中人物圖譜。
知識圖譜7
05

證券圖譜

展示公司發行的證券相關資訊,支援檢視證券的關聯公司和詳細屬性。
知識圖譜8
06

地區圖譜

展示所屬地區的多重關係、地區經濟財政資料等。
知識圖譜9
07

地區宏觀圖譜

檢視該地區經濟財政資料。

知識圖譜10

08

地區公司圖譜

檢視當地公司間的多重關係、公司關聯方的特徵分佈。
知識圖譜11
09

行業圖譜

檢視公司間上下游關係及公司從屬行業
知識圖譜12
10

產業鏈公司圖譜

透過公司間上下游關係推導行業間上下游關係。
知識圖譜13
11

產業鏈進出口圖譜

根據世界投入產出表檢視國內行業對外進出口關係及依存度。 知識圖譜14
12

國家進出口圖譜

根據世界投入產出表檢視國家間進出口關係及密切程度。 知識圖譜15

關係量化

此過程主要重在梳理原始資料中關係量化的規則。首先,公司與公司之間存在股東、子公司、孫公司、投資、合營、合作、擔保、訴訟、實際控股、債權、債券、上下游以及其他關係。 規則可根據相應關係梳理為對應的投資佔比、表決權、擔保金額、刑事訴訟、民事訴訟、行政訴訟、仲裁、發行債券等來定義權重, 最後由模型演算法算出綜合得分。其次,公司與人物之間存在投資、高管、實際控股等關係。當投資佔比、控股比例的不同會有相應的權重得分。最後,綜合以上兩方面的權重得分,再次計算出最終的關係量化數值,圖譜節點亦根據該數值(風險程度或者實體重要性、實體關注度等其他權重)來展示顏色、大小。
知識圖譜16
在這個場景中,存在的挑戰如下:第一是 資料的龐雜和異構。在投研場景中面對的資料型別和資料來源非常豐富,且存在多個資料庫系統的集合。第二是 面臨缺乏專業投研領域的人員參與。這極大的增加了梳理資料的成本。

智慧搜尋

在投研工作中,投研系統一般都會提供基礎搜尋服務,但面臨資料的複雜性, 基礎搜尋無法有效輔助投研人員快速從海量資料中找到所需要的資訊價值點。因此,在基礎搜尋之上,根據專案實際搜尋規則,模型演算法計算出搜尋推薦的排序得分,以提供 精準搜尋結果的服務,最終可以協助投研人員快速查詢到所需的問題答案,極大的提高了投研中在資訊分析方面的工作效率。
整個搜尋最佳化主要使用場景為 搜尋聯想排序和搜尋結果排序。當輸入內容(下文用query)與資料中的實體名稱完全匹配時,搜尋排序按照相關度演算法結果進行排序;當query與資料中的實體名稱進行模糊匹配,資料庫中有多個實體名稱與query相關時,多個實體需按一定規則進行排序。第一層:優先按照相關性排序;

第二層:返回的相關多個實體,按照型別排序:

優先返回:公司,Company

其次:債券,Bond

再次:行業,Indusrty

第三層:存在多個結果都與query相關時,按照實體得分進行排序,例如輸入“招商證券”,可以匹配到“招商證券股份有限公司”、“招商證券資研究發展中心”、“招商證券股份有限公司深圳前海證券營業部”等,按照實體的得分進行排序來提供精準搜尋結果。

投研的智慧圖譜透過資料結合邏輯,在有了海量資料後,結合專家邏輯, 達觀資料建出了一整套系統,將投資分析的研究體系沉澱於知識圖譜系統中,為投研量化研究提供了良好的基礎設施。 目前,作為中國知識圖譜領域代表廠商,達觀資料參與IEEE知識圖譜系列標準研製工作,積極推動知識圖譜在國內的發展與規範及參與編寫《知識圖譜選型與實施指南》。 達觀知識圖譜平臺可廣泛應用於金融、汽車工業、電力電網、能源、消費電子、通訊、積體電路、船舶製造、材料、航空航天、製藥、醫療裝置、機械裝備、礦業、鋰電等領域,賦能企業向知識驅動轉型,啟用企業創新能力,助力實現十四五規劃和2035年遠景目標。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2777415/,如需轉載,請註明出處,否則將追究法律責任。

相關文章