本文為文因互聯 CEO 鮑捷博士於中國國際大資料產業博覽會(以下簡稱數博會)智慧金融發展分論壇所做演講。數博會由貴州省金融辦、貴陽市金融辦指導,華創證券承辦。
作者:
鮑捷博士,文因互聯 CEO。擁有20年學術界和工業界的相關經驗。美國Iowa State University人工智慧博士,RPI博士後,MIT訪問研究員,W3C OWL(Web本體語言)工作組成員,前三星美國研發中心研究員,三星問答系統SVoice第二代系統核心設計師。主要研究領域涵蓋人工智慧的諸多分支,包括機器學習、神經網路、資料探勘、自然語言處理、形式推理、語義網和本體工程等,發表了70多篇領域內相關論文。是中文資訊學會語言與知識計算專委會委員,中國計算機協會會刊編委,W3C顧問會員會代表。2010年以來關注金融智慧化的研究和應用,成果有XBRL語義模型,基於知識圖譜的基本面分析、金融問答引擎、財務報告自動化提取、自動化監管等。
以下為演講全文:
鮑捷博士:大家好,我今天分享的主題是“智慧金融系統的構建”。
2015年回國那會兒大家都在問我,是不是做網際網路金融的,但最近一年半的時間更多談人工智慧和智慧金融。這兩者之間有關係的,我稱為Fintech的上半場和下半場。
Fintech從強調“觸達”的上半場走入了強調“重構”的下半場。
上半場網際網路金融具備低成本、無邊界觸達的特點,使得金融服務的客戶群體擴大至從前未獲傳統金融服務覆蓋的群體,這也是網際網路金融業迅速壯大的基礎。但在此過程中流量轉化是關鍵,簡單的使用者轉移很難帶來持久的發展。
相較於上半場強調金融業務舊模式的升級,下半場則強調技術的創新,不僅僅是對傳統業務進行擴張,甚至也是對很多原來不存在的一些產品,一些不存在的業務。你會突然發現它已經可以開始做了。
從現在常在媒體看到的話題講,涉及的核心技術包括人工智慧、大資料和雲端計算等,主要產品和服務形式包括智慧投研、智慧投顧、大資料徵信、電子貨幣等。但是智慧金融帶來的變化是遠遠不止上述環節的,它本質上對原有業務的重構,通過解構原有的業務流程,標準化和自動化其中的一些環節,從而創造出新的業務,甚至全新的商業模式。這個過程不僅僅是技術的革命,更是組織方式的變遷。
我們非常容易高估技術的短期價值,低估技術的長期價值,在人工智慧方面就是特別明顯的一件事情。
金融的聲納和攝像頭在哪?
智慧金融發展到今天,也是依託於金融業過去20多年在IT方面不懈的努力,分為四個階段。
第三和第四階段是智慧金融包含的方式,自動化就是從繁瑣到簡單,智慧化是畫龍到點睛。
舉一個不是金融的例子,但有借鑑意義。上海市有一個禁鳴政策,這個政策一直沒有被執行。大量的車輛,人工太難檢測了。兩年前上海市政府開始探索,最近上線了一種系統,就是聲納禁鳴的檢測系統。
這個技術其實以前用在戰場找狙擊手的,但是現在可以用於民用,只要汽車按了喇叭,馬上就可以找到。據稱,是在上線三天之內通過罰款收回了鉅額的投資。
我們想一想,金融市場是不是也可以佈滿“聲納”和“攝像頭”呢?現在金融市場上的文件非常多,浩如煙海。2017年這一年就有這麼多文件:
所有都用人工來讀沒有辦法做到。
我們之前和一些監管機構進行了合作,監管機構能夠處理這些文件的人,一般不到100個人。用不到100個人的人力處理幾十萬份的文件,這顯然是做不到的事情。
這個局面跟上海市的禁鳴政策一樣,浩如煙海的資料使得目前人工沒有辦法來解決了。怎麼辦呢?用機器處理。
用機器處理大量的資料並不是現在才發展的,在美國十幾年前就有了。
先講一個新聞,說的是對衝基金的基金經理,如果能做更多的功課,就能賺更多的錢。
這個新聞的來源是美國萊斯大學的一項研究。這個研究是有資料的,它是說,如果你這個基金,每個月至少在美國的證監會SEC下載一份報告,那你下一個月超過平均收益率的,超額的收益率,如果年化之後,有1.5個點。對一個很大的資金量來說,1.5個點是非常非常多的錢。
這個新聞實際是講什麼呢?無外乎就是財報和公告。其中一個比較有意思的統計數字是這樣的,有很多家機構都在從SEC自動下載文件,每月下載的中位數是4份。但是平均值高達672份,這說明什麼問題?說明可能有少數幾家機構下載了大量的文件。文章也透露說,這部分機構是用機器自動爬取的。
補充一個小背景,像美國的證監會SEC,它上面掛出來這些文件,是用一種機器可讀的格式,叫XBRL的格式來表示的,就是說它直接給了你欄位,每個欄位對應文字,你就可以直接提取你關心的資訊。
當然了,這個新聞裡面也提到了說,它們根據分析ID地址,查到了頭部機構的資訊,比如說有文藝復興公司,還有一些其他的對衝基金。而文藝復興的CEO Robert和現在的CEO Peter在業內他們還有其他的身份,他們都是NLP的老炮。
現在這個結論已經呼之欲出了,他們就是自動地從證監會的網站上下了一些重要的文件,然後用機器自動閱讀文件。
並不是說我們能夠獲取公開市場的資料對它進行理解就可以賺很多錢,對衝基金以及各種金融機構都有一些自己內部的資料,但是內部的資料大部分也是以文件的形式存在的,這其中的關鍵在於效率。
所以以偏概全地說,這件事情很核心的一個步驟,就是自動文件的理解。
如何讓機器讀懂文件資訊?
金融這件事情,在以前我們更多是用人的知識,用人的經驗在進行投資,但是現在資訊大量地聚集和生產,這種模式恐怕不能再繼續下去,如何及時獲取文件、提煉核心資訊、分析思考判斷,可能越來越會由機器來執行。
核心是如何讓機器讀懂相關資訊。一個資深的分析師、諮詢師讀報告沒有問題,問題是如何讓優秀高中生做這個事情,甚至如何讓機器來做這個事情,這是不容易的。
坦白來講,雖然人工智慧在媒體上炒得很火熱,在應用中更多遇到“人工智障”,如何進行利用,有大量的工作要做,有非常多的演算法來整合,這不是一個有靈丹妙藥的事情,其中有大量的工程。
這裡面的核心技術,就是如何來機器來讀“懂”這樣一種技術。核心就是兩大塊:一塊是自然語言處理,二是知識圖譜技術。
今天不是一個面向技術的論壇,所以在具體的演算法上不再多說,簡單從原理層面上概述一下。機器來讀報告和人讀報告非常不一樣,比如機器看到一幅畫的時候,它看到並不是這個畫裡面的內容,我們人看到有物體、海灘、大海、樹,機器看到是一大堆畫素。
看報告是一樣,比如年報上看到一張PDF有一財報,是一張表格,實際上機器看到的PDF並不是報告本身,而是一大堆面向印表機的列印指令,那個列印指令幾乎丟掉所有語義資訊,我們怎麼樣把它還原過來呢?就需要非常多的技術,這裡不細說了。
其實最難的是裡面這些的具體實踐,“踩坑”的過程。
比如各種關係的識別、公司上下游的識別、人物關係的識別、產業鏈的識別、親屬關係的識別等等,在每一個具體的領域會有具體的應用。比如說審計、監管領域都會有相應不同的問題要解決。
每一個問題的解決,都需要綜合應用自然語言處理各種不同的方法。包括深度學習的方法,包括規則的方法,包括人機互動的方法,所以我們在實踐當中應用大量的方法綜合。
文因互聯現在最主要的工作,圍繞著如何把金融報告、讀懂金融報告自動化和智慧化。由此衍生出幾個方向:
一個是監管自動化,二是審計自動化,三是資管自動化,四是服務自動化,五是投研智慧化。
這裡面有一個當前的瓶頸問題,之前很多人工智慧的實踐是用機器學習來做應用,比如風控、營銷。我們面臨一個問題,傳統的機器學習演算法是在機構化資料上來做的,所以必須要有資料庫和圖譜。問題在於這個資料庫和圖譜在哪裡來的?這就是“米”的問題,先有米,再有飯。
先把資料庫和圖譜做出來,然後再有自動化和智慧化。
金融領域自動化解決方案
總的來說我們做的是金融數字世界裡的“攝像頭”和“聲納”。
在不同的領域,比如在自動化監管裡面,我們做了一些嘗試,以前幾十萬份、上百萬份的公告都人工來讀,來做摘要,是否合規,是否披露,都是由人工來做。現在我們做的嘗試就是用機器來讀,通過兩年的時間有了比較正面的結果。我們現在對資訊披露裡報表的機器提取,已經可以做到接近人工提取的正確率。
甚至以後像“開罰單”的動作,例如監管機構發出的問詢函和反饋意見,底稿可能是機器來做。
同樣工作可以放到審計上,中國現在有23萬個審計從業人員,審計有大量的時間,大概有20%左右的時間花在非常初步的報表複核的工作,非常繁瑣。現在我們在探索自動化,也有了很好的結果。
以前只需要做上市公司的審計,現在一下子有新三板的審計,還有《會計師準則》和中外會計師準則的綜合……如果我們靠人力增長來做可能是來不及的,恐怕我們需要藉助機器來加速這個過程。
在資管領域也做了一些嘗試。以前大量的工作都是人工來做,犯錯誤就是很可怕的事情,現在整個資料的錄入、檢查和規則的匹配、預警,都可以自動化或者半自動化,極大節省了人力。
我剛才提到了三個方面,還有很多領域,比如說銀行、稅務都可以用到類似的方法來進行自動化。
手工業思維 PK 大工業思維
回到我們剛才講到的話題就是Fintech的下半場,在我看來主要是一個重構的過程。
這裡講一下重構到底是什麼意思。按照我個人的理解,智慧金融跟傳統的網際網路金融是非常不一樣的,雖然從技術上講都是一種新的技術,但是網際網路金融是一種解決規模的問題,而這種智慧金融更多的情況下是把很多東西拆了切碎了重新組合起來的事情。
傳統的這種金融服務業,按我個人的理解,可以分為幾大類,我把它們戲稱為“農業”、“礦業”、“手工業”和“大工業”。
比如說傳統投研,非常依賴個人的經驗、個人的人脈,所以非常像一種手工業的行為,但是這件事情是不是永遠像這樣呢?中國現在不到5萬個,券商裡面不到1萬個分析師,是不是擴充套件到10萬人、20萬個人,才能滿足我們不斷增長的業務需求呢?應該不是這樣。
而大工業要做的,並不是說比手工業更好、更精緻的產品。大工業很難做到這一點,大工業用可複製的技術建立一種協作,建立出有質量保證的產品出來,這就是所謂智慧金融的在長期能帶給我們的“重構”。
很多事情我們現在可能還無法完全預測到到底是什麼,但是我們可以想象得到,當所有機構之間資料的交換,從企業、到中介機構、到監管機構、到投資者能夠有非常快速的通道的時候,現在人工做的很多工作都可以自動化,監管自動化,審批和信貸等等都可以都可以自動化,這是非常有趣的事情。
當然這是非常長的工作,它很難通過一個複雜的系統一下做出來,可能有一個發展階段,現在這個階段還比較早期,現在整個市場的投入量和人才都非常少,整個人才市場大概不到幾百人。現在比較成熟的應該是在零件和工具這個層面,完整的系統構造還沒有完全做到,可能要多花幾年時間。
要花一些時間把基礎的標準件提出來,如何從複雜的文件當中把資料提取出來,如何進行資料的分析。比如說相信每個金融人士都有維護自己的Excel表格,以後能不能形成標準件呢?比如說財務標準,為什麼要好多人來學呢,機器都可以做到。包括監管、審計很多領域都有這樣,大工業核心其實就是標準件化。
文因互聯致力於提供智慧金融的標準件,部分展示如下: