【導讀】2017年7月20日,國務院釋出《新一代人工智慧發展規劃》。文中指出:2020年人工智慧核心產業規模預期超過1500億元,到2030年有望超過1萬億元。其中,智慧金融被列為重點發展產業。智慧金融有三個風口的交集之稱,即網際網路、金融、人工智慧,一直是業內關注的焦點。文因互聯 CEO 鮑捷博士於2017年5月18日在巨杉資本的演講,將深度探索智慧金融破局。文章全文一萬五千字,為方便閱讀,將分為上中下三篇進行推送,敬請關注。
以下為正文
鮑捷:1998年,我就開始從事人工智慧,在不同的機構,IowaState, RPI, MIT, Samsung 等,做了不同方向的研究,主要包括神經網路,機器學習,語義網以及自然語言處理,經歷過兩次 “小 AI 冬天”。今天從我個人的經歷討論智慧金融要如何破局。
人工智慧主要有三個大的分支,一個是神經網路,現在叫深度學習;一個叫機器學習;還有一個分支叫做邏輯或者知識系統。這三個分支,我分別花了五六年的時間,最近幾年就在做自然語言處理方面的工作。從好的一方面來說,我們要去實施任何一個系統都需要綜合應用人工智慧不同領域的演算法才能夠完成任務;但是從不幸的角度來講,由於人工智慧是一個非常魔術的領域,大家對它有非常高的期望,非常高的期望之後就是非常高的失望,這就是所謂的 AI 冬天。大的 AI 冬天有兩次,70年代一次和90年代一次,但是在人工智慧的每個細分領域裡面都有小的 AI 的冬天。
未來還會不會有 AI 冬天?我覺得這得取決於我們對這件事情的態度,如果我們是實事求是的態度,是可以做出一些成績來的。 在將近20年的研究生涯中,在 AI 專案中我經歷了太多的失敗,從很大的國家的專案到企業的專案,到開源社群的專案,到標準化組織的專案、跨國公司的專案、學校內的專案,陸陸續續有二三十個專案,大部分專案都失敗了。為什麼?因為創新一定是伴隨著很高的失敗。
我總結下來,在這麼多專案的失敗當中,是有共性的,什麼專案會失敗,什麼專案不會失敗。所以到我2013年開始文因互聯(實際上2013年在矽谷成立 Memect,2015年在國內成立文因互聯)這個專案以後,便盡我所能,讓我在市場上看到的和研究生涯中經歷過的錯誤不要再犯。 今天我講的很多東西,也是基於這麼多專案的屍骸總結出來的經驗。
我們為什麼選擇金融?最開始是因為我在學校裡面,做了幾個跟金融相關的專案,2010年的時候,XBRL 語義模型,當時我在 MIT 做的一個專案,上市公司在提交年報和季報的時候,都會有一個 PDF 檔案,伴隨 PDF 檔案會有一個機器可讀的檔案,這個格式的名字就叫 XBRL,所以我提出了它的語義模型。
隨後,在2011年的時候,我和我的一個學生做了基於語義分析和社交媒體資料的基本面的分析。那篇文章拿到 IEEE 金融工程師計算智慧會議的最佳論文。題外話,那個時候有一個特別火的名詞——大資料的基金。實際上這個詞是2010年 Indiana 大學的一個老師最先提出來的,後來那個老師就辭職出來創業——但過兩年就破產了。
到了2015年的時候,我們開始有文因互聯這個團隊,目前在北京。我們這個團隊現在將近20個人,主要是以技術為主,核心團隊都是從美國回來的,包括創始人和首席科學家。在這一年半的時間內,我們嘗試了很多東西,從最早的新三板資料開始,因為那時候萬得和東方財富還沒有開始提供新三板資料,所以我們算是最早一批開始接觸資料來源,我們自己去扒這個資料。後來做了搜尋引擎,自動化報告,微信機器人以及公告摘要系統。
人工智慧是一種自動化
有人開玩笑說智慧金融就像 Teenage Sex “everyone’s talking about it, only a few know how to do it, they all think everyone else is at it and so pretend they are too ” 實際上沒有網際網路的時候,就已經有這個笑話了。每一個新技術出現的時候這個笑話就會被再拿出來一次,每個人都在談論它,只有很少人知道該怎麼做,每個人都假設別人在做,所以假裝自己也在做。
現在輪到智慧金融被套到這個上面來了。這種新聞,我相信大家最近經常會看到,以前大概是每週一次,現在我估計應該是每天一次能夠看到這種新聞。比如說高盛或者是什麼交易所,反正萬變不離其宗的標題,因為某個什麼什麼技術,所以某個職業失業了。我在這裡跟大家打一個賭,在今後5年之內,在座的任何一個人都不會因為人工智慧的影響而失業。如果這件事情真的發生了,對我來說當然是一件好事,當然我相信這是不會發生的。
首先,我們要看這個事情,如果真的是交易員被替代了,是不是因為人工智慧?其實大多數時候,我們在媒體上看到這些所謂的XX被取代了,並不是由於狹義上的人工智慧,而是由於自動化 automation,如由於資料庫技術或者網路技術,或者某種指令碼技術造成的。但是在每一個領域,在它的巔峰狀態的時候,大家都恨不得把自己稱為人工智慧。現在已經到了什麼程度?任何一個東西,你只要能夠套用一個函式公式,大家都把它稱為人工智慧。
所以,我們在媒體上看到的大多數關於人工智慧的威脅可能只是一種自動化,但這並不是說人工智慧就在這裡面沒有作用,人工智慧是有自動化,而且自動化在過去至少一百年內一直不斷地改變著我們的生活,從電氣化時代說起,電氣化是自動化的,開關一拉燈就亮了,多神奇;從電氣化到計算機化、到網路化到資料庫化,這都是自動化不斷地升級。
ETL 有多少人知道什麼意思?如果從事過資料倉儲的朋友,應該見過 Extract-Transform-Load,這不是個新詞,有20年的歷史了,代表著資料從原始的格式提取出來,然後把它變成另外一種格式,然後把它放到資料庫裡面去,然後再把它調出來用。實際上我們現在在金融領域裡面看到絕大多數的資料處理其實就是 ETL。
ETL跟人工智慧有什麼關係?實際上 ETL 的每一步都是需要人工智慧在後面支撐的,但是人工智慧大家並沒有想象的那麼神。很多很神祕的東西,一點就透,看著爬蟲是什麼樣子,知識提取是什麼樣的,其實是一種很簡單的東西。但是重要區別在哪?在20年前,我們在做ETL的時候,通常是單機的方式,比較封閉的環境當中,比如說一個企業內,甚至一個小組,我們在做 ETL。我們現在面臨的是互聯的社會,我們要把全世界的資料都彙集在一起,像 Kensho 彙集了9萬個資料集,在這麼大的資料集上,我們做 ETL,傳統的資料倉儲的方法已經不能用了,因為資料的規模、資料的質量要求不一樣。
在工廠裡面任何一個東西再簡單,你把它放大1萬倍,任何一個簡單的東西都變得很複雜。汽車是什麼?不就是兩個沙發加四個輪子(李書福語),但是你把它們放在路上跑,就是完全不一樣的東西。所以說人工智慧是什麼?就是一個函式,或者是正規表示式。你怎麼去形成一個規則?你怎麼去模擬函式?這就是最近這些年,人工智慧從技術上、從工程上改變了我們。
人工智慧是一種自動化,但是它是新時代的自動化,它可以讓我們的效率更大地提升。
金融 IT 進步的歷程
從中國金融來看,過去二十幾年裡面,我們經歷了四個階段。
第一階段,花了差不多十年時間做了資訊化,整個銀行資訊化過程中,我們差不多花了十幾年時間建立了這個系統,有了最重要的第一步才有後面所有的系統。第二階段,有了資訊化,最近幾年開始有了大資料化,每個銀行都在做大資料。銀行、保險、券商,慢慢都在走雲、走大資料、走資料中心,這件事情還沒有完全做完。第三階段,有了大資料化之後,才會有自動化的需求。比如說如果沒有巨潮網,我們就不會有後面所有的這些要去做什麼公告摘要,要去做自動化監管,這些需求都不會產生出來。
現在我們是在自動化的階段,本質上來說就是大規模ETL,在這個基礎上才會有第四階段智慧化的需求。
在海外我們看到了Alphasense 和 Kensho 這樣的公司,來幫助我們進行大規模的替代人類的一種實踐。在中國這件事情剛剛開始,中國和美國有什麼區別?
第一,美國是一個很成熟的市場,中國不成熟,中國各方面都不成熟。比如說上交所、深交所的資料格式是不一樣的,國內的整個金融資料庫建設落後美國大概有10年以上的時間。
第二,人力成本也不一樣,在中國一個實習生多少錢,在美國一個實習生多少錢,由於人力成本極低,所以對於自動化和人力成本的節約,這種緊迫感是不一樣的。
第三個,市場規模是不一樣的。美國市場的規模摺合是200萬億人民幣,中國現在是40萬億。從業人數也不一樣,美國光是在對衝基金和私募基金上面都有超過上百萬人在做這件事情,中國是沒有這麼大規模的人群。中國銀行規模很大,所以,由於比例不一樣,金融機構內部的各個不同的分支的比例不一樣,他們對於技術採納的速度也不一樣。人的結構不一樣,市場結構不一樣,都會造成中國現在在智慧化起步上比美國有先天的劣勢。現在做智慧應用這件事情,如果不小心,不一定變成先驅,可能會變成先烈。
智慧金融的本質標準件化
我這裡提出來的是一個假設。我認為智慧應用的本質是一種標準件化的。 你看每一種工業,它在形成的過程中都會有這個結果。比如說汽車1900年左右發明的,大概20年左右的時間,到了福特的時候變成了大工業,才有了流水線。為什麼?因為在這之前,汽車工業各個不同的工藝之間是沒有辦法相互互聯的,沒有辦法變成一種標準的,可以替換的,從而可以規模化的,從而可以降低成本的一個工藝。所以每一種產業,在它往前走的時候都是需要把它的一部分處理流程標準化以後,然後變成一種大工業。
現在的金融還近乎一種手工業,但我們就是想讓金融業不再是一種手工業。顯然在金融裡面不是每一件事情都可以變成機器可以替代的,我相信在座的大多數人做的大多數事情是機器不可替代的,但一定還有一部分工作可以替代。
比如說我上次去訪問的一個機構裡面,每天3點鐘開始,在那裡把每天的報告拿下來,把它的標題提出來,把裡面重點的字句提取出來,每天都要做,什麼時候能下班,正常情況下是晚上12點下班,不正常情況下要做到天亮也做不完。儘管這樣,大概只能處理一個極小的比例。這種工作就是應該用機器來做的,為什麼要用人來做這件事情?中國有多少人在做這樣的事情?有多少個實習生每天在做極其繁瑣的工作?我認識的幾個研究員,他們每天晚上11點鐘,要在他的微信群裡面發今日的日報,他每天要給2000個人發,30多個群,每天都從11點發到1點。
整個金融分析分很多模組、很多環節,比如說作一個 DCF 估值模型,在座有多少人手工做過?我自己試著做過一次,我不知道大家做一個企業的 DCF 模型要花多長時間?的確,實際上這樣一個模型,基本上可以套在每個公司上面,這是一個標準件。像這種 DCF 建模以後,就應該是一個標準件。
在金融分析裡面,包括行業分析,上下游分析,海外對標分析,這裡面有大量的模型是不需要用我們的大腦的經驗來建模的,它是萬變不離其宗的東西。現在很多人是在用 Excel 來進行建模,其實這些東西完全可以變成標準件。在我看來,不管是銀行還是券商,有大量的工作可以標準化,這就是現在智慧金融目前這個階段,合理的最終目標,就是標準化。
由自動化而標準化,由標準化而工業化。每一次工業化能帶來什麼?生產力的巨大進步,帶來效率的極大地提升。所以當英國的工業化的紡織品進入中國來之後,中國的手工業的紡織就土崩瓦解,但這個過程並不是一下子就能夠做到的。英國人懷著滿腔熱血,掰著手指頭算,看市場有多大,中國有4億人,每個人都要穿衣服,要多少平方英尺的布,所以我的市場有多大。它是打了兩次鴉片戰爭,才把中國市場開啟了。
比如說現在一個分析師,一個人只能盯20個企業,我們也可以再算一算,如果一個金融分析師,一天可以盯100個企業,那麼我們的市場是多少,我們可以多賺多少錢,你能做到嗎?我們的目標是提高效率,我們真的不是要去取代交易員,我們真的不是要去替代投資經理。計算器替代了會計沒有?並沒有。所以現在有了更高效率的工具,並不是要讓金融從業人員失業,這件事情不會發生。提高效率之後,讓他們去彎道超車。
中國現在股市規模非常小,相對於美國而言,中國的股市規模和中國的經濟體量是不相稱的。中國現在私募的規模、對衝基金的規模,跟中國的經濟也是不相稱的,這些行業最起碼再有10倍的增長,是不是把人數提高10倍才做到?我並不這樣認為。是我們要跟美國比有更高的生產力、更高的效率,我們才能做到這一點。
中國現在非常多的行業效率都比美國高,比如我們的高鐵效率不知道高到哪裡去了。我們的金融能不能做到?能做到,但並不是取代這些人,而是這些人在更先進的武器的武裝之下來完成一場革命。但另一方面,我們不能對技術抱有一個太高的期望,因為歷史一次又一次證明,每一次所謂的我們要想通過圖靈測試的實驗都失敗了,金融這個領域裡面,你說我們去創造一個投資機器,比世界上所有的人都牛逼,比世界上最聰明的人都牛逼,跑贏市場,那是不可能的,這是一種幻想。但是很多人真的有這種幻想,我不希望大家有這種虛假的期望。只有在真實的可以達到的目標上,我們才能跟大家一起創造價值。在這個領域內並不是每個人都這樣想的,可能文因互聯會往這個方向走,我相信有很多其他的路可以走得通。
智慧金融的核心作用是認知輔助
在我看來智慧金融的核心作用,不是去替代人,而是去輔助人。 是因為我們人的認知能力是有限的,我們的大腦能記住多少東西?所以為什麼我們電話號碼要分成4位一組,因為5個數字,我們就記不住了,我們的記憶力是有限的。在草原上的時候,如果有8只獅子來了以後,你就跟不住了,兩隻獅子,你可能記得住,8只獅子,你肯定記不住,這就是我們人作為一種生物,我們的記憶能力,我們的辨認能力,我們的邏輯推斷能力都是有限的。機器可以幫助我們,機器不斷延伸我們的手和腳,機器可以幫助我們記憶,這就是現在人工智慧技術能夠幫助我們的。這可能太抽象了,我舉兩個例子。
這是什麼?這是中國古代的書,這是《孝經》,但古代的書是沒有標點符號的。《師說》裡面說,句讀之不知,惑之不解,或疑焉,或否焉,小學而大遺,吾未見其明也。韓愈他就看不起標點符號,這是在唐朝的時候,我們中國很早就有標點符號了,到民國的時候才普及標點符號的。標點符號起到什麼作用?認知輔助。
在之前2000多年的時間,可能3000年,從甲骨文算起的話,我們中國人都是在忍受沒有標點符號,能想象這件事情嗎?我們忍受了3000年沒有標點符號。那時候的讀書人會認為,標點符號有什麼用?不就是讓你知道哪裡的斷句嗎?這有什麼價值?提高一點效率有什麼價值?這就是那個時代的文盲率這麼高的原因。我們在100年前的時候,我們做了語文的革命,我們有白話文,我們有了標點符號。
《人類簡史》裡面就講到,人類的進化歷史上面有過好幾次認知革命,正是由於認知革命把我們帶到了今天。在《人類簡史》裡面講到了,認知革命發生在大概5萬年前,我們發明了語言,準確地說是定語、狀語、補語,就這麼簡單。我們不斷發明新的認知輔助工具。在30年前的時候,又出現了這樣一種認知輔助的了不起的工具。
這就是電子表格。它可能沒有定語、補語、狀語這麼偉大,但是這件事情也創造了一個千億美元的產業。我們現在回到70年代的時候,我們去想,如果你是70年代金融機構的負責人,現在你有個研究員說,老闆,我要買電子表格。你可能會說用電子錶幹格嗎?不是已經有資料庫了嗎?有什麼問題資料庫不能解決的,不就是表嗎?電子表格這個東西,我們現在看,好像每個人的生活中都離不開。所有電子表格能幹的事情,資料庫都能幹,只不過是更低的效率。資料庫是面向機器設計的,資料庫的核心,就是如何讓查詢速度更快一些。
電子表格是為了人觀察資料和編輯資料。為什麼每一個 Excel ,大家最後都會去生成圖表,圖表跟數字有什麼區別?不都是本質上一樣的東西,為什麼要弄一張圖表?認知的需求。一個資料庫,什麼樣的人能用資料庫,至少也得大學本科以上,你要會寫 SQL,還會程式語言,你才能用資料庫。電子表格這個東西初中畢業生就能用,只要我會打字就能用,這就是電子表格作為一個輔助人的工具,它能夠起到的作用。
在智慧金融這個領域,我認為能夠起到的就像70年代的時候,電子表格起到的作用。現在我們面臨的資料,不僅僅是表格型的資料,上下游產業鏈也好、公司的股權結構也好、人和人之間的關係也好,都是錯綜複雜圖的資料,遠遠超過了表格。關鍵是怎麼把複雜的關係進行簡單化,動態的進行展示、過濾、查詢、建模。
比如說我們做財務的建模,這些東西都不是傳統的 Excel 能夠承載的,大家在用 Excel 來承載,沒有錯,但這就好像在沒有資料庫的時候,大家用檔案也在進行模擬資料庫一樣。其實我們用文字檔案,就可以去做所有資料庫的操作了,但是那樣是非常麻煩的。所以我們現在在用 Excel 來做這些金融分析的時候,其實也是非常麻煩的,只是大家不知道有更好的方式而已。
我第一次到北京來的時候,是1999年,為了查論文,我得跑到國家圖書館裡頭去影印,4毛錢一張紙去影印,研究生院還要專門給我錢做這件事情。那是一個非常麻煩的事情。20年後,大家會覺得今天做的所有事情都跟那一樣的麻煩。
智慧金融就是超越 Excel 的分析手段。首先可能會擊破很多人對智慧金融的幻想。實事求是地來講,我們能夠做到的事情以及能夠創造的價值,就是讓非表格型的資料,能夠非常方便地去展示出來、關聯起來,讓大家在 Excel 裡面所表達的那些世界觀,用一種更方便的方法表達出來。我覺得這已經足夠好了,這就能夠創造萬億美元的產值。
讀完上篇,你是否對智慧金融的本質有了更多瞭解?它並不神祕,也不是用來取代人類,相反,它能夠極大地幫助金融從業者提高效率。明後兩天本號將繼續推送智慧金融的破局(中)、(下)。也歡迎各位讀者在評論區中留言闡述您對智慧金融的看法。