在9月18日“2018世界人工智慧大會”智慧金融主題論壇上,中國網際網路金融協會會長李東榮,加州大學伯克利分校邁克爾·歐文·喬丹(Michael I. Jordan)教授,復旦大學大資料學院院長、普林斯頓大學教授範劍青、匯付天下董事長兼CEO周曄帶來了主題演講。
其中,範劍青教授分享了《資料智慧與金融創新》。他主要介紹了人工智慧的興起,以及資料智慧如何增強市場效率,加速產業發展的,以及引領高科技的發展的。“人工智慧的目的與價值,就是把大資料加工成智慧資料,為經濟發展提供新能源,為科技創新提供新依據,為管理決策提供新資訊。”
“大資料與人工智慧為健康醫療、科學發現、技術創新、商業管理、政府決策等帶來由資訊海嘯驅動的又一次工業革命,同時方方面面影響著人類的工作、生活和通訊方式。各行各業創新所產生的大量資料又增加了對海量資料處理和分析的強烈需求,促進了大資料與人工智慧的發展。”
以下是演講原文:
AI是機器學習的平方,我們在去平方的路上
每天數十萬金融分析師湧向華爾街,重複繁瑣的資料分析。上百萬銀行業者匆匆趕到工作崗位,開始他們每天常規工作。像一百多年前的農業、手工業一樣,我們自然要問能否讓智慧機器來輔助這些工作,使得更多聰明才智可以投入高科技生產、藝術創作,提高人的生活體驗。人工智慧席捲全球,大資料、人工智慧是伴隨著資料與資訊革命應運而生,發展迅速。上百萬的攝像頭,數億部智慧手機和幾十億網路搜尋,和社交網路上的對話產生巨大海量資料,其中包括公共安全、公共衛生、消費傾向、商業活動、經濟走勢等等。同樣數十億的處方、海量的生物、遺傳資訊帶來健康大資料。海量資料的收集促成了大資料時代的到來。海量資料的挖掘催生了人工智慧的發展。換句話說人工智慧就是從大資料到智慧資料之間的橋樑。
人工智慧的起源是來自1955年,John Mccarthy創造了這個術語。理想的狀況有點像科幻小說,“類人”機器,讓它有認知、表達、思考感知能力,但目前還做不到。現實是希望能夠用技術訓練機器,將人從重複性、簡單性、危險性的繁瑣事物中解放出來,提高人的創造力和生活體驗。換句話說人工智慧的目的是要提高人的體驗,不是讓一些人失業的。第一代比較簡單是機器表達與邏輯推理,機器證明、專家系統、邏輯系統。第二代是機率建模與統計學習的基礎上知識圖譜、機器學習、神經網路。
何為人工智慧,翻譯有點不好,機器智慧其實更合適。Michael I. Jordan剛才說它應該是統計學。有些人可能不一定完全同意。在我看來,人工智慧是機器學習的平方,讓機器自動學習機器演算法是機器學習的理想狀況。它具體表現是在影像識別、語音識別、機器學習、專家系統、計算機視覺還有自然語言處理等等。如果我們按圖靈測試來檢驗現在的很多系統,恐怕我們多半系統是機器學習,不是人工智慧。換句話說我們還沒達到平方,只是在往平方的路上。
那麼大家可能會問什麼是人工智慧?Arthur Samuel的想法是讓機器從資料終學習並做決策,我認為它是一個可擴張的統計演算法,充分融合統計建模思想,以及計算最佳化方法,使得這些資料分析的思想能夠在大資料的環境下得到實現。它最後的產品當然是一個可執行的程式。未來有可執行的程式我們需要有一個最佳化目標,有最佳化目標跟剛才Michael I. Jordan說的一樣,需要統計建模。
大家比較熟悉的深度學習,其實是一個神經網路系統,更直白一點是數學的函式逼近,它用的是兩種方法,訊號源的線性組合,再做非線性的選擇,重複的過程構成很複雜的函式逼近方法。
為什麼它是如此成功,這又是一個權衡偏差和方差的有效方法。深度網路使得近似高維函式更加靈活,九十年代已經就有了。大資料的到來使得我們大大減少了方差,現代計算技術的革命使得大規模的最佳化成為可能跟現實,這樣我們就能夠更好更深度的學習函式逼近的方法。在影像識別、機器翻譯、自然語言處理等方面都取得了很大的成功。這些問題其實從決策角度來說是比較簡單的,因為個體的差異比較小,我說話有口音,我跟你的差異沒有那麼大。第二,訊號即已知,我說的話所有的訊號都在那裡,這樣問題比較簡單。
機器學習的挑戰
機器學習有很多挑戰,在經濟金融、生物醫學、管理決策、人文科學裡面有很多挑戰。個體差異太大,更重要的是資訊集未知,特徵很難提取,需要多學科交叉。比如說閃電奔跑,它的訊號集是什麼我們大都不知道。我們自己也做了一些預測,比如說預測高頻資料,接下來的走勢是往上還是往下。我們做了自己的分析和特徵提取。得到的結果是傳統的邏輯迴歸跟深度學習,其實最後效果是差不多。換句話說,其實最後在其他應用裡面,有時候如果特徵提取是好的話,它的非線性並不是那麼重要,更重要是特徵自己的提取問題。我們在這個問題基本上可以看得出來,因為市場比較有效,能夠可測性的精確度並不是特別高,這時候深度學習跟邏輯迴歸也差不多。
我最近看到一個訊息,微軟推出人工智慧心臟風險測試指標,微軟印度總經理表示他們新的API評分是基於四十萬印度人的共享資料的基礎之上,可以輕鬆的識別每一位患者的風險水平。具體他們怎麼分析,什麼結果都沒有,同樣的文章中只是一直在介紹深度學習的偉大。
我就把他們的結果差不多的東西放在這。這裡面也有40萬左右的人口,用80%的資料來訓練機器演算法。最後得出的結果也是這樣,不過精確度並不算高,比隨機猜測好一點。這個時候深度學習跟邏輯迴歸是差不多。這也是另外一個例子說明深度學習不能解決所有的問題,深度學習的成功應用是在語音、影像識別等方面,而且需要明白資料集是什麼,特徵是什麼,這個問題可能更為重要。
接下來我舉個比較成功的例子——預測債券風險溢價,是我們自己做的。當前我有131個宏觀經濟資料,此外的資料需要自行挖掘。我們用了8個彙總宏觀經濟系列,用已有的資訊預測。有專業指導的資訊學習可以改進預測的效果。我們這裡用的模型叫做因子增量模型,看上去跟神經網路有相關的,其實在統計計量裡面已經有過這樣的模型。
如果只是用簡單的演算法來預測的話,大概可以預測18%,如果用因子選擇,可以預測到24%左右。如果說因子選擇的更好的話,可以預測到32%。如果說把統計的穩健思想都加進去的話,可以預測到38%。在這個基礎之上,如果再加入神經網路,最後的結果可以達到45%左右,這個例子就說神經網路是有用的,但是一定要根專業知識相結合,怎麼樣能夠找到更好的影響市場的因子,這樣我們可以達到更好的風險預測跟控制的目的。
智慧資料增強市場效率
第二塊關於智慧資料增強市場效率。在大資料的環境之下,金融行業面臨著巨大的挑戰,第一,現在的資訊密度、深度和廣度都有明顯增加,自然而然我們就需要資料智慧來提升市場效率跟決策力。現在除了金融衍生品、股票、外匯、宏觀指數,還有很多非結構的新聞、文字和氣候變化。如果用人工智慧機器學習的辦法,我們顯然可以降低資訊獲取的成本,拓寬資訊獲取的渠道,提高資訊傳遞的速度,並且提高資訊的真實性。資料智慧在金融裡面有許多應用,從商業銀行的消費金融、財務風險、客戶管理、風險判別到證券市場的量化交易、智慧投顧、風險防範和信用評估,還有保險業的信用管理、詐騙分析、獲客分析、保險精算。政府職能裡面有風險評判、智慧監管、預警分析、政策評估。機器智慧可以降低勞動力成本,減少資訊不對稱性,提高預測能力。
金融創新的一大挑戰也是資料。首先,金融市場的風險觸發機制更為複雜,有個體風險和系統性風險兩個相疊加,資料來源方面多元化,行為更為緊密,除了市場內的交易資料之外,還有市場外的社交網路,影響範圍更廣,傳播速度更快。第二,在信貸活動方面,信貸活動的評估給風險管理也帶來加強,最大程度上獲取資訊,判別欺詐。信貸管理及時預判風險,交叉驗證。第三,在投資決策方面,我們面臨的不確定性,包括預測分析,對預測分析的需求明顯提高。
金融最基本的作用把投資者的錢投放到生產的地方去,生產的地方錢又安全送回到投資者。實現這樣的載體是我們的金融市場,它的效率分為資訊效率、配置效率,後者是從市場形態、交易成本實現金融市場的職能。智慧資料可以提高資訊效率,金融的特點資料來源多樣,行為隱蔽,包括保密、脫敏、干擾、缺失、倖存者偏差等等。我們作為分析師或者作為整個市場和社會,我們無法擁有所有的資料,每個人只是擁有一小部分,資料共享變成是金融市場,提高金融效率的很重要的方面,資料擁有者對資料貢獻和交流的意願比較低,資料孤島現象經常出現,監管也難以開展。有些金融機構和監管部門,有資料不能用,有資料不會用,有資料不敢用,這樣的情況也經常發生。
智慧資料提高資訊效率
怎麼樣構造一個機制實現資料共享呢?大資料金融創新中心提出這樣一個構思,利用資料沙箱設計實現資料安全,同時在不影響隱私的情況下,充分發表充分的統計量,這樣充分的統計量可以幫助我們分析資料,增強資料的訊號。我們儘量設計鼓勵資料共享的機制,以區塊鏈等技術來實現共識的穩定,提高合作與激勵的效率。推動監管科技提高靈活性,減少消極監管或者錯殺,這是我們提高資料效率的關鍵部分。
我們要實現的目標就是資料共享來增加資料的流通性跟可靠性。資料探勘方面可以提高它的使用效率,實現資料的價值。在儲存方面,安全方面,我們可以保障儲存隔離,保障資料的原始狀態和可溯源,還有自動化配置等等。在金融裡面很簡單的一個問題,我們剛才說的資料來源到底資料要用多大,如何篩選高效低險的企業,如何辨別不良企業,如何克服信用風險,如何防範風險道德。這些非常簡單的問題需要從多元交付、海量增長的資料裡面挖掘,在挖掘這些資料的同時,也能夠讓我們關注市場的微觀行為,從而達到更有效的監管。
人工智慧的目的就是提高資料探勘的能力,而挖掘資料的相關性是多種多樣的。舉個例子,為了儘早預測沃爾瑪的業績,分析師會想方設法找比它更早預報業績的相關公司,比如紙袋公司,從而用他們的資料幫助預測一個公司的業績。但這種做法既費事又不精確。AI可以大大提高這些分析的效率和節省費用。一個星期的分析師和工程師的工作可以在一分鐘內用機器學習的方法完成。AI能夠增加市場效率,解決資訊不對稱的問題。
我們有很多網路資料和各種各樣的“學習”。比如說高槓杆基金的持股網路中心能夠幫助政府評估系統風險,如果市場需要,可以更精確地干預。而同樣的,我們的同事研究過怎樣從一個基金經理的持股情況推算出他的社交網路,辨別社交網路是否有違規的行為。在市場資料裡面,網路資料裡面,是非常之豐富的。
資料智慧能夠加速產業發展
第三部分,資料智慧能夠加速產業發展。第一表現在,金融科技的未來可以顛覆傳統風控。主要有三方面體現。
科技紅利,網際網路使金融服務觸達更多使用者,收集海量多元的資料,而且除了這之外還有市場內外的資訊。
大資料紅利,傳統的風控在新的經濟環境下積累了60多年的資料,網際網路也積累了十多年資料,這些資料可以徹底改變傳統風控手段。
金融科技紅利,智慧創新的多尺度風險測度和風險手段不斷湧現,這些手段可以得到及時的測試和反饋。我們做風控控制的目的不是預測風險的到來,而是反饋,使得消除風險,隨著大資料的到來,人工智慧的到來,我們能夠有更多更好的方法來學習自適應、自迴歸的過程。
具體到業務產品,比如智慧投顧,基本思想是利用機器完成客戶需求分析、投資分析、資產配置選擇等工作。意在替代人類完成財富管理或者投資建議方面的工作,實現投資的自動化。其中關鍵的技術有三點:
資料:資料有市場行為,比如說情緒指數和政策變數等;使用者的行為,比如說社交、電商資料等。
方法:決策樹、深度學習、迴歸分析等。
理論是基於投資理論尋求風險和資金組合最合適的最優級。
另一重要產品是大資料徵信,利用資料採集、儲存、分析,獲取信用主體的多維行為資訊,評估個人徵信水平,降低信貸失信率。
關鍵技術是資料採集、資料儲存、資料分析到評分模型,評分非常關鍵。
資料來源也是非常豐富,除了平時的生活資料之外,還有網路購物、客戶評價、資訊交易、社交資訊等等。
應用的範圍包括信貸管理、實物租賃、消費金融、保險風控。
服務的群體是小微金融和銀行貸款無法覆蓋的個體。小微金融是指從小資投資者的錢到小創業者。小微金融的產品基本上是低收入個體他們的金融需要是什麼,從儲存到投資到個人貸款等等之類的。它在經濟發展中起著非常重要的作用。在已開發國家大概能夠幫助實現經濟增長率為4%到5%,已開發國家是2%左右。
值得注意的是,小微金融的發展瓶頸是合理定價,合理定價是任何金融產品可持續的基礎。而基於大資料、人工智慧的信用評估,能夠提供更快更有效的決策。小微金融的作用顯然是現在的科技創新開拓了金融服務的物件,使得我們以前對低收入或者中產收入,低收入沒有多少信用的人,現在也變成能夠有一些信用的基本分析。
中國大資料徵信的挑戰是體量比較大,貸款比較難,因為分佈比較零散,業務不規模,盈利不明朗,信用比較難構建。網路社交消費大資料為徵信提供了很有效的基本原料。小微金融在過去幾年還是發展挺迅速的,市場引導和政府指導是一個長遠發展的基礎,政府佈局對高科技產業發展尤其重要,這裡有幾個例子,張江高科技園支援了早期的展訊通訊,現在變成世界第三大手機晶片供應商,也是國內最先進的領先半導體產業。上海矽產業投資公司幾年前投資了數家歐洲半導體公司,現在估值翻了10多倍。中關村也有相關的例子。政府佈局對人工智慧、大資料、金融科技這些新興產業,現在應該是非常重要的時候,所以需要市場引領和政府指導相結合,才能夠把市場弄的更有效。
資料智慧引領高科技
最後講一下資料智慧引領高科技。資料智慧的發展促進了相關學科的發展,計算機、數學、資訊學、統計學等等,也推動了高科技的創新從硬體軟體到系統,也激勵新產品的開發,擴充了新的服務物件。舉個例子,對機器學習、統計學的挑戰。大家現在常說的精準營銷、精準醫療,處理這些問題的難點是資料多樣性,我們怎麼樣能夠讓資料來源更多元,進行分析,對稀疏性、內生性、測量誤差等等,因為大資料的原因產生了很多新的統計問題,處理這些問題的時候,需要更復雜更有效的演算法。
對應用數學同樣也有類似的挑戰,從計算瓶頸上,我們經常會出現大規模的非凸的最佳化問題,我們經常需要在計算、統計上面提出新思想。對大資料系統也是同樣有非常大的挑戰。