編譯 | 邱陸陸
來源 | FSB
如今,金融服務行業對於人工智慧 (AI) 和機器學習的應用進展迅速。主要原因在於,後者在金融部門資料和基礎設施可得性等方面的技術優勢,很好地滿足了金融服務業在提高利潤、市場競爭及金融監管要求等方面的需求。可以看到,目前,大量應用方向主要集中在:
-金融機構和銷售商正在使用人工智慧和機器學習方法來評估信用質量、為保險合約定價並進行營銷、自動化客戶交流過程。-機構正在利用人工智慧和機器學習技術最佳化稀缺資本的分配、調整回溯測試模型,並分析大額交易的市場影響。-對沖基金、券商和其他公司正在使用人工智慧和機器學習來尋找高收益(且沒有相關性),並最佳化交易執行。-公共部門和私營機構都可以使用這些技術進行合規監管、監察、資料質量評估和欺詐檢測。
儘管新技術的使用處於早期階段,對於整個行業的影響還無明確資料可考,但隨著兩者融合的不斷加深,會給金融穩定性帶來的潛在益處和監管風險,仍然值得關注。
我們從 FSB (Financial Stability Board,金融穩定理事會) 一份長達兩萬五千字的報告中,選取了部分內容,詳述人工智慧和機器學習在金融業的應用方向及值得關注的潛在問題。
報告結構如下。第 1 部分中,定義了報告的核心概念,並給出了人工智慧和機器學習在金融應用方面取得發展的一些背景。第 2 部分描述了推動這些技術在金融服務中的應用的供求因素。第 3 部分描述了四類用例:(1)以客戶為中心的應用;(2)以運營為中心的應用;(3)交易和資管;和(4)合規和監督。第 4 部分是這類應用對金融市場、金融機構和消費者產生影響的微觀分析。第 5 部分是這類應用對金融體系產生影響的宏觀分析。最後,第 6 部分評估了應用對金融穩定性的整體影響。
本文為第一部分,主要涉及到核心概念、背景與驅動力:
1. 核心概念與背景
電腦科學和統計學的研究人員已經開發出先進的技術來從大量不同的資料集中獲得見解。資料可能有不同型別、來自不同來源、擁有不同質量(結構化和非結構化資料)。這些技術利用計算機從經驗中學習,並具有執行影像識別或自然語言處理任務的能力。應用計算工具解決傳統上需要人類智慧的任務被廣泛地稱為「人工智慧」(AI)。作為一個領域,人工智慧已經存在了很多年。然而,近年計算能力的提高,加上資料的可用性和數量的上升,讓人們重拾對人工智慧的興趣。已有人工智慧應用被用於診斷疾病、翻譯語言和駕駛汽車;也有越來越多的應用被用於金融領域。
描述這個領域需要很多術語,所以在繼續之前我們需要進行一些定義。「大資料」是一個沒有單一、一致定義的術語,但是被廣泛地用來描述使用各種技術對大型複雜資料集進行儲存和分析的行為。這種對大型複雜資料集的分析通常被稱為「大資料分析」。體現大資料分析複雜性的一個關鍵特徵是,資料集中包含大量非結構化或半結構化資料。
本報告將「人工智慧」定義為能夠執行傳統上需要人類智慧的任務的計算機系統理論與發展。人工智慧是一個廣泛的領域,其中「機器學習」是它的一個子類別。機器學習可以被定義為透過設計一系列行動(演算法)來解決問題的方法。演算法根據經驗自動最佳化,此過程無需人工干預或只需要有限的干預。這些技術可以用來從來源日益多樣化的大規模資料中找出模式。圖 1 給出了一個概述。
許多機器學習工具基於大多數研究人員熟悉的統計方法。這類方法包括透過擴充套件線性迴歸模型來處理數百萬規模的輸入,或使用統計技術來概括大資料集以便於視覺化。然而,機器學習框架本質上更加靈活。能夠被機器學習演算法檢測的模式不拘於線性關係(這通常是經濟和財務分析的主旋律)。一般來說,機器學習旨在(自動)最佳化、預測和分類,而不是進行因果推斷。換言之,預測公司債券到底是投資級還是高收益級,可以用機器學習來完成,而確定哪些因素導致債券收益率水平變化可能就不會使用機器學習來完成了。
機器學習演算法有多個類別,分類標準是資料標註過程中人工干預的程度:
•在「監督學習」中,演算法得到一組「訓練」資料,資料中包含某些標籤。例如,一組交易資料可能包含欺詐性/非欺詐性標籤。該演算法將「學習」一種通用的分類法則,用於將餘下的不在訓練集中的資料分類為欺詐性/非欺詐性。
•「無監督學習」是指提供給演算法的資料不包含標籤的情況。該演算法透過識別簇(clusters)的方式尋找規律。簇指的是將資料按照其內在的特徵進行的分堆。例如,可以建立一個無監督機器學習演算法來尋找某一流動性很差的、難以定價的證券的類似證券,然後簇中其他證券的定價就可以用來幫助對這個流動性很差的證券進行定價。
•「強化學習」處於有監督學習和無監督學習之間。在這種情況下,演算法會得到一組無標記資料,為每個資料點選擇一個動作,並接收到幫助演算法學習的反饋(可能來自人類)。例如,強化學習可以用於機器人控制、博弈論和自動駕駛。
•「深度學習」是機器學習的一種形式,它使用由大腦的結構和功能所啟發的,透過「層」的方式工作演算法進行學習。深度學習演算法,其結構被稱為人工神經網路,可用於有監督、無監督或強化學習。
近年來,深度學習在影像識別,自然語言處理(NLP)等多個領域取得了顯著成果。深度學習演算法能夠發現可泛化的概念,如,從一系列影像中編碼出「汽車」的概念。投資者可能會部署一種能夠識別汽車的演算法,從衛星影像中計算出賣場停車場中的汽車數量,以便推算某個特定時間範疇內大概的銷售數字。自然語言處理允許計算機「閱讀」並生成書面文字,或者,在與語音識別相結合時,能夠閱讀並生成口語。這使得公司能夠自動化以前需要人工干預的金融服務功能。
機器學習可以用於解決不同型別的問題,如分類或迴歸分析。分類演算法,即將觀察得到的樣本分為有限個類別的演算法,在實踐中有極為頻繁的應用。分類演算法是基於機率的,意味著演算法會將一個資料點歸類到「資料點屬於此類別的機率」最高的那一類中。舉個例子,演算法可以自動閱讀賣方報告,並標記其態度有多大機率是「看漲」或「看跌」。或者,演算法也可以估計某未獲評級的公司的初始信用評級。相比之下,迴歸演算法對一個問題的估計可能有無限種答案(連續的可能解集)。這個答案可能會和置信區間一起出現。(譯者注:比如說,有 95% 的機率,該債券下個月此時的價格在 100 元到 105 元之間。)迴歸演算法可用於期權的定價。迴歸演算法也可以用作分類演算法的一箇中間步驟。
比了解機器學習能做什麼更重要的是要明白機器學習不能做什麼,比如確定因果關係。一般而言,機器學習演算法被用於識別與其他事件或模式相關的模式。機器學習識別的僅僅是相關性,只不過其中相關性一些是人無法捕捉到的而已。然而,經濟學家和其他人正越來越多地使用人工智慧和機器學習應用,結合其他工具與領域專業知識,協助理解複雜的關係。
許多機器學習技術並不新。事實上,神經網路這個深度學習的基本概念最初是在 20 世紀 60 年代發展起來的。然而,在最初的一陣熱潮之後,機器學習和人工智慧沒有實現他們曾經的願景,在十幾年後耗盡了領域內聚集的資金。造成這種結果的部分原因是計算能力以及資料的匱乏。在 20 世紀 80 年代,人們重燃對這個領域的興趣,並提供了大量資金支援,在這個階段,許多對於之後的突破至關重要的概念被開發出來。
到了 2011 年和 2012 年,隨著現代計算機計算能力的巨大增長,機器學習演算法,尤其是深度學習演算法,開始持續在影像、文字和語音識別競賽中獲勝。注意到這一趨勢後,主流科技公司開始收購深度學習初創企業,並迅速加速深度學習研究。同樣創新高的是對於大規模資料的收集行為,例如,現在你能夠獲得精確到單筆交易的銀行全部信用卡交易資料,或者獲得網際網路上出現的每一個字,乃至使用者訪問網站時滑鼠懸停的軌跡。其他領域的進步也對機器學習有所幫助,例如在雲端計算架構下,資訊科技資源的互聯性顯著增強,使得大資料可以得到有效組織和分析。而隨著對這種大規模、高複雜度資料集的出現以及計算能力的提升,機器學習演算法的結果也得到了顯著提高,其中一些在演算法在接下來的章節裡會被展開介紹。這也進一步刺激了對 AI 初創企業的大量投資。世界經濟論壇報導,全球對於人工智慧創業的投資從 2011 年的 2.82 億美元上升到 2015 年的 24 億美元。在這一時期,人工智慧領域的併購與收購交易(M&A)數量也在顯著上升(圖 2)。
如今的大多數應用更接近於一種「增強智慧」,或者旨在增強人的能力,而不是試圖取代人。即使人工智慧和機器學習領域繼續按照今天的發展速度進步下去,大多數行業也不會試圖讓機器完全複製人類的智慧。正如一位業內觀察家所指出的那樣:「...... 在整個閉環中引入人是至關重要的:與機器不同的是,我們能夠考慮情境並利用常識將 AI 得出的結論投入實際應用」。
2. 驅動力
促成金融科技(FinTech)日益普及的各種因素也促進了人工智慧和機器學習在金融服務領域的應用。在供給方面,金融市場參與者已經從其他領域開發人工智慧和機器學習工具的過程中獲益良多。更快的處理器速度帶來的計算能力的提升、更低的硬體成本以及更容易地透過雲服務訪問計算力的條件也造福著金融界。同樣,因為針對性資料庫、軟體和演算法的出現,對金融領域的資料進行儲存、拆解和分析變得更便宜。由於數字化程度和雲服務應用程度的提高,可用於學習和預測的資料集數量也出現了快速增長。資料儲存成本的下降和全球資料量的估計如圖 3 所示。
那些推動了搜尋引擎和自動駕駛領域的演算法進步的工具也可以在金融領域使用。例如,物體識別工具使搜尋引擎能夠了解,使用者搜尋「Ford」的時候通常指的是「福特汽車」而不是「河灘」。這種工具現在也被用於快速識別特定上市公司的新聞或社交媒體訊息。隨著越來越多的公司使用這些工具,公司獲取新資料或額外資料以開發更快、更準確的人工智慧和機器學習工具的激勵可能會增加。反過來,公司對工具的使用和開發也可能影響到其他公司的激勵水平。
金融部門的各種技術發展促進了基礎設施和相關資料集的建立。電子交易平臺的快速發展伴隨著高質量結構化資料可得性的提升。在一些國家(如美國),市場監管機構允許上市公司使用社交媒體釋出公告。除了為機器學習提供數字化的財務資料之外,市場的電子化也使人工智慧能夠直接與市場互動,完成由複雜的決策程式給出的讓人眼花繚亂的實時買入和賣出指令,且幾乎不需要人為干預。同時,自 20 世紀 80 年代起,個人信用評分系統變得越來越普遍,自 20 世紀 90 年代起,新聞已經變得機器可讀。隨著金融市場資料和相關資料集的增長——例如線上搜尋趨勢、收視模式和包含市場及消費者財務資訊的社交媒體資料集的增長——金融部門可以探索和挖掘的資料如今來自極為豐富的資料來源。
在需求方面,金融機構有激勵去使用人工智慧和機器學習來滿足業務需求。降低成本、獲得風險管理收益和提高生產力的機會促進了對技術的應用,因為這些機會都可以提高盈利能力。在最近的一項研究中,業內人士稱(在各功能部門中)使用人工智慧和機器學習的優先順序如下:以客戶為中心最佳化流程;增加系統與員工之間的互動並加強決策能力;開發提供給客戶的新產品與新服務。在許多情況下,這些因素也可能推動公司間的「軍備競賽」,市場參與者會因為急需跟上競爭對手的腳步而應用人工智慧和機器學習,包括因為聲譽(炒作)原因。
新的合規要求也產生了一些需求。新合規要求增加了對效率的要求,這促使銀行推動自動化程式並應用新的分析工具,包括含有人工智慧和機器學習的工具。金融機構正在尋求遵循審慎性監管、資料包告、交易執行最佳化以及反洗錢和打擊資助恐怖主義(AML/CFT)等監管要求的高效手段。相應地,監管機構也面臨著評估更大、更復雜、增長更迅速的資料集的責任,需要用更強大的分析工具來更好地監控金融部門。圖 4 顯示了這些供給和需求因素如何結合在一起。
一些發展趨勢可能會影響未來人工智慧和機器學習的推廣。這些發展趨勢包括資料來源數量和資料獲取的實時性的不斷提高;資料倉體量、資料粒度、資料型別的增加以及資料質量的提高。硬體的持續改進,以及包括開源庫在內的人工智慧和機器學習軟體即服務(SaaS)也將影響創新的過程。包括處理晶片和量子計算在內的硬體開發旨在實現實現更快、更強大的人工智慧。這些發展可以使愈發強大的人工智慧和機器學習工具適用範圍愈發廣闊、成本也更加低廉。他們可以在更大的資料集上實現更復雜的實時資料分析,如對線上使用者行為或者位於世界各地的物聯網(IoT)感測器資料的實時分析。
與此同時,複雜軟體服務的可得範圍也不斷變大。其中一類軟體服務是在過去幾年中湧現的開源庫,它們為研究人員提供了使用機器學習的現成工具。也有越來越多的供應商為金融市場參與者提供機器學習服務。一些公司抓取新聞和/或後設資料,並使使用者能夠根據他們感興趣的特定特徵(例如瀏覽過的網頁等)進行預測。隨著進行資料提供、清理、組織和分析並獲得金融角度洞察的服務越來越多,使用者進行復雜分析的成本會顯著下降。然而與此同時,同資訊/同技術的多使用者風險可能也會隨之增加(見第 4 部分)。
相關資料的法律框架也可能會影響人工智慧和機器學習工具的應用。違反協議使用個人資料或使用不符合消費者利益的資料可能會導致資料保護立法的激增。此外,新的資料標準、新的資料包告要求或金融服務領域的其他制度性變化也可能會影響人工智慧和機器學習在特定市場的應用。
關注賬號「機器之能:almosthuman2017」並回復「FSB」獲取精編版中文報告。