11月14日至15日,由中國人工智慧學會、嘉興市人民政府主辦,嘉興市南湖區人民政府、嘉興科技城管理委員會、浙江未來技術研究院(嘉興)共同承辦的2020第十屆中國智慧產業高峰論壇(CIIS 2020)在嘉興南湖舉辦。在11月14日的主論壇上, CAAI 名譽副理事長、微眾銀行首席人工智慧官、AAAI/ACM/IEEE/CAAI/AAAS Fellow楊強教授為我們帶來了題為《人工智慧的金融實踐》的精彩演講。
以下是楊強教授的演講實錄:
今天的報告主要講兩個內容,一個是人工智慧發展;另一個是如何在金融領域落地。
剛才已經聽過很多同事回顧人工智慧,我這裡特別說一句,人工智慧是一個博弈過程,這 60年的發展讓我明白一件事,人和機器人之間的溝通是人工智慧發展的一個戰場,一開始我們認為可以透過邏輯學做這種溝通,現在逐漸認識到,這種溝通是需要用資料進行,所以人工智慧這一波大#發展依賴於資料。
一、人工智慧發展
人工智慧的發展,除了資料還有演算法和算力,但是在現階段離不開資料,如大家熟悉的AlphaGo,包括強化學習、深度學習,都是靠大資料來養的。引出了我下面的一個悖論,AI 力量來自大資料。但是每個人工作和生活中遇到的往往都是小資料,可以舉很多例子。在法律、金融、醫療等,小資料的存在方式一個是資料、是分散式的,另外是資料的樣本很少,特徵也不夠。我一直以來做的研究也就圍繞下面兩個問題,一個是如何能夠打破資料孤島,用聯邦學習來解決;另外一個是如何解決人工智慧的冷啟動問題,以遷移學習來解決。
第一個問題,分散在各地的資料,能不能把它聚攏起來形成大資料?這是很難的一個問題。因為有各種問題,其中一個問題是法律的準則。現在全世界各地紛紛出#臺類似 GDPR 這樣的法律法規,規定資料的收集與原始資料貢獻者的認可是非常相關的,不可以把資料收集用在另外一個方向上,這是違法的。同時,資料又是核心的資產、核心的要素,一個企業的資料代表它的利益,所以它不願意隨便地分享給別人。我們也看到,在這些法規下,國內外一些從事資料的企業,紛紛受到罰款或懲罰,如谷歌和 Facebook。國內資料的法規也是日益全面,最近在徵求一個資料安全管理辦法草案的意見。
在這個前提下,我們想用技術解決這個問題,聯邦學習應運而生。聯邦學習主要思想就是“資料不動,模型動”,資料是“可用不可見”,現在用聯邦學習的做法就是帶著這個模型(像“羊”一樣)到各地訪問這些資料,而這些資料本身可以不出本地,這隻羊可以走來走去。具體實現中,模型是怎麼走來走去?我們讓不同資料擁有方可以交換加密模型引數。這個方法可以用在很多終端場景(現在各個手機廠商紛紛建立聯邦學習的團隊,包括谷歌和國內的大廠商),每一個終端上可以訓練一個部分模型,這個模型很粗略,因為資料很少。但是可以把得到的第一批引數用加密手段包裝後運到雲端;雲端可以作為整合學習,整合學習了後,可以把結果下沉到終端。這個做法經過幾輪以後,每個終端模型都可以得到更新,我們把它叫做橫向聯邦學習。特別要提的是聯邦學習有一個綜合性的學科,加密數學的基礎也是非常重要。這裡重點講一下同態加密的進展。
我剛講的谷歌率先在安卓系統實現了這樣的 POC,用整合學習的平均模型的辦法來更新。同理,在不同機構之間也有更新我們的模型的需求。這個模型就像一開始說的,是分散在各地的,是分散式的。很重要的一點是,我們不但要分析模型,同時要保證任何一方不能猜出對方的資料和對方的模型,所以在分散式學習的過程中也要保護引數。比如,在工業界經常使用的一個演算法SecureBoost,橫向、縱向都實現了聯邦學習的模型。縱觀整個行業來說,就有一個特性——跨學科、多領域。除了演算法以外,還要安全合規,包括與政府的政數局溝通;還有安全專家、模型安全、電腦保安、網路安全、演算法效率;也包括底層的設計、網路的設計、網路的晶片;包括網路的結構,技術應用和聯盟機制。聯邦學習要引入經濟學模型,如何鼓勵這些資料參與方有更多選擇,而且大家都可以達到一個平衡;也就是它參與到一個最優的聯盟裡得到收益最多,透過激勵加強黏性,這種黏性也是大家關心的。所以,在隱私計算方面我們看到三個主要流派,聯邦學習被稱為無黨派,因為是從基礎理論出發的;還有一種做法是從硬體,英特爾有一個 TEE 的安全環境,這個環境是在硬體層面完成的;還有一個是安全多方計算,是從計算最本質的層面來的,它的效率現在還是問題,但是它的應用面非常廣。
在這個領域離不開開源平臺,因為尤其是多方參與時,要保證你使用的工具安全、可靠,大家都要保護隱私,因此都希望這樣的平臺是開源的,能夠透明。我們團隊開源了第一個開源平臺,這個平臺有 2 000 多的貢獻;同時建立了第一個國際標準,已在 2020 年 9 月正式透過,也是世界上第一個聯邦學習的國際標準。聯邦學習也為我們所暢想的理念——5G,提供了一個應用場景,而且這個應用場景成為一個關鍵點。5G 是一個很先進的通訊技術,但是各應用方包括裝置生產商都有一個困擾難題,如何找到 5G 的應用場景。為什麼說聯邦學習提供了這樣的場景,因為它提供了工業級別的網際網路,也就是可以讓不同企業透過聯邦學習,在保護隱私的前提下技術合作。這種合作非常像我們用的微信,微信是個人之間建立一個網路,聯邦學習之間是企業之間建立學習網路。我們做了各種試驗,包括如何把邊緣計算與 5G 和聯邦學習相結合,包括推出了一個平臺 FedEdge,以及邊緣計算演算法庫、中層的演算法庫和上面的模型,許可權、審計、管理都俱全。還有倉儲管理,物流是從一個公司的倉庫運到另外一個公司的倉庫,在倉儲的預測上需要準確,這個過程一定要用聯邦學習來進行具體預測;在倉儲管理方面,包括對銀行貸款時進行質押,監管是非常重要。這是一個例子。這三個倉庫環境是從 1~3,它們就需要做好決策,需要知道自己倉庫裡的飽和度,這時在不暴露倉庫內部的前提下,允許發生這種精確預測。
二、人工智慧如何在金融領域落地
人工智慧在金融行業有各種各樣的落地,比如風險控制,其實就是使用者畫像,畫像可以告訴你,這個客戶的需求是什麼、信譽度是什麼;還有客服,與周博士講的場景類似;還有支付的場景、理賠的場景等。營銷,在這些場景中遇到一個很大的困境,就是資料不夠;而且這些資料往往都是跨行業的,在不同公司、不同行業之間,大家不敢把資料分享出來,已成為現在行業的一個巨大挑戰。在這個挑戰中也帶來另外一個維度的問題,就是監管。如果能讓某金融機構的內部運作變得透明,透過聯邦學習能為它建模,監管也可以因此往前發展,變成更加智慧的監管,往 3.0 的時代發展。這裡我要特別地說,監管機構也在深入地瞭解聯邦學習,如《2019 中國智慧金融發展報告》特別有一章討論聯邦學習在金融的應用。
下面舉幾個案例。第一個案例是反洗錢。反洗錢很簡單,就看一個金融的服務有沒有洗錢的動作。洗錢都是跨行業的,比如在 20 個行業裡都有一小筆業務發生,如果沒有對全 20 個金融行業的業務有一個統觀瞭解,就不能發現這樣的現象,而聯邦學習就可以發現它。
下面這些例子主要是回應這裡列舉的幾個痛點。比如,因為資料的缺乏,金融行業的風險控制就有幾個挑戰,如缺乏客觀主動性、資料沒有涵蓋 360 度的觀察、資料包含很多非結構化資料,還有不是實時的資料。所有這些問題不僅存在於金融行業,在醫學上、在教育上也有很多類似缺乏資料產生的類似問題。
我們已經做出來很多的,包括合作者,大家一起做出來很多案例。例如,金融業中的金融推薦,我們第一個推出了“聯邦推薦”這樣的概念演算法;包括保險業,透過與企業合作,計算機視覺方面推出了一個平臺,多個不同的視覺資料擁有方;這是庫存預測和產品質押的例子;還有醫療健康,這也是我們最近和騰訊天衍實驗室的腦卒中預測發現,透過幾十家醫院建立更準確的預測模型。
下面給大家講一下我們的應用。
這個應用是我們擁有衛星上的很多資料。衛星上有很多定位衛星,我們差不多是最全的,因為現在全世界各地,包括我國都有一些衛星資料的出口,這些低空衛星拍攝影像以後,會把這些資料匯聚在幾個專業的出口,我們幾乎覆蓋了所有這樣的資料。為什麼?因為有了這些資料我們可以做這些應用,包括評估資管行業風險、為信貸提供風險控制、為保險提供風險評分。在最下面都是各種各樣的資料,包括衛星資料和移動資料,還有傳統的財報資料。舉例來說,某家銀行接受一個貸款申請,貸款方要建一個工廠,到底這個工廠施工進度如何,過去是派一些人到現場訪問,現在透過衛星影像從左到右可以看到它的進度,還可以看到物流的增長,由此可以預估它的產量產能。這裡為什麼與聯邦學習和遷移學習相關?因為這樣的影像往往是沒有標註的,在缺乏標註的情況下,要把透過別處的知識建好的模型遷移到現在的問題場景中,這種遷移包括要去保護資料的隱私和安全。
這是我們做的一個銀行保險風險監測系統,這裡也包括利用了各個行業的大資料,透過聯邦學習把它加以聚合,比如進行輿情監測、機構監測等,進行整個城市裡企業的畫像。
還有一個就是在保險業也可以透過衛星和衛星之間的分析,因為不同的衛星屬於不同公司,他們之間有意願合作,但是又不想把資料共享,解決的辦法就是把模型貢獻出來。這是一個模型共建的例子。
最下面的圖中示出了受災前後,受災後有很多沼澤,我們可以預估受災的程度、受災的區域,以及主動、快速進行理賠。
最後就是可持續發展的風險評估,左邊是衛星圖,中間有兩個大煙囪冒煙,造成了嚴重的大氣汙染。經過測試發現超標汙染很可能受到國家罰款,也是這個企業的經營風險之一;而此風險如果提前幾個月發現,就能使投資機構對它進行啟動處理預案,也就可以促進可持續發展和綠色工業的發展。
最後給大家帶來一個概念。在工業落地的前提下,多個資料方、跨企業合作非常重要,因此也催生了很多新應用的發明、發現,包括剛才說的風險控制、反洗錢,還有大量的使用衛星資料。
(本報告根據速記整理)