ArchSummit2017分享機器學習分會場,金融分會場

龍覺發表於2017-12-14

ArchSummit是由極客幫,Qcom組織的業界架構師會議。主要是各個廠商技術人員之間進行技術交流的會議,各個公司希望建立更好的技術口碑,技術人員希望在交流中提升自己的水平,開拓視野。說實在的,以我在美國工作的經驗,美國公司是不會允許在交流分享中給出這麼多幹貨的,尤其是比較新的,當前在研發的系統。
同事們也發現,在這次ArchSummit上,如果是海外公司的介紹,一般都比較虛,國內公司,尤其是小公司,對於自己技術的保護意識都會相對薄弱一些。
我參會的主要目的是想要了解一下人工智慧在各個行業的應用,所以參加了人工智慧相關的分會場,也參加了一些金融行業的經驗分享。

深入機器學習
深度學習在自然語言處理中的應用

邱錫鵬 復旦大學
邱教授的交流主要是對業界的總結。從基於規則的語言處理,到最近的CNN,RNN。以及非監督學習的一些進展。沒有什麼特別印象深刻的內容

PaddlePaddle: Towards a Deep Learning Compiler for the Cloud
於洋 百度 / 資深工程師
PaddlePaddle是百度的深度學習平臺。本次交流主要是一次推廣。在技術上他們使用了LLVM作為編譯器。在任務排程的優化上和tensorflow有差別。一方面是在while迴圈和ifelse語法實現進行了優化,增加了並行的機會。另外對於不同的小任務進行了合併,減少排程的負荷。
這個交流的最大問題是隻講了優化,沒有給出數字化的結果。看不出來他和其他流行的平臺的效能對比。

大規模異構網路資料融合
張宇韜 清華大學
主要分享了一些將大規模異構網路表達為神經網路。這裡最大的挑戰不是表達,而是更有效的表達。網路一般都是稀疏的,簡單的座標表達,或者連結關係的表達都會有很大的浪費。作者使用遍歷網路的方式將資訊線性化,線性化本身和語言分析相鄰詞分析類似。另外他們也用圖卷積來減小網路規模。
最後他們介紹了一個知識圖譜的應用場景,利用深度學習和關係網路,學習技術趨勢,領軍人物,招聘目標,等應用

解鎖深度視訊理解的潛力
曾文軍, Ph.D., IEEEMicrosoft Research Asia
微軟研究院的曾博士的介紹非常精彩。主要介紹了微軟在深度視訊理解上的進展。通過對深度學習領域進展的回顧,可以看得出來,微軟一直是在學術界的前沿。基本上每一個領域最高的精度資料都來自微軟研究院。雖然深度學習由於很多時候具體的工作原理並沒有非常嚴格的理論證明,取得最好的精度結果可能是運氣+大量嘗試,但是在各個領域都有成果發表,還是說明了微軟在人工智慧的積累和實力。他們最心的進展是在視訊識別,人臉跟蹤,身體跟蹤,姿態估計,車子跟蹤都是他們的應用。使用他們最新的View Adaptive LSTM,目前的精度達到70-80%,最主要的優化是在與自適應的視覺框。
另外,微軟對外開放的視覺API,視訊搜尋的Video Index等產品化程度在業界也是領先的。
最後曾博士提出來未來的開放問題,小資料,無監督的學習,更小的模型,以及新的演算法和硬體的研究

自動深度語法分析是自然語言應用的核武器
李維(博士)京東
李維老先生已經在NLP領域深耕二十多年,演講也比較風趣,個人對於深度語法分析(deep parsing)非常相信。提出來當前最流行的端到端深度學習的方式比起deep parsing有幾點劣勢。一個是靈活度不夠,當學習目標改變了以後,可能模型需要重新訓練。一個是對於語言情感的挖掘(sentiment)精度不夠。目前社交媒體上的短句,最高的精度只能到65%,而deep parsing系統可以達到80%。這也是可能的。在缺乏上下文的小資料情況下,含有更豐富標註資訊的deep parsing可以更有優勢。
最後老頭子開始了招聘廣告。。。

WSNet:基於權值取樣的一種簡潔高效的卷積神經網路架構
徐寧Snapchat 
來自Snapchat的徐寧給了很不錯的分享。由於觀眾對於snapchat的具體功能不是很瞭解,他先把snapchat的主要使用場景和功能給大家介紹了一下,然後描述了幾個主要的深度學習的應用場景。主要是圖片裡面的人,物體識別和處理,對於語言和語音的識別。
在手機應用當中使用這些深度學習應用的一個矛盾就是手機的計算儲存能力和演算法的精度。解決這個矛盾,就需要減少計算量,減少記憶體空間。
在Snapchat,他們發現80%的計算量發生在conv層,所以他們研發了WS(weighted sampling)CNN。使用Sampling的方式,重複使用引數,另外在channel上,也會重複使用sampling的結果,進一步減少卷積網路(CNN)的計算量。最終他們在影響精度結果5%以內的前提下,減小了180倍的模型大小,速度快了16倍。最後這件事的實質,他們認為在影像處理任務當中,CNN還是有大量的冗餘計算。

Apollo自動駕駛及跟車方案的設計思路
孔旗 百度
百度對於自己開源的自動駕駛平臺進行了非常詳盡的介紹。主要是描述了系統的整體架構,各個組建的功能,以及演算法實現中的挑戰,更多的是業務的複雜度(沒有特別細節的講解技術)神經網路也只是說用基本的MLP。業務當中,訓練出來更好的Planning(駕駛策略)成為駕駛的核心。

機器學習演算法在瓜子二手車的實踐
魏旋 瓜子二手車
對於瓜子二手車演算法團隊的工作,魏旋做了非常精彩的介紹。其中業務的挑戰部分尤其有意思。他們最大的挑戰在於如何設計出來一個對人(銷售)進行管理的方式,能夠使得公司的銷售業績最優。對於沒有人的環節的很多問題,機器學習甚至統計演算法都可以給出精度很好的估計,比如對於一輛車預計的售價,他們的估計精度可以達到95%。但是對於人的管理,尤其是在人找到演算法漏洞以後的反應,很多時候出乎了他們的意料和演算法的初衷。比如他們對於高效的銷售採用更多商機的鼓勵,結果卻造成了整體業績的下滑。高效的銷售達到一定工作量以後,過於疲憊,無法保證效率。低效的銷售士氣低落,業績變得更差。所以他們後來根據銷售的疲勞模型來建模,在目標上,要做到公平,業績好。同時又要考慮每輛車的銷售工作量(距離,賣出難度,諮詢人數等等),儘可能平均。
最終的結論也很有意思,一是要站在博弈的角度去看待人(銷售),二是簡單是美,變數越少越好,系統越複雜越難優化,三是小心探索,只在子問題上面使用機器學習

金融行業專場

金融場景分散式資料庫強一致保證
錢煜明 中興通訊 / 首席架構師
這個分享主要是介紹了中興通訊Golden db。主要是提出了兩個“亮點”

  1. GoldenDB在全域性事務的實現上,對二階段提交進行了優化,在第一階段成功之前就樂觀的返回結果。如果失敗了再回滾。這個在叢集規模比較小,失敗/衝突概率很小的時候可能是能夠取得一定的優化。
  2. 在多副本的一致性上,樂觀的採用了簡單的多數一致,並沒有嚴格按照paxos協議實現。(說paxos會造成腦裂,我理解他是說在可用副本不足的情況下,paxos協議阻止寫的成功)

我對於這兩個“優化”非常質疑。如果這兩個優化確實能夠保障效能優化和正確性的話,這應該是兩個演算法的突破了。但是我沒有確鑿的證據。
他們目前有中信銀行等客戶。這也說明了目前資料庫競爭更多的是客戶關係,技術上的可靠性,演算法的嚴謹並不是商業化的主要矛盾。

從零到一,構建靈活、高效能的金融賬務系統
石偉 付錢拉 /高階架構師
這場分享非常深入的介紹了他們如何從頭搭建一個P2P的金融平臺。介紹的主要技術難點是業務上的優化。

  1. 如何通過改造表的結構來優化和稀釋熱點賬號。把資料分類成為冷熱兩種資料,把冷的列和熱的列分割成兩個表來儲存
  2. 將影響響應時間的操作由同步變成非同步操作
  3. 優化取鎖的順序,避免死鎖和長時間的等待

守住Fintech這扇門:高可用測試平臺演進之路

孫鷹 宜信 / 翼啟雲高階測試專家
這是一場介紹金融領域測試團隊實踐的分享。作為宜信平臺的測試,他們的經歷和阿里內部一些測試團隊的發展有很多類似的地方。他們雖然保留了測試團隊,但是本身更多的是測試工具和平臺開發維護團隊。在測試平臺的演進上,他們經歷了系統的梳理,輸入引數化,測試自動化驗證的歷程。

 


相關文章