為金融帶來智慧的視覺——CVPR2018參會總結(上)

1160178291590667發表於2018-10-22

引言

CVPR( Computer Vision and Pattern Recognization )是計算機視覺領域的三大學術頂會之一,也是工業界極為關注的風向標,各種前瞻性的技術動向,商業應用場景,乃至創業投資熱點都會在大會上進行展示和傳播。2018年CVPR在美國鹽湖城召開,螞蟻金服首次以白金贊助商的身份參會,並展示了定損寶、無人零售、Zolos、xMedia等計算機視覺方面的應用,引起業內關注;同時,參會同學也藉此機會和參會同行進行了廣泛交流,取長補短,互通有無。

本文嘗試以網際網路金融,尤其是網際網路保險領域的視角,對CVPR 2018所展示的值得注意的技術方向,並對未來可能的應用前景進行探討。本屆CVPR共接受979篇論文,20多場tutorial,近50場workshop,資訊量堪稱巨大;作為以行業應用為主線的總結,本文難以做到全面而詳盡,大家也可參閱集團和螞蟻AI部門各位參會同學的文章。

1.C端場景下的影像採集與處理

自助式服務、線上提交材料、快捷理賠甚至全自動理賠,已經成為網際網路保險理賠服務的標誌性賣點。相比傳統線下理賠渠道,網際網路保險

對保險標的或理賠材料的拍攝、上傳,是線上理賠服務的第一步。例如,螞蟻金服推出的“多收多保”產品,可以讓使用者對醫療發票和單據進行拍攝上傳,無需傳遞紙質單據;而“定損寶”可以引導使用者對車輛損傷處拍攝照片或視訊,對純外觀案件完成全自動定損。這一步所採集的影像或視訊資訊的質量,將直接決定後續步驟的準確率。

保險行業使用原始資料的影像件已有幾十年的歷史,但在傳統處理流程中,影像化這一步是由專業團隊,使用掃描器、高拍儀等專業裝置來完成的,對數字影像的要求以人眼能準確辨識為主,數字化影像的主要用途是實現人工處理流程中單據的無紙化流轉,以及降低資料存檔的成本,提高檢索效率。其中對於部分印刷資料,可能使用傳統OCR技術來完成影像到文字的轉換,以利用IT系統實現自動處理。而對於網際網路保險場景,操作者是普通使用者,往往不具備專業人員的操作技能,所使用的裝置是普通手機自帶的相機,拍攝場景五花八門,因此所拍攝的影像或視訊往往有拍攝目標錯誤、拍攝角度不合理、成像模糊、曝光不足或強光反射等問題,因而採集到的數字化影像質量和專業團隊操作相比要差很多,傳統OCR演算法難以取得較好效果。

示例:使用者上傳的拍攝質量很差的發票照片

而車險理賠場景中,傳統線下理賠流程是由專職查勘人員對車輛損傷進行拍攝,就事故成因、損傷程度等關鍵定損資訊來說,拍攝的專業程度也要比普通車主高很多。

因此,網際網路保險理賠場景要回答幾個關鍵問題:

  • 怎樣引導使用者正確地拍攝目標
  • 怎樣幫助使用者提高成像質量
  • 怎樣給使用者合適的反饋,幫助使用者知道不合格拍攝的問題在哪裡,以及怎樣糾正問題
  • 怎樣從較低拍攝質量的影像資料中得到滿意結果

對這些問題的解答,可以分為以下幾個類別。

移動端視覺任務

如果能將分類、檢測等任務前置到移動裝置上進行,就能大幅提高拍攝引導、反饋的時效性,甚至做到準實時。例如,下面的互動設計案例中,在拍攝實景中實時疊加損傷區域,幫助使用者對準車輛損失部位:

在這種場景下,如何提高執行效率、減少模型大小、降低運算能耗,就成為比較重要的問題。本次大會有相當數量的paper關注移動端計算,例如:

Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions

提出了一種融合了平移和逐點卷積的可端到端訓練的模組,以代替傳統的卷積操作,能大幅減少引數。這種模型壓縮方法有望將之前只能執行在服務端的大型模型壓縮到移動裝置可接受測尺寸。

CondenseNet: An Efficient DenseNet using Learned Group Convolutions

提出DenseNet的優化方案,通過卷積的group操作以及在訓練時候的剪枝來達到降低視訊記憶體提高速度的目的。


ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

來自曠視科技孫劍團隊的ShuffleNet,提出一種適合移動裝置的網路結構,引入pointwise group convolution和channel shuffle兩種新的操作,以提高運算效率。

影像與視訊質量增強

讓使用者手持手機在任意時間地點拍攝,始終無法根除弱光,抖動,脫焦等影響成像質量的因素。如果有辦法提升原始影像的質量,對後續處理——不論是自動還是人工——都是有好處的。

Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

Nvidia提出一種可變長度多幀視訊插值的端到端卷積神經網路,對普通視訊進行插幀後,達到高速攝像機的“超慢動作”拍攝效果。現場演示效果黑科技感非常強。這種技術如果用於監控視訊增強處理,有望給事故現場還原帶來全新的解決方案。

圖片不足以體現驚豔的效果,可以移步觀看Nvidia提供的演示視訊:

視訊地址

 

Learning to See in the Dark

引入了短時間曝光圖片和對應的長時間曝光圖片的資料集,並以此訓練出一個全卷積網路,直接用於原始感測器資料,取代傳統的影像處理pipeline。這種方法有望在移動裝置上產生更好的弱光成像效果。

Multi Frame Quality Enhancement for Compressed Video

提出視訊多幀質量增強的一種方法,用臨近的高質量幀對低質量幀進行增強。作者的思路是通過SVM檢測視訊中各幀的質量峰值,然後設計了一種多幀卷積神經網路(MF-CNN),以低質量幀及其最近的兩個高質量幀未輸入,得到增強質量的結果。

Residual Dense Network for Image Super-Resolution

利用CNN來實現影像高解析度重建(SR),本篇比較新穎的地方是提出殘差密集網路(residual dense network ),充分利用所有各卷積層從低解析度影像中提取的層次化特徵。

此外,利用GAN來做影像質量增強也是一個熱門的方向,將在後面GAN專題部分詳細介紹。

2.海量圖片的標註與處理

絕大多數成功的網際網路業務都意味著海量的資料。以支付寶中的“多收多保”業務為例,哪怕只是面向小型商戶而非所有使用者,其承載的日常理賠量也達到了XXX量級(此處因保密原因不能直接透露資料,大家可以用貝葉斯網路進行腦補),每天都有海量的醫療票據圖片需要處理。因此,以下問題的探索,對於網際網路應用具有非常重要的價值:

  • 如果提高人工標註的效率
  • 如何減少對標註數量的需求
  • 怎樣降低標註資料的獲取難度

以下各舉一例:

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

很有趣的一個思路,由人去點選圖片中要標註目標的邊緣點,再演算法去自動識別目標的邊緣,這種半自動互動式的標註比純人工標註邊緣的效率要高很多。作者使用了多種優化方案:為本場景設計基於CNN編碼器,用強化學習的思路提高訓練效率,用Graph Neural Network提高標註的解析度。

 

Learning to Segment Every Thing

Kaiming He團隊提出的利用MaskRCNN解決分割問題的新思路。在目標分割這個領域,標註成本始終是一個難題。本文提出一種transfer learning的思路,用instance mask+bounding box混合資料集(Visual Genome+COCO)構建一個從廉價的bounding box到昂貴的instance mask對映,以達到“Segment every thing”的目的。

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

這一定是全場最萌的一篇paper,思路清奇。汪星人整天都在想啥呢?為了破解這個難題,作者在狗身上安裝了攝像機和感測器,同時採集視覺資料和行為資料,然後以CNN去提取視覺特徵,用LSTM去預測狗的下一步行動。簡單說,就是輸入視覺,輸出行動。資料的獲取和行為的標註是一個全自動的閉環,一隻自由行動的狗,可以不斷產生大量標註資料,相比於外包標註的時薪成本可以說是相當之低了。這個案例給我們的啟發,一是尋找能夠讓資料“自我標註”的方法,二是融合多種資訊,也許可以發現不同的解決思路。

3. GAN

本屆大會,GAN是毫無疑問最火熱的研究領域,以至於有一種說法:GAN成為下一個“深度學習”。有Goodfellow大神參加的GAN的專題workshop,現場爆滿,熱情觀眾都排到門外了。

目前在GAN的應用場景上,畫風遷移、影像修飾(嗯,美顏P圖)、影像生成在文娛行業有非常廣泛的前景,現場也看到Facebook、今日頭條、騰訊等公司都展示了相關的產品或技術。

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

本次大會的Oral,通過在D中多層抽取 feature map來改進Adversarial Loss,以及G和D引入多重scale等創新方法,將GAN生成影像的解析度提高到了2048*1024,突破了以往的極限。此外從實用角度,特別值得關注的是,作者通過引入目標分割資訊,來提供對目標物件的操作功能(如增減物件,改變物件型別等),以及探索了讓使用者能夠互動式編輯生成物件的外觀的方法。

2cf57235015f4fffb176e6912c50f46a.jpeg

WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

GAN用於手機拍攝的低質量圖片增強,達到單反效果。這是網際網路理賠場景下特別實用的一個方向。前文介紹了用CNN來生成低質量圖片的高質量版本,或替代影像增強pipeline中某個步驟的方法,而基於GAN的image-to-image方法,能夠用少量訓練資料,以弱監督學習的方式達到不錯的效果,也是非常有前景的。

Finding Tiny Faces in the Wild with Generative Adversarial Network

這是一個有趣的組合,將GAN用於對圖片中的tiny face生成高解析度版本,從而提高人臉檢測的效能。推廣到其他檢測目標在原始影像中比例較小的場景,也是有可能的,例如在一張車輛全景照中檢測微小的損傷。

DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Networks

微軟亞洲研究院提出的將Attention機制與GAN結合,提高影像生成質量的工作。有大量的影像生成任務都可以歸納為image2image,即將輸入影像翻譯為目標輸出影像,例如畫風轉換,質量增強,缺失復原等。目前一對一(paired data)轉換效果最好的是pix2pix網路,多對一(unpaired data)轉換效果最好的是CycleGAN,但這兩種方法都是影像級的特徵學習,難以對部分割槽域進行控制。本文提出瞭解決instance-level影像轉換問題的思路:通過一個深度 Attention 編碼器(DAE)來自動地學習各個 instance,然後將不同的部分分別投射到一個「隱空間」,最後通過 GAN 網路進行生成。

 

最後附上一張螞蟻金服在CVPR 2018上的展臺。作為本次AI熱潮的領頭羊,計算機視覺在網際網路金融領域有廣泛的應用前景,螞蟻金服保險事業群以及人工智慧、物聯網事業部也誠邀各位有興趣的技術同學共同加入!


相關文章