當國際貿易撞上AI，會產生怎樣的化學反應？

阿里技术發表於2018-10-18

原文網址 : https://www.jiqizhixin.com/articles/2018-10-18-5

640?wx_fmt=jpeg

阿里妹導讀：單證是國際貿易中非常重要的一環，由於單證數量多、格式複雜、大量以影像形式存在等問題，給工作效率和風險控制帶來極大的影響。在這種情況下，如何利用技術提高處理效能、防控風險就顯得迫在眉睫。接下來，我們一起看看阿里工程師是如何解決這一問題。

業務背景

國際貿易的流程非常複雜，特別是B類貿易。為了防控各種風險，每個環節都有很多單證的交叉驗證，以及基於單證構建的風控策略。比如：企業資訊、銀行卡等的交叉驗證；信用證、提單、保單、箱單、發票、報關單等的風險稽核。這些單證多而複雜，比如信用證業務，需要稽核各種條款，並且做到單證一致、單單一致，往往需要非常專業的領域人員負責。整個稽核週期耗時長，而且存在各種操作風險。因此，智慧單證應運而生，通過使用機器學習和人工智慧等技術，提高處理效率，降低成本和風險，開闢國際貿易的新模式。智慧單證的價值在於：

提供訂單決策報告，條款、信用和貿易風險報告，制單審單解決方案，服務更多國際貿易的中小企業。
利用人工智慧技術，降低成本和風險，提高效率，提升客戶體驗，助力電商相關核心業務的優化升級。

640?wx_fmt=png

技術方案

直接面臨的是三個問題：

處理物件：大量格式複雜的單證，其中五成以上是掃描或者拍照的圖片，質量層次不齊。
知識沉澱：各種術語、規則、名單、策略都是線下或者人工經驗，沒有沉澱，不成體系。
借力創新：專案時間緊，業務線多，需要平衡時間和擴充套件性，通過借力和創新落地產品。

因此，整體技術方案主要抽象成四大部分：影像處理服務、自然語言處理、領域知識圖譜、統一技術架構。

640?wx_fmt=png

影像處理服務

影像質量比較好時，集團內已有的影像、人臉等識別技術可以達到高的Accuracy。但是，實際業務中的影像往往要複雜很多，直接呼叫已有的技術，整體Recall差不多隻有五成不到。而且，通常的識別技術沒有理解能力，比如：對於形變的影像，即使OCR識別出了字元，也無法正確恢復語義；影像的哪部分是實際需要的，也無法分析和判斷。因此，影像處理服務，除了借力集團內的識別技術，更大的挑戰是結合實際業務，落地好預處理（模糊檢測、形變復原等）以及後處理（版面分析等）工作。

自然語言處理

由於單證的型別很多，並且五成以上都是影像，集團內外最好的OCR產品，都存在至少一成的詞識別錯誤，因此，需要抗噪能力強的文字分類模型，先將單證進行自動分揀歸類。另外，即使字元的識別錯誤較少，由於沒有針對領域進行優化和分詞，無法直接閱讀和無人化使用。因此，將識別結果進行領域相關的糾錯分詞，也是勢在必行。然後，通過解析引擎進行內容解析和Key-Value關係重建，結合基於文字構建的領域知識圖譜和風控策略，完成語義理解和智慧稽核。

領域知識圖譜

本文構建的知識圖譜主要沉澱三部分內容：領域知識，包括國際貿易中的術語、縮寫、港口資訊等；專家策略，包括條款策略、衝突策略、融資策略、稽核意見等；風險地圖，包括風險國家、銀行、地區、企業等。領域知識圖譜是智慧單證的根基所在，所有的前序處理都是為了與其結合，真正落地實現智慧稽核和風險防控。

統一技術架構

技術架構上肯定不能重複造輪子，而且必須考慮專案時間，以及業務和技術的可擴充套件性。因此，根據團隊已有的沉澱，抽象出統一的技術架構。首先，所有的服務介面收攏到統一的任務引擎。然後，充分借力集團已有的成熟技術和平臺，比如：雷音（OCR技術），阿里雲（證件、人臉識別技術），MTEE（實時決策引擎），PAI（模型訓練、部署平臺）等等。最後，針對實際業務中面臨的問題，在演算法和模型上深耕並且落地創新。

640?wx_fmt=png

演算法創新

本節闡述落地和創新的一些演算法及模型，主要集中在影像處理和自然語言處理方面，包括模糊檢測、形變復原以及糾錯分詞。

640?wx_fmt=png

模糊檢測

模糊檢測，或者稱為影像質量評估（Image Quality Assessment），需要輕量、快速地達到目標：智慧處理 if 影像質量好 else 提示重傳/人工處理。很多傳統方法可以實現特定模糊型別的檢測，比如Laplacian運算元法，通過計算二階微分，然後求方差，根據閾值可以確定影像是否模糊。

640?wx_fmt=png

傳統方法在特徵提取及特徵表現上存在侷限性。本文改進MobileNetV2的網路結構，實現一種新的模糊檢測演算法。模糊檢測需要特別關注影像細節的差異，因此，先通過隨機切片及HSV顏色空間篩選的方法生成樣本集合，然後基於OCR識別率指標劃分正負樣本。

640?wx_fmt=png

原始MobileNetV2網路包含十七層Bottleneck，模型層數較深，並且每層還進行擴充套件，在實際訓練中，不易收斂且模型較大。因此，通過對原始網路進行裁剪和改進，新的結構僅包含兩層卷積、兩層池化、兩層Bottleneck以及一層全連線，網路更淺更窄，模型引數更少。目前，該模糊檢測演算法的準確率約93.4%，模型原始大小約2M，而使用原始MobileNetV2訓練的模型大小約26M。

640?wx_fmt=png

形變復原

影像形變的型別有很多，比如旋轉，摺痕，捲曲等。這些問題除了直接影響OCR的識別效果，更嚴重的是影響語義重建。要做到實用的無人化稽核，影像的形變復原工作至關重要。很多傳統方法可以解決特定的簡單的形變問題，比如對於簡單的旋轉形變，可以通過Hough Transform先檢測直線，然後通過旋轉角度進行復原。

640?wx_fmt=png

近年來，基於深度學習的方法，比如FCN，STN，Unet等，也被嘗試用來處理形變問題。本文結合深度學習語義分割領域的相關知識，針對已有方法的不足設計優化方案，提出一種新的形變復原演算法。

首先，利用資料合成的方法構造樣本。通過 640?wx_fmt=png 的不同形式模擬多種形變型別，比如摺痕、捲曲等；通過的大小變化模擬不同的形變程度。然後，通過插值和影像修復的方法，解決模擬影像的缺失畫素問題。

640?wx_fmt=png

已有的基於Stacked Unet的前沿方法，容易出現裂痕、文字行扭曲、字元形變嚴重等問題。本文基於Dilated Convolution優化網路結構，並且通過調整損失函式、平滑預測值等方法，提出一種新的形變復原演算法，提升模型的效果。

640?wx_fmt=png

本文采用MS-SSIM作為演算法復原效果的評價指標，其全稱為Multi-Scale Structural Similarity，指的是多尺度下的結構相似性的綜合評估。新演算法的MS-SSIM達到0.693，而基於前沿論文的MS-SSIM為0.490，提升效果很明顯。更詳細的介紹見：

OCR如何讀取皺巴巴的檔案？深度學習在文件影像形變矯正的應用詳解。

640?wx_fmt=png

糾錯分詞

前文提到，集團內外最好的OCR產品，都存在至少一成的詞識別錯誤。另外，即使字元的識別錯誤較少，由於沒有針對領域進行優化和分詞，無法直接閱讀和無人化使用。因此，將識別結果進行領域相關的糾錯分詞，也是勢在必行。

通常傳統的實現方案中，糾錯是基於分好的詞級別進行的，而分詞是基於沒錯的文字進行的。直接將糾錯和分詞結合的HMM模型，由於文字比較長，預測階段的搜尋空間很大，很耗時。因此，本文從新的視角看這個問題：將分詞看成是糾錯的一個特例，空格也作為有效字元，缺了空格也是一種錯誤；將糾錯看成是一個翻譯問題，是將一個錯誤的字元序列，翻譯成一個正確的字元序列。這樣，將糾錯分詞抽象成Sequence to Sequence的問題。

640?wx_fmt=png

通過資料合成（根據概率轉移矩陣，對字元進行增、刪、改等編輯操作），以及遷移優化，訓練得到滿足目標要求的模型。目前，圖片質量較好時，OCR識別結果與Ground Truth的差錯率（編輯距離）為15.91%（若忽略空格：2.91%）；經過本文的糾錯分詞模型，差錯率降到2.24%，詞準確率提升到93.56%。

640?wx_fmt=png

應用例項

智慧單證切入的業務環節，新模式的提效至少都在50%以上，成本和風險都大大降低，部分環節實現零風險和無人化。本節介紹智慧單證在兩個實際業務環節的應用。

信用證稽核

客戶拍照或者掃描上傳信用證，經過一系列的影像處理和自然語言處理，智慧稽核每條條款，標記風險資訊，返回稽核和決策報告。

640?wx_fmt=png

單證核對

客戶拍照或者掃描上傳單證（比如：保單、提單、報關單等），智慧解析和核對每條欄位，標記資訊（一致：紫色；可疑：黃色；缺失：紅色），返回核對和建議報告。

640?wx_fmt=png

總結展望

本文總結智慧單證的業務背景及技術方案，闡述落地和創新的一些演算法及模型，介紹實際業務中的一些應用。智慧單證，作為一種國際貿易的新模式，除了使用機器學習和人工智慧技術，提供風險和決策報告，以及整體的解決方案；同時也在推進其他前沿技術（比如：區塊鏈技術）的落地，更好地服務更多國際貿易的中小企業。

關於我們

我們是新零售增值業務技術團隊，旨在用科技的力量，為中小微貿企業提供在貿易和供應鏈場景下的金融，風控，信用，保險等增值服務。通過連結中小企業和金融機構，運用新技術、大資料和平臺優勢，讓無數中小微企業能夠從銀行獲取到只有大型企業才能得到的服務，為無數中小企業提供高效，安全，低成本的金融服務，讓企業的信用轉化為財富。

歡迎加入增值業務技術團隊！團隊業務處於高速增長期，長期招聘演算法模型和JAVA開發同學，有意向歡迎郵件至jinghua.fengjh@alibaba-inc.com

參考文獻

[1] L. Kang, P. Ye, Y. Li, D. Doermann. ADeep Learning Approach to Document Image Quality Assessment[C]// IEEEInternational Conference on Image Processing, 2014:2570-2574.

[2] P. Ye, D. Doermann. Document ImageQuality Assessment: A Brief Survey[C]// International Conference on Document Analysisand Recognition. IEEE Computer Society, 2013:723-727.

[3] Howard A G, Zhu M, Chen B, et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications[J]. arXivpreprint arXiv:1704.04861, 2017.

[4] Sandler M, Howard A, Zhu M, et al.Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification,Detection and Segmentation[J]. arXiv preprint arXiv:1801.04381, 2018.

[5] N. Nayef, M. Muzzamil Luqman, S. Prum, etal. SmartDoc-QA: A Dataset for Quality Assessment of Smartphone CapturedDocument Images - Single and Multiple Distortions[C]// International Workshopon Camera-Based Document Analysis and Recognition, 2015:1231-1235.

[6] Ma K, Shu Z, Bai X, et al. DocUNet:Document Image Unwarping via A Stacked U-Net[C]// Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 2018:4700-4709.

[7] Ronneberger O, Fischer P, Brox T. U-net:Convolutional Networks for Biomedical Image Segmentation[C]// InternationalConference on Medical Image Computing and Computer Assisted Intervention, 2015:234-241.

[8] Yu F, Koltun V. Multi-Scale ContextAggregation by Dilated Convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.

[9] Wang Z, Simoncelli E, Bovik A. Multi-ScaleStructural Similarity for Image Quality Assessment[C]// Asilomar Conference on SignalsSystems and Computers, 2003:1398-1402.

[10]Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to Sequence Learningwith Neural Networks[J]. arXiv preprint arXiv:1409.3215, 2014.

[11]https://stackoverflow.com/questions/4709725/explain-hough-transformation

640?wx_fmt=png