當國際貿易撞上AI,會產生怎樣的化學反應?
阿里妹導讀:單證是國際貿易中非常重要的一環,由於單證數量多、格式複雜、大量以影像形式存在等問題,給工作效率和風險控制帶來極大的影響。在這種情況下,如何利用技術提高處理效能、防控風險就顯得迫在眉睫。接下來,我們一起看看阿里工程師是如何解決這一問題。
業務背景
國際貿易的流程非常複雜,特別是B類貿易。為了防控各種風險,每個環節都有很多單證的交叉驗證,以及基於單證構建的風控策略。比如:企業資訊、銀行卡等的交叉驗證;信用證、提單、保單、箱單、發票、報關單等的風險稽核。這些單證多而複雜,比如信用證業務,需要稽核各種條款,並且做到單證一致、單單一致,往往需要非常專業的領域人員負責。整個稽核週期耗時長,而且存在各種操作風險。因此,智慧單證應運而生,通過使用機器學習和人工智慧等技術,提高處理效率,降低成本和風險,開闢國際貿易的新模式。智慧單證的價值在於:
提供訂單決策報告,條款、信用和貿易風險報告,制單審單解決方案,服務更多國際貿易的中小企業。
利用人工智慧技術,降低成本和風險,提高效率,提升客戶體驗,助力電商相關核心業務的優化升級。
技術方案
直接面臨的是三個問題:
處理物件:大量格式複雜的單證,其中五成以上是掃描或者拍照的圖片,質量層次不齊。
知識沉澱:各種術語、規則、名單、策略都是線下或者人工經驗,沒有沉澱,不成體系。
借力創新:專案時間緊,業務線多,需要平衡時間和擴充套件性,通過借力和創新落地產品。
因此,整體技術方案主要抽象成四大部分:影像處理服務、自然語言處理、領域知識圖譜、統一技術架構。
影像處理服務
影像質量比較好時,集團內已有的影像、人臉等識別技術可以達到高的Accuracy。但是,實際業務中的影像往往要複雜很多,直接呼叫已有的技術,整體Recall差不多隻有五成不到。而且,通常的識別技術沒有理解能力,比如:對於形變的影像,即使OCR識別出了字元,也無法正確恢復語義;影像的哪部分是實際需要的,也無法分析和判斷。因此,影像處理服務,除了借力集團內的識別技術,更大的挑戰是結合實際業務,落地好預處理(模糊檢測、形變復原等)以及後處理(版面分析等)工作。
自然語言處理
由於單證的型別很多,並且五成以上都是影像,集團內外最好的OCR產品,都存在至少一成的詞識別錯誤,因此,需要抗噪能力強的文字分類模型,先將單證進行自動分揀歸類。另外,即使字元的識別錯誤較少,由於沒有針對領域進行優化和分詞,無法直接閱讀和無人化使用。因此,將識別結果進行領域相關的糾錯分詞,也是勢在必行。然後,通過解析引擎進行內容解析和Key-Value關係重建,結合基於文字構建的領域知識圖譜和風控策略,完成語義理解和智慧稽核。
領域知識圖譜
本文構建的知識圖譜主要沉澱三部分內容:領域知識,包括國際貿易中的術語、縮寫、港口資訊等;專家策略,包括條款策略、衝突策略、融資策略、稽核意見等;風險地圖,包括風險國家、銀行、地區、企業等。領域知識圖譜是智慧單證的根基所在,所有的前序處理都是為了與其結合,真正落地實現智慧稽核和風險防控。
統一技術架構
技術架構上肯定不能重複造輪子,而且必須考慮專案時間,以及業務和技術的可擴充套件性。因此,根據團隊已有的沉澱,抽象出統一的技術架構。首先,所有的服務介面收攏到統一的任務引擎。然後,充分借力集團已有的成熟技術和平臺,比如:雷音(OCR技術),阿里雲(證件、人臉識別技術),MTEE(實時決策引擎),PAI(模型訓練、部署平臺)等等。最後,針對實際業務中面臨的問題,在演算法和模型上深耕並且落地創新。
演算法創新
本節闡述落地和創新的一些演算法及模型,主要集中在影像處理和自然語言處理方面,包括模糊檢測、形變復原以及糾錯分詞。
模糊檢測
模糊檢測,或者稱為影像質量評估(Image Quality Assessment),需要輕量、快速地達到目標:智慧處理 if 影像質量好 else 提示重傳/人工處理。很多傳統方法可以實現特定模糊型別的檢測,比如Laplacian運算元法,通過計算二階微分,然後求方差,根據閾值可以確定影像是否模糊。
傳統方法在特徵提取及特徵表現上存在侷限性。本文改進MobileNetV2的網路結構,實現一種新的模糊檢測演算法。模糊檢測需要特別關注影像細節的差異,因此,先通過隨機切片及HSV顏色空間篩選的方法生成樣本集合,然後基於OCR識別率指標劃分正負樣本。
原始MobileNetV2網路包含十七層Bottleneck,模型層數較深,並且每層還進行擴充套件,在實際訓練中,不易收斂且模型較大。因此,通過對原始網路進行裁剪和改進,新的結構僅包含兩層卷積、兩層池化、兩層Bottleneck以及一層全連線,網路更淺更窄,模型引數更少。目前,該模糊檢測演算法的準確率約93.4%,模型原始大小約2M,而使用原始MobileNetV2訓練的模型大小約26M。
形變復原
影像形變的型別有很多,比如旋轉,摺痕,捲曲等。這些問題除了直接影響OCR的識別效果,更嚴重的是影響語義重建。要做到實用的無人化稽核,影像的形變復原工作至關重要。很多傳統方法可以解決特定的簡單的形變問題,比如對於簡單的旋轉形變,可以通過Hough Transform先檢測直線,然後通過旋轉角度進行復原。
近年來,基於深度學習的方法,比如FCN,STN,Unet等,也被嘗試用來處理形變問題。本文結合深度學習語義分割領域的相關知識,針對已有方法的不足設計優化方案,提出一種新的形變復原演算法。
首先,利用資料合成的方法構造樣本。通過的不同形式模擬多種形變型別,比如摺痕、捲曲等;通過的大小變化模擬不同的形變程度。然後,通過插值和影像修復的方法,解決模擬影像的缺失畫素問題。
已有的基於Stacked Unet的前沿方法,容易出現裂痕、文字行扭曲、字元形變嚴重等問題。本文基於Dilated Convolution優化網路結構,並且通過調整損失函式、平滑預測值等方法,提出一種新的形變復原演算法,提升模型的效果。
本文采用MS-SSIM作為演算法復原效果的評價指標,其全稱為Multi-Scale Structural Similarity,指的是多尺度下的結構相似性的綜合評估。新演算法的MS-SSIM達到0.693,而基於前沿論文的MS-SSIM為0.490,提升效果很明顯。更詳細的介紹見:
OCR如何讀取皺巴巴的檔案?深度學習在文件影像形變矯正的應用詳解。
糾錯分詞
前文提到,集團內外最好的OCR產品,都存在至少一成的詞識別錯誤。另外,即使字元的識別錯誤較少,由於沒有針對領域進行優化和分詞,無法直接閱讀和無人化使用。因此,將識別結果進行領域相關的糾錯分詞,也是勢在必行。
通常傳統的實現方案中,糾錯是基於分好的詞級別進行的,而分詞是基於沒錯的文字進行的。直接將糾錯和分詞結合的HMM模型,由於文字比較長,預測階段的搜尋空間很大,很耗時。因此,本文從新的視角看這個問題:將分詞看成是糾錯的一個特例,空格也作為有效字元,缺了空格也是一種錯誤;將糾錯看成是一個翻譯問題,是將一個錯誤的字元序列,翻譯成一個正確的字元序列。這樣,將糾錯分詞抽象成Sequence to Sequence的問題。
通過資料合成(根據概率轉移矩陣,對字元進行增、刪、改等編輯操作),以及遷移優化,訓練得到滿足目標要求的模型。目前,圖片質量較好時,OCR識別結果與Ground Truth的差錯率(編輯距離)為15.91%(若忽略空格:2.91%);經過本文的糾錯分詞模型,差錯率降到2.24%,詞準確率提升到93.56%。
應用例項
智慧單證切入的業務環節,新模式的提效至少都在50%以上,成本和風險都大大降低,部分環節實現零風險和無人化。本節介紹智慧單證在兩個實際業務環節的應用。
信用證稽核
客戶拍照或者掃描上傳信用證,經過一系列的影像處理和自然語言處理,智慧稽核每條條款,標記風險資訊,返回稽核和決策報告。
單證核對
客戶拍照或者掃描上傳單證(比如:保單、提單、報關單等),智慧解析和核對每條欄位,標記資訊(一致:紫色;可疑:黃色;缺失:紅色),返回核對和建議報告。
總結展望
本文總結智慧單證的業務背景及技術方案,闡述落地和創新的一些演算法及模型,介紹實際業務中的一些應用。智慧單證,作為一種國際貿易的新模式,除了使用機器學習和人工智慧技術,提供風險和決策報告,以及整體的解決方案;同時也在推進其他前沿技術(比如:區塊鏈技術)的落地,更好地服務更多國際貿易的中小企業。
關於我們
我們是新零售增值業務技術團隊,旨在用科技的力量,為中小微貿企業提供在貿易和供應鏈場景下的金融,風控,信用,保險等增值服務。通過連結中小企業和金融機構,運用新技術、大資料和平臺優勢,讓無數中小微企業能夠從銀行獲取到只有大型企業才能得到的服務,為無數中小企業提供高效,安全,低成本的金融服務,讓企業的信用轉化為財富。
歡迎加入增值業務技術團隊!團隊業務處於高速增長期,長期招聘演算法模型和JAVA開發同學,有意向歡迎郵件至jinghua.fengjh@alibaba-inc.com
參考文獻
[1] L. Kang, P. Ye, Y. Li, D. Doermann. ADeep Learning Approach to Document Image Quality Assessment[C]// IEEEInternational Conference on Image Processing, 2014:2570-2574.
[2] P. Ye, D. Doermann. Document ImageQuality Assessment: A Brief Survey[C]// International Conference on Document Analysisand Recognition. IEEE Computer Society, 2013:723-727.
[3] Howard A G, Zhu M, Chen B, et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications[J]. arXivpreprint arXiv:1704.04861, 2017.
[4] Sandler M, Howard A, Zhu M, et al.Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification,Detection and Segmentation[J]. arXiv preprint arXiv:1801.04381, 2018.
[5] N. Nayef, M. Muzzamil Luqman, S. Prum, etal. SmartDoc-QA: A Dataset for Quality Assessment of Smartphone CapturedDocument Images - Single and Multiple Distortions[C]// International Workshopon Camera-Based Document Analysis and Recognition, 2015:1231-1235.
[6] Ma K, Shu Z, Bai X, et al. DocUNet:Document Image Unwarping via A Stacked U-Net[C]// Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 2018:4700-4709.
[7] Ronneberger O, Fischer P, Brox T. U-net:Convolutional Networks for Biomedical Image Segmentation[C]// InternationalConference on Medical Image Computing and Computer Assisted Intervention, 2015:234-241.
[8] Yu F, Koltun V. Multi-Scale ContextAggregation by Dilated Convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.
[9] Wang Z, Simoncelli E, Bovik A. Multi-ScaleStructural Similarity for Image Quality Assessment[C]// Asilomar Conference on SignalsSystems and Computers, 2003:1398-1402.
[10]Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to Sequence Learningwith Neural Networks[J]. arXiv preprint arXiv:1409.3215, 2014.
[11]https://stackoverflow.com/questions/4709725/explain-hough-transformation
阿里巴巴數學大賽賽題、官方參考答案現已公佈。
長按識別以下二維碼,關注“阿里巴巴機器智慧”公眾號,回覆“數學大賽”,即可下載。
↑ 翹首以盼等你關注
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 當樹莓派遇上物聯網,會發生怎樣的化學反應?樹莓派
- 當RPA遇上AI,會擦出怎樣的火花?AI
- 當Apple TV+的生態化反夢,撞上一個“日漸昂貴”的流媒體市場APP
- Cozmo+Python+ROS+AI會產生什麼樣的奇妙反應呢? (玩Cozmo機器人,學Python程式設計,掌握ROS和AI技術)PythonROSAI機器人程式設計
- AI、5G與國際貿易:變局中的語音晶片AI晶片
- 中國國際商會:2018年全球貿易金融調查報告
- 世界銀行:如何重振國際貿易?
- 當Koin撞上ViewModelView
- 《黑貓警長》正版手遊今日首發,經典IP+塔防會有怎樣的化學反應?
- 工業網際網路+危化安全生產綜合管理平臺怎樣建
- 當AI學會偏見 企業當為技術應用劃線AI
- 中國房地產官媒爆樂視投資國貿地產,佈局AI智慧家居生態AI
- 當Dagger2撞上ViewModelView
- 反對中國留學生學習AI和量子技術,美國要幹啥?AI
- MySQL多例項有哪些生產應用場景?怎麼樣才能學好linuxMySqlLinux
- Society for Neuroscience:研究發現孤獨感會讓大腦對人際關係產生更孤獨反應ROS
- 當 RocketMQ 遇上 Serverless,會碰撞出怎樣的火花?MQServer
- 世界貿易組織:2020年全年的醫療產品貿易資料
- 聯合國貿發會議:2021年貿易和發展報告
- 聯合國貿發會議:2020年全球貿易統計手冊
- AI產業化加速時代,中國大學生何以勇攀時代高峰?AI產業
- 遊戲中的歷史觀念,會對玩家產生怎樣的影響?遊戲
- 網易AI Lab斬獲自然語言處理國際頂會冠軍AI自然語言處理
- 當國風朋克撞上二次元,能做出一款什麼樣的仙俠遊戲?二次元遊戲
- 當 Flutter 遇見 Web,會有怎樣的祕密 ?FlutterWeb
- 當 .NET 5 遇上OpenTelemetry,會碰撞出怎樣的火花?
- 多樣化、個性化的生產模式成常態,企業該如何應對?模式
- 聯合國貿發會議:2021年全球商品貿易統計手冊
- 當鴻茅藥酒和權健們不再被信任,試試AI養生怎樣?AI
- “鏈式反應”帶動未來產業 BSN生態大會落地寧波產業
- 開放協同、共建生態 推動AI落地應用 ——“智湧錢塘”2018AI Cloud生態國際峰會在杭舉行AICloud
- Nuxt配合Node在實際生產中的應用UX
- 聯合國貿發會議:2020年貿易和發展報告(165頁)
- 聯合國貿發會議:2021年3月全球貿易發展報告
- 怎樣應對伺服器反應遲緩問題伺服器
- 當Python面試 碰到 反轉字串,你會怎麼做?Python面試字串
- 貿發會:2023年貿易和發展報告
- 世界貿易組織:非洲中間產品貿易呈上升趨勢