OCR技術發展綜述與達觀資料的實踐經驗

達觀資料DataGrand發表於2022-10-12

光學字元識別OCR技術(Optical Character Recognition)是指從影像中自動提取文字資訊的技術。這項技術橫跨了人工智慧裡的兩大領域:CV(計算機視覺)和NLP(自然語言處理),綜合使用了這兩大領域中的很多技術成果。

在過往40餘年的技術發展歷程中,OCR始終具備很強的產業應用背景,是計算機領域裡少數幾個一開始就由工業界和學術界雙輪驅動的領域。近年來OCR技術已經在工業界成熟落地應用,學術界裡對此的研究熱度反而弱於其他方向。甚至有人認為OCR技術已經充分成熟,沒有更多研究必要了。然而隨著近年來智慧文字處理IDP(Intelligent Document Processing)在工業界的逐步落地應用,OCR和IDP相結合的應用場景越來越多,用語義理解NLP的角度進一步去延伸OCR的應用,出現了很多更有產業應用價值的場景。本文回顧了OCR技術的發展歷程,並結合達觀資料在工程實踐方面的經驗,介紹與語義分析技術結合後,當前OCR技術的一些最新發展和落地經驗。


  OCR技術的發展歷程   


OCR技術的誕生其實比計算機的歷史還要悠久,早在1930年代,德國發明家Tausheck(陶舍克)和美國工程師Handel(漢德)分別申請了最早的OCR專利,這比計算機的誕生還要早20年時間。因為當年還完全沒有計算機以及相關外設(如今天廣泛使用的掃描器或高拍儀),所以最早提出的OCR技術採用的是機械掩模和模板匹配的方法來處理打字機輸出的文件。當時的技術雛形離實際應用還比較遙遠。


OCR技術真正開始進入辦公應用是到了1960年代,引領這項技術的是美國IBM公司。隨著二戰後美國經濟的騰飛,計算機開始進入企業辦公領域,在一些日常處理量大且步驟繁瑣的場景下OCR開始發揮應用價值。例如1965年紐約世博會展出的IBM1287機器就能自動識別英文字母和數字,且準確率很高。此後逐步被用於一些訂單編號的識別派發,和信封郵政編碼的識別和郵件分揀等任務中。


1980年代起,隨著日本經濟尤其是電子技術的飛躍,富士通、日立、東芝、NEC等日本科技公司紛紛入場。這個時期的研究特點是影像採集的電子器件得到快速發展,光柵掃描、成像、電子化影像傳輸等訊號採集技術成長迅速,相應的輪廓提取、結構分析等軟體演算法也開始出現。


在以精密電器製造見長的日本企業推動下,掃描器等採集裝置的效果、速度、成本有了長足的進步,對標準列印字元的識別效果越來越好,OCR系統開始普及應用。和其他很多高科技領域裡“先從大學有了早期理論研究突破,然後逐步在產業界孵化出實用系統”的方式不同,在這個階段,OCR技術始終是由工業界主導並取得了良好的應用效果。唯一的例外是對手寫字元的識別。因為手寫字元的變化太大,各種連筆、塗改、變形等讓計算機辨認確實太難(甚至過於潦草的情況下讓人辨識都很難),所以作為OCR領域的研究分支,成為了學術界的一個研究熱點。尤其1990年代模式識別(Pattern Recognition)興起,激發了學術研究界對手寫字元識別的熱情。此時出現大名鼎鼎的MNIST資料集,由美國國家標準與技術研究所(NIST,National Institute of Standards and Technology)發起整理了來自250個不同人的手寫數字圖片。

OCR技術發展綜述與達觀資料的實踐經驗  MNIST是OCR乃至模式分類領域最知名的入門資料集


此後大量的模式分類以及影像處理論文都以MNIST作為基礎,進行各類特徵抽取和模式分類的演算法研究。至今一些大學人工智慧的入門課程還會用MNIST資料集來跑試驗,可謂經久不衰。


為什麼只有手寫字符集,不搞列印字元測試資料集?因為對列印字元的識別準確率已經極高(99.9%以上),沒有科研必要了……


此處順便一提,百度創始人李彥宏1996年在美國IDD公司工作時也參與了OCR技術研究,其中一篇優秀的研究成果發表在機器學習界知名學術期刊IEEE Transaction PAMI上。


OCR技術發展綜述與達觀資料的實踐經驗百度李彥宏的OCR論文,發表於IEEE Trans on PAMI


21世紀後,OCR被進一步應用於各行各業裡 卡證票 據的識別。針對的是日常生活中頻繁使用到的發票、身份證、銀行卡、營業執照、房產證、駕駛證、汽車牌照等實體證件。在這個階段,影像掃描技術已經高度成熟了,所以技術研究基本集中在軟體演算法方面,並細分為資訊檢測(Detection)和識別(Recognition)兩個技術分支分別發展,本文後面有更詳細的技術介紹。


因為大部分常見的卡證票 據都有相對固定的格式佈局,所以通常只需要有足夠多的訓練樣本,透過樣本標註生成元素的模板定位,就能解決絕大部分問題,不用大費周折使用“智慧化”的檢測演算法。通俗地說,這類應用場景是”資料為王”。


自2015年之後OCR技術和應用又迎來了巨大的變化,這次主要來自兩個因素的推動。第一個因素是移動手機拍照的普及。在此之前,OCR的影像通常來自於掃描器、高拍儀等企業級專用採集裝置,影像的質量非常高,但因為固定在辦公桌面使用,不夠方便靈活,限制了應用場景,所以此前的OCR集中於企業級商用。而智慧手機的迅速普及,讓我們每個人都有了一個“拍攝+上傳”的一體化終端,為OCR的應用普及帶來了新的歷史機遇,隨之而來產生了很多新的應用場景。例如各種個人證照、檔案等的自助式拍攝和上傳,用於遠端申報和審批等事項,或者拍攝並識別檔案進行內容自動處理等創新場景(例如教育領域的拍題搜答案等)。


這個因素也隨之帶來了一些新的技術問題,例如手機因為拍攝相對隨意,個人拍攝的水平參差不齊,會導致影像存在陰影遮擋、角度畸變、失焦模糊等等一堆新的問題。也相應產生了一批解決這些問題的工程手段。(達觀資料陳運文)


另一個重要因素來自深度學習技術的巨大理論突破。在深度神經網路的旋風颳到OCR領域之前,用於檢測和識別的技術可謂是百花齊放,例如各種各樣的訊號處理(例如Fourier、Radon、Hough、Zernike)特徵提煉方法、影像結構的方法(交叉線、圓圈、橫豎線條)、各種運算元(如SIFT、SURF、各類卷積運算元等)等、以及各種對映技術等。針對一些專用的字元型別和特殊應用場景,還有專門構造的人工特徵提取技術。


但深度學習時代裡透過多層網路結構來自動進行特徵學習,顛覆了這些傳統的人工特徵提取過程,效果也有明顯的改善。近年來學術界的論文已經是神經網路一統江湖了。加上之前限制深度學習的算力成本大幅度降低,新的更復雜的網路結構層出不窮,將OCR技術的效果不斷推上新的臺階。


在“智慧手機+深度學習”這兩個因素共同助推下,近年來OCR技術的研發迎來了 三個新的熱點方向,分別是:

  1. OCR與智慧文字處理(IDP)相結合,進行無固定格式文件的語義理解和結構化解析,不僅識別文字本身,而且理解文字的版面、結構、表格元素、段落內容等,從而完成對文字要素資訊的還原和結構化抽取工作,並用於智慧文件審閱處理等場景

  2. OCR與專業領域的符號識別相結合,如數學公式符號、物理公式、化學分子結構圖、建築圖紙等等,實現專業領域的應用,如拍圖搜題,圖紙稽核等場景

  3. OCR與開放場景的文字識別相結合(常稱為STR,Scene Text Recognition),例如路牌、店面招牌、商標文字、戶外廣告識別等,用於交通、戶外消費、自動駕駛等場景


這三類當前的熱點應用,都有各自的技術難點,也分別衍生出了相應的產品技術解決方案。其中OCR與IDP的結合是目前達觀資料的主要研究和應用方向,接下來會進行一些技術分享。


  OCR技術的發展情況   


當前學術界普遍將OCR處理分為  影像預處理、文字檢測(Detection)、文字識別(Recognition)這三大步驟,或者也有將檢測和識別合併,直接用 端到端學習(End-to-End)進行處理工作。


影像預處理用於對待處理的原始影像進行一些矯正操作,以助於降低後續的檢測和識別難度。例如使用一些工程化技術來調整影像對比度、旋轉對齊、進行區域性裁剪、摺痕和墨點等干擾資訊的淡化等都屬於相對基礎的預處理操作。因為在使用高拍儀或掃描器等專業採集裝置時,影像品質普遍較好,所以在2010年以前對影像預處理方面的系統性的研究並不多,更多集中於對區域性的畸變進行校正(Image Rectifier)或影像去噪。


經典的影像預處理經常用到各類濾波器(如高斯濾波、BM3D等)進行去噪,另外一些訊號處理手段也常用於對影像進行旋轉對齊,橫平豎直的文件會讓後續的檢測和識別變得容易得多。


智慧手機拍攝普及後,光照不均勻、陰影遮擋、區域性扭曲、甚至對焦模糊等複雜情況層出不窮,所以在實際工程應用中,影像預處理的好壞對後續識別精度價值很大,儘管這個環節作為OCR的一個非核心環節,受到學術圈的重視較少,各大學術會議上也幾乎罕見這方面的研究論文(近年有幾篇不錯的Text deblurring論文)。但學術和工程的目標是不一樣的,工程應用要在瑣碎中見真章,會配置很多業務規則和處理步驟。


順便一提,為了增加標註樣本的數量,提升演算法在不同場景下的魯棒性,生成對抗網路(GAN)的思想在OCR的樣本生成方面也很常用。尤其在標註樣本不充足的情況下,用GAN網路結合人工標註和積累的真實樣本,日拱一卒不斷擴大訓練樣本庫,也是常用的做法。


文字檢測是OCR的最重要環節之一(另一個是文字識別),傳統的文字檢測使用了各種人工構造的特徵,例如常見的二值投影、旋轉仿射變換、各類影像運算元如HoG運算元、SURF運算元,DPM模型(Deformable Parts Model)等來定位文字行列位置。在2010年前最常見的技術手段為滑動視窗檢測、或基於連通區域檢測的方法,由下而上逐步擬合出文字塊。


因為構造特徵的過程偏定製,很難針對不同的文件型別形成大而全的普適方案。在具有特定結構規律的OCR領域,尤其是卡證票 據這類常見檢測應用場景,傳統的模板+滑動視窗定位檢測的方法是管用的。


近10年來隨著深度學習技術的飛速發展,多種多樣的神經網路結構(如稱為XXNET或XXNN)的檢測效果明顯優於傳統人工構造的特徵,當前主流的檢測技術由深度學習來主導。


文字檢測中常見的思想有兩大類,一類是基於迴歸的方法,另一類是基於分割的方法。


基於迴歸的檢測方法,基本思路是先利用若干個預設錨點(Anchor),然後想辦法進行合併形成文字框box。2016年ECCV發表的 CTPN是基於迴歸思想的經典技術(Detecting Text in Natural Image with Connectionist Text Proposal Network,論文出自中科院,為我們中國研究者點贊)。


OCR技術發展綜述與達觀資料的實踐經驗CTPN是基於迴歸的文字檢測中的經典方法


CTPN綜合了CNN和LSTM的網路特性,在假設文字已經是水平橫向分佈的前提條件下,做了以下步驟的操作:

  1. VGG16位backbone提取空間特徵,取conv5層輸出特徵

  2. 在垂直vertical方向進行feature map,並進行reshape

  3. 引入Bi-LSTM,從而更好地利用文字連貫性的特徵來提升檢測效果

  4. 使用類似Faster R-CNN的RPN網路獲得text proposals

  5. 對獲得的大量text proposals,使用NMS(Non-Maximum Suppression,非極大值抑制),或改進後的Soft NMS,Weighted NMS等,過濾和合並文字框。(這個階段的工作和通用的目標檢測任務相似)

  6. 對得到的水平方向的文字小框合成一個完整的橫向文字行,並針對少量傾斜情況做一些矯正


CTPN綜合了上述若干種網路結構的優點,有優秀的檢測效果,尤其對邊框矩形的四個頂點的識別很準確,對OCR檢測技術的後續發展有承前啟後的意義。例如此後的SegLink演算法沿用了CTPN的思想,並引入了SSD和旋轉角度學習的方法,來解決CTPN遺留的多角度文字檢測的問題。


基於迴歸的方法對相對工整(橫平豎直)的書面文件文字的檢測效果很好,但對各類自然場景下的文字的檢測效果難以保障(例如各類彎曲形變的店鋪招牌)。所以有另一類思想是源於影像分割(image segmentation)的方法來進行文字檢測,即:


先從畫素層面做分類,判別每一個畫素點是否屬於一個文字目標,得到文字區域的機率圖,然後利用polygon等來繪製出這些候選區域的最小包圍曲線,相當於把一堆散落的畫素塊像串聯珍珠那樣,連結到一起來形成邊界框。


OCR技術發展綜述與達觀資料的實踐經驗PSENet網路是基於分割的文字檢測技術,對明顯彎曲的文字有良好效果


基於分割的方面近年優秀的成果包括2019年南京大學等組成的研究團隊發表於CVPR的PSENet網路,透過漸進式的尺度擴張網路(Progressive Scale Expansion)來學習文字分割區域,其主幹網路本質是ResNet,透過使用不同尺度的Kernel,預測不同收縮比例的文字區域,並逐個擴大檢測到的文字區域。

PSENet的實質是邊界學習方法的變體,可以有效解決任意形狀相鄰文字的檢測問題。具體如網路結構和檢測效果如上圖所示。

2021年華南理工大學在CVPR提出的FCENet,提出了用傅立葉變換來對文字外圍的包絡線進行參數列示的方法,透過設計合適的模型預測來擬合任意形狀文字包圍框,從而實現自然場景文字檢測中對於高度彎曲文字例項的檢測精度的提升。

在影像處理和模式識別界最近幾年知名國際學術會議,如CVPR、ICCV,AAAI或ICDAR上,每年都有一些最新的網路改進模型被提出(且大量優秀成果都來自中國本土的科研團隊,可喜可賀),以下是幾篇值得延伸閱讀的論文。


  1. CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,ECCV2016)

  2. SegLink(Detecting Oriented Text in Natural Images by Linking Segments,CVPR2017)

  3. EAST(EAST: An Efficient and Accurate Scene Text Detector,CVPR2017)

  4. PSENet(Shape Robust Text Detection with Progressive Scale Expansion Network,CVPR2019)

  5. DBNet(Real-time Scene Text Detection with Differentiable Binarization,AAAI2019)

  6. FCENet(Fourier Contour Embedding for Arbitrary-Shaped Text Detection,CVPR2021)


文字識別技術   



CRNN網路(迴圈卷積神經網路)是識別領域裡最為經典的方法,直至今日仍然被廣泛使用。CRNN網路的技術思想是用深度卷積Convolutional來生成影像基礎特徵,再使用Bi-LSTM迴圈網路(雙向長短時記憶網路,能吸收上下文語義資訊)進行時序特徵訓練(這一步利用文字序列的前後特徵能有效提升效果),最後引入CTC損失函式來實現端對端的不定長序列識別,解決訓練時字元無法對齊的問題。


論文原文見:An End-to-End Trainable Neural Network for Image-based 


Sequence Recognition and Its Application to Scene Text Recognition,值得一提的是CRNN由華中科技大學白翔老師團隊提出,在OCR領域是極為優秀的研究成果。


近年來隨著Attention機制在NLP領域取得了很好的效果,將CRNN和Attention結合也成為OCR識別的新思路,在CRNN網路輸出層之後加上attention機制,把GRU網路的輸出作為encoder的輸入,對其做attention,並透過softmax輸出,也有非常優異的效果。


此處特別值得推薦的是來自NAVER的OCR團隊hwalsuklee同學Github上彙總的OCR知識庫:


其中包括了近幾年學術界在OCR檢測和識別領域的一些知名論文、ICDAR的資料測試集評分和部分開原始碼,對系統性瞭解學術界在OCR領域的成果很有幫助,推薦感興趣的朋友們閱讀,是一個非常好的資料學習庫。


OCR的工程應用開發:從OCR到OCR Pro


在當前學術圈,OCR研究的熱點集中在室外自然場景下的應用。因為這些工作的難度高,效果還不太好,商業化應用還在早期,所以學術研究很熱(技術成熟並大量工程應用的領域反而理論研究就會變少),每年都有很多論文發表。這些自然場景STR工作其實和自然語言理解的關係不大,而和計算機視覺(CV)更接近,尤其是通用目標檢測(Object Detection)。甚至很多自然場景下的OCR演算法乾脆就借用了end-to-end的通用框架,例如Yolo這類大名鼎鼎的通用檢測系統。


而在實際OCR的落地應用界,“卡證票 據”的識別已經非常成熟,所以當前的應用熱點集中在無固定格式文件的識別和理解上。


下圖解釋了有固定格式的“卡證票 據”的處理,和無固定格式的文件資料處理的差異。 


OCR技術發展綜述與達觀資料的實踐經驗 無固定格式的文件資料OCR是當前應用的熱點和難點


“卡證票 據”的特點是格式相對明確和固定(例如身份證,姓名、性別、身份證號等各個資訊的位置是明確的),所以檢測(Detection)和識別(Recognition)要容易的多,透過設定模板來檢測定位,進而進行文字識別來輸出各類Key:Value型的結構化抽取結果是相對容易的。


而我們日常辦公所經常面對的 無固定格式的文件資料,因為版式變化多樣,需要進行提取的內容可能分佈在不同的位置,因而很難簡單用模板匹配的方式來進行檢測、識別、抽取三個動作,需要更復雜的操作步驟,我們稱為OCR Pro系統。


針對無固定格式的OCR Pro系統,一個待處理的文件圖片(掃描件或手機翻拍件)要依次進行版面分析(Layout Analysis),文字識別(Recognition)、資訊提取(Intelligent Document Processing)、行業知識校驗(Domain Knowledge Recheck)等步驟。


使用版面分析的原因是日常辦公文件的構成元素非常複雜,不僅有常見的文字塊,還會出現標題、目錄、印章、簽名、表格、圖例、頁首頁尾等各類元素,版面分析技術的目的就是要透過頁面各類元素資訊的視覺特徵、結合文字語義特徵和各類embedding訊號,將文件“庖丁解牛”分解為若干元素,為後續的識別和結構化抽取打好基礎。


OCR技術發展綜述與達觀資料的實踐經驗版面分析技術在OCR和IDP中有重大意義


在版面分析中,有一類常見且重要的特殊元素——表格。因為OCR的最終目的是將文件裡最關鍵的內容自動化提取出來,表格中往往包含非常密集的重要資訊,因此對錶格的解析和語義理解技術相對更為特殊,在後面的章節中將進一步對該技術進行詳細介紹。

和自然場景下(in the wild)的OCR檢測不同,針對辦公文件的OCR因為文字的橫豎佈局以及背景圖片質量明顯比自然場景的圖片要高得多,也用不著太多來自於通用目標檢測(Object Detection)的技巧。在辦公文件OCR的實際產業應用裡,版面分析技術事實上代替了文字檢測技術發揮實際作用。

文件處理環節裡的文字識別則技術相對成熟,因為大部分文字都以列印字元的形式存在,通常情況下這個環節下的文字識別技術已經非常成熟和準確了。當前達觀的一些研究主要分佈在以下一些相對特殊的場合:


01  去除文件的底紋或水印干擾

工作文件採用帶有底紋的特殊紙張,或者有的人為打上水印(例如一些重大專案的投標書)


02  提取和理解關鍵性元素

書面文字處理中存在一些特殊種類的元素,例如印章、手寫簽名等元素就是國內(包括東亞地區各國家)合同裡極為重要的組成部分,需要專門的模型進行處理。而且還需要對印章的文字內容進行提取和識別(通常為圓形),並用於後續和合同裡簽署主體進行對比稽核。手寫簽名提取後也會用於進行比對


03  識別和處理特殊符號

書面文件中經常有一些表達語義的專用符號,如√(對勾)、編號①、角標(常見於註釋提示)、下標(常見於數理化公式)等


達觀OCR的工程化實踐


要開發出真正可以落地使用的OCR產品,需要面對真實使用情況裡多種多樣的問題。這些問題往往顯得非常的瑣碎,但是隻有實實在在把這些瑣碎的問題解決好,才能讓產品落地好用。


就以最為常見的表格的OCR解析為例,其實我們日常文件中遇到的表格情況非常多,以下圖為例,這些表格存在各類分欄,水印、跨頁、揉搓、陰影、印章遮擋等各種各樣的問題,需要逐一有技術來應對。(達觀資料陳運文)


另外表格中還存在無邊框表格(常見於一些上市公司財報),或單元格巢狀的複雜表格(常見於一些複雜行政審批事項填報表),都需要進行處理。如下圖所示。


OCR技術發展綜述與達觀資料的實踐經驗達觀資料對錶格的OCR處理和語義理解


近年來基於深度學習的表格檢測和識別演算法在ICDAR(International Conference on Document Analysis and Recognition)會議上有很多原創性的成果,如A Genetic-based Search for Adaptive Table Recognition in Spreadsheets論文所提出的方法,將表格中的單元格分為Header、Data和Metadata等型別,然後相鄰單元格根據標籤異同組成不同的區域,這些區域根據相鄰關係則構成了一個標籤區域圖,巧妙的將表格結構識別任務變成了子圖分割任務,方法接著定義了將10個衡量因素加權求和來評判分割質量,用於確定最佳化目標。然後使用序列二次規劃的方法來自動調節權重,並綜合運用了遺傳演算法和一些啟發式方法、或窮舉搜尋等來進行最最佳化。


OCR技術發展綜述與達觀資料的實踐經驗ICDAR中基於深度學習的表格檢測和識別演算法


近年來透過ICDAR的技術競賽,有一些優秀的方法湧現出來,在這個領域裡國內也出現了很多研究團隊,如北京大學的高良才老師提出了很多優秀的研究成果。


和一些直接套用計算機視覺檢測的方法不同,表格因為有橫列縱列的重複分佈特徵,所以利用這個特徵來進行識別往往能取得更有針對性的效果,ICDAR2019論文Table structure extraction with Bi-directional Gated Recurrent Unit Networks提出了使用迴圈神經網路來進行表格結構識別任務。在一系列基礎性的二值化和膨脹預處理後,將影像按畫素行或列放入獨立的兩個兩層雙向迴圈神經網路,同時將某個畫素行或列的相鄰兩個鄰居考慮進去。接著將迴圈神經網路的輸出行列特徵分類為是否屬於行列分隔符區域,最終把預測分隔區域的中點作為最終的行列分割結果。GRU網路的效果相比LSTM整體略好。


達觀的實踐總結與展望


在達觀實踐OCR產品過程中,我們發現一旦版面分析工作做紮實後,文字檢測就變得很容易了。而完成文字識別後,利用語義上下文技術,對內容進行結構化提取就是IDP系統來完成的工作了,Attention以及NLP的一些模型可以很好發揮長處。


OCR技術發展綜述與達觀資料的實踐經驗達觀工程化OCR處理流程


如上圖所示,為了更好地提升效果,充分運用行業知識校驗對提升OCR效果也起到了重要作用。學術研究裡通常不會涉及外部領域知識,但在實際落地應用中構造專業領域的知識圖譜對每一個垂直細分領域的文字OCR任務都有巨大的收益。


例如財務報表OCR中,各類數字之間隱含的勾稽關係(如利潤表中的“主營業務成本”與資產負債表中的“應付賬款”以及現金流浪表中的“購買商務和勞務支出”可以進行交叉校驗)可以用於對OCR提取的數字進行校驗和糾正,大幅提升準確率。再比如IPO招股書中的企業經營資料,會在相應的審計報告中再次出現,如果引入投行的專業經驗,那麼對OCR的處理效果會有很大幫助。最後,人工複檢工作以及相應的結果自動反饋機制也非常重要,人工複檢不僅能讓系統最終實現100%的準確率,並且人工糾正後的結果能不斷作為訓練樣本用於矯正原有系統的問題,從而能讓系統越來越“聰明”,逐步逼近更高的識別準確率。


在達觀近年來將IDP、知識圖譜和OCR進行融合來進行工程實踐的過程中,我們深刻領會到一個優秀的產品一定要實事求是的吸收各種思想的優點,既要有傳統方法的長處,也要借鑑最新網路模型的優點。對資料的積累和標註是一個持之以恆的事情,產品的使用細節體驗,人機互動的過程也需要不斷地完善和提升。好的產品從來都不是一蹴而就的,而是需要反覆打磨和持續改進的。隨著OCR技術近年來不斷向前發展,和各類下游的應用場景,如文件稽核、語義理解、RPA等的結合日益增多,OCR的應用還將發揮越來越大的價值。(達觀資料陳運文)



作者簡介

陳運文,達觀資料董事長兼CEO。復旦大學計算機博士,優秀博士論文獎獲得者,國家“萬人計劃”專家,2021年中國青年創業獎,中國五四青年獎章,上海市十大青年科技傑出貢獻獎獲得者,上海市優秀技術帶頭人,第九屆上海青年科技英才;國際計算機學會(ACM)、電子電器工程師學會(IEEE)、中國計算機學會(CCF)、中國人工智慧學會(CAAI)高階會員,上海市計算機學會多媒體分會副會長;上海市首批人工智慧正高階職稱獲得者。在人工智慧領域擁有近百項國家技術發明專利,是復旦大學、上海財經大學、上海外國語學院聘任的校外研究生導師,在IEEE Transactions、SIGKDD等國際頂級學術期刊和會議上發表數十篇高水平科研成果論文,出版《智慧RPA實戰》、人工智慧經典著作《智慧Web 演算法》(第2 版),參與撰寫《資料實踐之美》等論著;曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最頂尖的大資料競賽的冠亞軍榮譽。曾擔任盛大文學首席資料官、騰訊文學高階總監、百度核心技術研發工程師。在機器學習、自然語言處理、搜尋推薦等領域有豐富的研究和工程經驗。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2917956/,如需轉載,請註明出處,否則將追究法律責任。

相關文章