OCR識別的技術流程解析1
一、 OCR識別預處理:灰度化(如果是彩色影像)、降噪、二值化、字元切分以及歸一化這些子步驟。經過二值化後,影像只剩下兩種顏色,即黑和白,其中一個是影像背景,另一個顏色就是要識別的文字了;降噪在這個階段非常重要,降噪演算法的好壞對特徵提取的影響很大。字元切分則是將影像中的文字分割成單個文字——識別的時候是一個字一個字識別的。如果文字行有傾斜的話往往還要進行傾斜校正。歸一化則是將單個的文字影像規整到同樣的尺寸,在同一個規格下,才能應用統一的演算法。
二、特徵提取和降維:特徵是用來識別文字的關鍵資訊,每個不同的文字都能透過特徵來和其他文字進行區分。對於數字和英文字母來說,這個特徵提取是比較容易的,因為數字只有10個,英文字母只有52個,都是小字符集。對於漢字來說,特徵提取比較困難,因為首先漢字是大字符集,國標中光是最常用的第一級漢字就有3755個;第二個漢字結構複雜,形近字多。在確定了使用何種特徵後,視情況而定,還有可能要進行特徵降維,這種情況就是如果特徵的維數太高(特徵一般用一個向量表示,維數即該向量的分量數),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進行降維,這個過程也很重要,既要降低維數吧,又得使得減少維數後的特徵向量還保留了足夠的資訊量(以區分不同的文字)。
三、分類器設計、訓練和實際識別:分類器是用來進行識別的,就是對於第二步,對一個文字影像,提取出特徵給分類器,分類器就對其進行分類,告訴你這個特徵該識別成哪個文字。在進行實際識別前,往往還要對分類器進行訓練,這是一個監督學習的案例。
四、 OCR識別後處理:後處理是用來對分類結果進行最佳化的,第一,分類器的分類有時候不一定是完全正確的,比如對漢字的識別,由於漢字中形近字的存在,很容易將一個字識別成其形近字。後處理中可以去解決這個問題,比如透過語言模型來進行校正——如果分類器將“在哪裡”識別成“存哪裡”,透過語言模型會發現“存哪裡”是錯誤的,然後進行校正。第二, OCR識別影像往往是有大量文字的,而且這些文字存在排版、字型大小等複雜情況,後處理中可以嘗試去對識別結果進行格式化,比如按照影像中的排版排列。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69944133/viewspace-2677308/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- OCR識別的技術流程解析2
- OCR識別技術
- ocr文字識別技術
- OCR身份證識別技術
- OCR技術-文字影像識別
- OCR識別技術—財務報表識別
- OCR識別技術—增值稅發票識別
- TH-OCR文字識別技術
- OCR檢測與識別技術
- OCR識別技術—財務報表識別(2)
- OCR識別技術—活體檢測
- OCR證件識別技術的功能特點
- OCR識別技術—護照閱讀器2
- 文字識別解決方案-OCR識別應用場景解析
- 文件掃描OCR識別-1(python)Python
- 愛奇藝短影片軟色情識別技術解析
- 實在RPA給你展示什麼是真正的OCR識別技術
- 愛奇藝短視訊軟色情識別技術解析
- 機器視覺之人臉識別的流程及主要技術視覺
- ios OCR技術iOS
- 美顏api中2D人臉識別的技術流程API
- 表格識別技術
- 影像識別技術
- 外掛級OCR神器:免費文件解析、表格識別、手寫識別、古籍識別、PDF轉Word
- OCR技術簡介
- 最好用的OCR識別軟體
- 語音識別技術
- 文字識別(二)--字元識別技術總覽字元
- 銀行卡識別技術
- JavaScript裸體識別技術JavaScript
- PhotoSynth:影像識別建模技術
- 人臉識別技術大總結(1):Face Detection & Alignment
- 基於神經網路的OCR識別神經網路
- 中安OCR文字識別系統
- golang 通過docker 搭建 ocr識別GolangDocker
- Text Scanner for Mac ocr文字識別工具Mac
- OCR文字識別工具:OCRKit Pro中文
- OCRKit Pro for mac (OCR文字識別工具)Mac