Tesseract OCR Android
本文將介紹android平臺上如何使用tesseract實現OCR。 tesseract出生於HP實驗室,如今由Google負責維護,是最好的開源OCR Engine之一,並且支援中文。tesseract個人覺得有兩個需要考慮的點,一是大,二是慢,特別是中文。如果系統對空間和時間要求非常高,那麼tesseract可能不是最好的選擇。
1. 準備工具tesseract-two
tesseract是用c++實現的,需要封裝Java API用於Android平臺的呼叫。這裡我們使用的是tesseract-two, 網址是https://github.com/rmtheis/tess-two。tesseract-two 是Tesseract Tools for Android的一個git分支,選擇它是由於操作簡單,並且整合了leptonica,一個圖形處理工具。出發之前請先安裝git和android-ndk。接著便是下載和編譯,我是在windows上編譯的。
git下載(Git Bash操作): git clone https://github.com/rmtheis/tess-two.git tess
ndk編譯(cmd命令列): 先cd到剛才Git下載的tess目錄。敲如下命令(編譯的時間會有點久):
- cd tess-two
- ndk-build
- android update project -t 1 --path .
- ant release
- cd ..
- cd eyes-two
- ndk-build
- android update project -t 1 --path .
- ant release
2. 呼叫tesseract識別圖片
- private static final String TESSBASE_PATH = "/mnt/sdcard/tesseract/";
- private static final String DEFAULT_LANGUAGE = "eng";
- private static final String CHINESE_LANGUAGE = "chi_sim";
- TessBaseAPI baseApi = new TessBaseAPI();
- baseApi.init(TESSBASE_PATH, CHINESE_LANGUAGE);
- baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_AUTO);
- baseApi.setImage(params[0]);
- // Ensure that the result is correct.
- final String outputText = baseApi.getUTF8Text();
- baseApi.end();
mkdir tesseract
cd tesseract
mkdir tessdata
Ctrl+C退出Shell
adb push chi_sim.traineddata /mnt/sdcard/tesseract/tessdata
adb push eng.traineddata /mnt/sdcard/tesseract/tessdata
嘗試自己寫個Activity,顯示張圖片並識別一下吧。
3. 寫在最後
相關文章
- Android OCR之tesseractAndroid
- Android OCR之tesseract章Android
- Tesseract-OCR-02-Tesseract-OCR 的安裝與 環境變數配置變數
- Android中基於Tesseract OCR的文字識別應用Android
- Tesseract-OCR-05-主要API功能介紹API
- Tesseract OCR的下載安裝和啟動
- Tesseract-OCR 字元識別---樣本訓練字元
- Tesseract-OCR-04-使用 jTessBoxEditor 進行訓練
- Python pyocr和Tesseract-OCR的安裝以及使用Python
- PHP OCR實戰:用Tesseract從影像中讀取文字PHP
- 文字識別OCR開源框架的對比--Tesseract vs EasyOCR框架
- Python爬蟲教程-29-驗證碼識別-Tesseract-OCRPython爬蟲
- python3使用Pillow、tesseract-ocr與pytesseract模組的圖片識別的方法Python
- 可識別影象中100種人類語言文字的純Javascript OCR庫包:Tesseract.jsJavaScriptJS
- 可識別影像中100種人類語言文字的純Javascript OCR庫包:Tesseract.jsJavaScriptJS
- tesseract安裝說明
- Tesseract引擎的下載和安裝
- python利用Tesseract識別驗證碼Python
- oracle重建ocrOracle
- OCR的操作
- RPA之眼:AI-OCR,Fax-OCR概述AI
- ios OCR技術iOS
- OCR維護命令
- ORACLE RAC重建OCROracle
- 利用tesseract解析簡單數字驗證碼圖片
- OCR活體檢測
- OCR技術簡介
- OCR識別技術
- oracle遷移OCR盤Oracle
- How to restore ASM based OCRRESTASM
- Three commands for OCR maintenanceAINaN
- 【OCR】OCR備份策略及備份介質有效性驗證
- 用 Tesseract 開發一個你自己的文字識別應用
- 中國首份OCR白皮書出爐,基於深度學習的OCR已成主流深度學習
- (轉)【OCR】OCR備份策略及備份介質有效性驗證
- ocr文字識別技術
- The Best Image Ocr SDK For BAT.BAT
- 開源OCR模型對比模型