Tesseract OCR Android
本文將介紹android平臺上如何使用tesseract實現OCR。 tesseract出生於HP實驗室,如今由Google負責維護,是最好的開源OCR Engine之一,並且支援中文。tesseract個人覺得有兩個需要考慮的點,一是大,二是慢,特別是中文。如果系統對空間和時間要求非常高,那麼tesseract可能不是最好的選擇。
1. 準備工具tesseract-two
tesseract是用c++實現的,需要封裝Java API用於Android平臺的呼叫。這裡我們使用的是tesseract-two, 網址是https://github.com/rmtheis/tess-two。tesseract-two 是Tesseract Tools for Android的一個git分支,選擇它是由於操作簡單,並且整合了leptonica,一個圖形處理工具。出發之前請先安裝git和android-ndk。接著便是下載和編譯,我是在windows上編譯的。
git下載(Git Bash操作): git clone https://github.com/rmtheis/tess-two.git tess
ndk編譯(cmd命令列): 先cd到剛才Git下載的tess目錄。敲如下命令(編譯的時間會有點久):
- cd tess-two
- ndk-build
- android update project -t 1 --path .
- ant release
- cd ..
- cd eyes-two
- ndk-build
- android update project -t 1 --path .
- ant release
2. 呼叫tesseract識別圖片
- private static final String TESSBASE_PATH = "/mnt/sdcard/tesseract/";
- private static final String DEFAULT_LANGUAGE = "eng";
- private static final String CHINESE_LANGUAGE = "chi_sim";
- TessBaseAPI baseApi = new TessBaseAPI();
- baseApi.init(TESSBASE_PATH, CHINESE_LANGUAGE);
- baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_AUTO);
- baseApi.setImage(params[0]);
- // Ensure that the result is correct.
- final String outputText = baseApi.getUTF8Text();
- baseApi.end();
mkdir tesseract
cd tesseract
mkdir tessdata
Ctrl+C退出Shell
adb push chi_sim.traineddata /mnt/sdcard/tesseract/tessdata
adb push eng.traineddata /mnt/sdcard/tesseract/tessdata
嘗試自己寫個Activity,顯示張圖片並識別一下吧。
3. 寫在最後
相關文章
- Tesseract-OCR -01-Tesseract 介紹
- Tesseract Ocr文字識別
- Tesseract-OCR-02-Tesseract-OCR 的安裝與 環境變數配置變數
- Tesseract OCR 圖片文字識別
- Tesseract-OCR-05-主要API功能介紹API
- Tesseract OCR的下載安裝和啟動
- Tesseract-OCR-04-使用 jTessBoxEditor 進行訓練
- Tesseract-OCR如何得到更準確的中文識別
- 文字識別OCR開源框架的對比--Tesseract vs EasyOCR框架
- Python爬蟲教程-29-驗證碼識別-Tesseract-OCRPython爬蟲
- python3使用Pillow、tesseract-ocr與pytesseract模組的圖片識別的方法Python
- 可識別影像中100種人類語言文字的純Javascript OCR庫包:Tesseract.jsJavaScriptJS
- 可識別影象中100種人類語言文字的純Javascript OCR庫包:Tesseract.jsJavaScriptJS
- tesseract安裝說明
- Tesseract 圖片識別
- python利用Tesseract識別驗證碼Python
- Tesseract引擎的下載和安裝
- 使用Tesseract進行圖片文字識別
- RPA之眼:AI-OCR,Fax-OCR概述AI
- oracle重建ocrOracle
- RAC_OCR管理
- 利用tesseract解析簡單數字驗證碼圖片
- oracle遷移OCR盤Oracle
- OCR技術簡介
- OCR識別技術
- OCR活體檢測
- VLM-OCR-Demo:一個使用VLM用於OCR任務的示例
- 開源OCR模型對比模型
- ocr文字識別技術
- 中國首份OCR白皮書出爐,基於深度學習的OCR已成主流深度學習
- OCR 文字檢測(Differentiable Binarization --- DB)
- 騰訊優圖 OCR Composer 包
- 手機OCR證件識別
- 更換ocr和votingdisk磁碟組
- OCR技術-文字影像識別
- OCR身份證識別技術
- mac bookpro m1 安裝tesseract5.x 並訓練新字型Mac
- OCR檢測與識別技術