python影像文字識別 - PyTesser

pythontab發表於2013-06-09

最近在想沒有一個圖片文字識別的工具呢?我想到了OCR,國內比較牛逼的漢王OCR。那借助python能否實現呢?於是我找啊找查啊查有關PYthon在這方面探討的資料,發現PyTesser 這樣一個好玩的程式!拿出來分享討論一下:

PyTesser 是python的一個光學字元識別模組,它結合Tesseract OCR引擎來使用 ,能從一個圖片或影像檔案取出的字串並輸出。

使用PyTesser ,你無須安裝Tesseract OCR引擎,但就必須要先安裝PIL模組(Python Image Library, python的圖形庫)

官方介紹說明:

PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.

PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.

PyTesser 官方下載地址:http://code.google.com/p/pytesser/downloads/list

PIL庫資源地址: http://www.pythonware.com/products/pil/

不過,在測試使用過程中,發覺只對英文內容識別較理想,而對中文無法處理識別!

有興趣的同學可以試驗一下

相關文章