最近在想沒有一個圖片文字識別的工具呢?我想到了OCR,國內比較牛逼的漢王OCR。那借助python能否實現呢?於是我找啊找查啊查有關PYthon在這方面探討的資料,發現PyTesser 這樣一個好玩的程式!拿出來分享討論一下:
PyTesser 是python的一個光學字元識別模組,它結合Tesseract OCR引擎來使用 ,能從一個圖片或影像檔案取出的字串並輸出。
使用PyTesser ,你無須安裝Tesseract OCR引擎,但就必須要先安裝PIL模組(Python Image Library, python的圖形庫)
官方介紹說明:
PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.
PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.
PyTesser 官方下載地址:http://code.google.com/p/pytesser/downloads/list
PIL庫資源地址: http://www.pythonware.com/products/pil/
不過,在測試使用過程中,發覺只對英文內容識別較理想,而對中文無法處理識別!
有興趣的同學可以試驗一下