Tesseract-OCR -01-Tesseract 介紹
肖朋偉發表於2018-09-07
Tesseract-OCR -01-Tesseract 介紹
OCR(Optical Character Recognition):
- 光學字元識別,是指對圖片檔案中的文字進行分析識別,獲取的過程
- Tesseract - OCR 引擎最先由HP實驗室於1985年開始研發,至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封
- 數年以後,HP 意識到,與其將Tesseract束之高閣,不如貢獻給開源軟體業,讓其重煥新生
- 在2005年,Tesseract 由美國內華達州資訊科技研究所獲得,並求諸於 Google 對 Tesseract 進行改進、消除Bug、優化工作,Tesseract 由惠普公司宣佈開源
- 從2006年到現在,都由 Google 公司開發維護
Tesseract - OCR 特性
- 目前,Tesseract可以識別超過100種語言。也可以用來訓練其它的語言
- 原始碼包提供了一個OCR的引擎——libtesseract 以及一個命令列程式——tesseract.exe
- Tesseract 支援多種輸出格式,如:普通文字、html、pdf 等
對於開發者
- 開發者可以使用libtesseract的C/C++介面來構建自己的程式
- Tesseract從原始碼生成的文件可以在tesseract-ocr.github.io中找到
我的 Tesseract 隨筆