Tesseract-OCR -01-Tesseract 介紹

肖朋偉發表於2018-09-07

Tesseract-OCR -01-Tesseract 介紹

OCR(Optical Character Recognition):

  • 光學字元識別,是指對圖片檔案中的文字進行分析識別,獲取的過程
  • Tesseract - OCR 引擎最先由HP實驗室於1985年開始研發,至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封
  • 數年以後,HP 意識到,與其將Tesseract束之高閣,不如貢獻給開源軟體業,讓其重煥新生
  • 在2005年,Tesseract 由美國內華達州資訊科技研究所獲得,並求諸於 Google 對 Tesseract 進行改進、消除Bug、優化工作,Tesseract 由惠普公司宣佈開源
  • 從2006年到現在,都由 Google 公司開發維護

Tesseract - OCR 特性

  • 目前,Tesseract可以識別超過100種語言。也可以用來訓練其它的語言
  • 原始碼包提供了一個OCR的引擎——libtesseract 以及一個命令列程式——tesseract.exe
  • Tesseract 支援多種輸出格式,如:普通文字、html、pdf 等

對於開發者

  • 開發者可以使用libtesseract的C/C++介面來構建自己的程式
  • Tesseract從原始碼生成的文件可以在tesseract-ocr.github.io中找到

我的 Tesseract 隨筆


  • 本筆記不允許任何個人和組織轉載

相關文章