開源Tesseract.js能夠識別提取圖片中文字

banq發表於2016-10-13
Tesseract.js是一個Tesseract OCR(文字識別軟體)引擎,能夠識別並提前圖片中各種語言的文字,支援60多種語言。

比如圖片檔案中有以下詩句:
冬日平泉路晚歸
山路難行日易斜
煙村霜樹欲棲鴉
夜歸不到應閒事
熱飲三杯即是家

Tesseract.js能夠從圖片中完整提取這首詩句,現在微信微博經常是將文章變成圖片發表,現在有了這個工具,我們可以將圖片又轉回文字了。

使用很簡單:


Tesseract.recognize(myImage)
         .progress(function  (p) { console.log('progress', p)    })
         .then(function (result) { console.log('result', result) })
<p class="indent">



GitHub - naptha/tesseract.js: Pure Javascript OCR

相關文章