kindle電子書_越獄後koreader中自帶OCR功能的設定

MugenG7發表於2024-03-26

原文網址 : https://www.cnblogs.com/gardenialyx/p/18097426

KOReader一直以PDF閱讀的優秀體驗而聞名。然而，在尚未配置的情況下閱讀圖片類PDF在KOReader中長按螢幕無法像原生系統閱讀正常文件一樣劃線取詞，並且此時KOReader會彈出一個彈窗：

沒有OCR識別結果，或沒有語言數
據。
KOReader有一個內建的OCR引擎用於識別掃描的PDF和DjVu文件中的文字。為了在掃描的頁面中使用OCR,
您需要為您的文件語言安裝tesseract
訓練資料。
您可以從https://tesseract-
ocr.github.io/tessdoc/Data-Files下
載3.04版本的語言資料檔案。
複製Tesseract 3.04的語言資料檔案
(比如適用於英語的eng.traineddata
和適用於西班牙語的
spa.traineddata)到koreader/data/
tessdata資料夾內

我翻遍了github上tessdoc這個專案，最終找到了該作者開的另一存放traineddata的專案：traineddata3.0.4，似乎無法下載單個檔案，整個打包下載下來了。裡邊我就取了中文的和英語的檔案，中文簡體chi_tra.traineddata，中文繁體chi_tra.traineddata，英文eng.traineddata

放進彈窗裡給出的那個目錄：koreader/data/tessdata
重啟KOReader，開啟PDF，點選底欄小齒輪圖示，文件語言改為Chinese，開啟強制OCR
按住要識別的文字，略作等待，得到一串中文或者英文。

說實話識別得不咋地，可用性堪憂。而且光識別出來也沒啥作用，用作新增筆記功能的話也許還行，想查詞就得另外再加詞典了。我原以為這些操作已經夠煩人了的，沒想到搜尋一番之後發現，只有中文和英語可以直接加OCR訓練資料和詞典用，其他語言不僅要找到訓練資料，還得修改persistent.defaults.lua，這是我在mobileread上看到的。KOReader的官網也有相關說明。

帖點東西上來，為有需要的人減少一點搜尋的麻煩：

KOReader官方對於OCR功能的介紹

OCR (Optical Character Recognition) is the process of extracting text from images into machine readable format. In KOReader context, it is generally used for extracting text from scanned book pages in PDF files. KOReader relies on Tesseract Open Source OCR Engine for this task (https://github.com/tesseract-ocr/tessdoc).

In order to use this feature you need to:

Install Tesseract language data to your KOReader
Add newly installed languages to koreader/defaults.lua configuration file (necessary only if your language is other than English or Chinese)
INFO Buttons on OCR menu will not function until you install the necessary Tesseract files. Details of this process can be read in the related wiki page: https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-lookups-in-scanned-pages

OCR（光學字元識別）是將影像中的文字提取為機器可讀格式的過程。在KOReader上下文中，它通常用於從PDF檔案中的掃描書籍頁面中提取文字。KOReader依賴Tesseract開源OCR引擎完成此任務（https://github.com/tesseract-ocr/tessdoc)
要使用此功能，您需要：

將Tesseract語言資料安裝到您的KOReader
將新安裝的語言新增到koreader/defaults.lua配置檔案中（僅當您的語言不是英語或中文時才需要）
在安裝必要的Tesseract檔案之前，OCR選單上的INFO按鈕將無法工作。此過程的詳細資訊可以在相關的wiki頁面中閱讀：https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-在掃描的頁面中查詢

koreader官方使用文件
mobileread論壇上的答疑帖
traineddata3.0.4
downgit:github下載加速

iOS 越獄後碰到的問題
2018-04-22
iOS
太極越獄重大安全後門
2020-08-19
越獄（快速冪）
2020-12-20
亞馬遜中國：2020年Q1 Kindle付費電子書暢銷榜TOP 10
2020-04-21
亞馬遜
閒聊iOS越獄與前景 iOS越獄還是你的菜嗎？
2018-07-25
iOS
史上最強 iPhone 越獄工具開源：功能永久有效！
2020-08-17
iPhone
iOS逆向(10)-越獄！越獄！遠端連線登入手機
2019-05-13
iOS
新的亞馬遜 Kindle 漏洞可能讓攻擊者劫持您的電子書閱讀器
2021-08-09
亞馬遜
iOS 12全版本越獄工具釋出，越獄的生存空間仍然存在
2019-02-25
iOS
電子書定製建立工具Vellum
2022-07-04
越獄軟體源
2019-02-24
[譯] 不越獄探索 App 的技巧
2018-05-30
APP
一、越獄環境搭建
2022-05-11
電子書Kindle被爆出3個新漏洞，黑客可瞬間清空使用者餘額
2021-01-29
黑客
win10 自帶郵件怎麼設定_win10自帶郵件的設定教程
2020-06-02
Win10
iOS10-10.3.3一鍵越獄教程 iOS10-10.3.3怎麼越獄
2018-08-11
iOS
iPhone越獄後找不到目錄 var/root/Media/cydia/autoinstall
2018-11-18
iPhone
iOS逆向之三 authorized_keys ssh登入越獄手機免驗證設定
2019-04-04
iOSZed
iOS 14首個越獄工具釋出；日本最大移動運營商電子支付系統遭盜刷；90後程式設計師“黑吃黑”牟取暴利
2020-09-23
iOS程式設計師
設定flex後子元素設定寬度失效問題
2020-12-16
Flex
iOS 12.4成功越獄 - 越獄開發者秀iPhone SE執行Cydia畫面
2019-06-12
iOSiPhone
如何把紙書文字轉化成電子稿？試試OCR識別+掃描筆
2020-12-23
python電子書
2018-12-13
Python
分享電子書
2019-11-03
Wondershare PDFelement Pro中的OCR功能使用教程
2022-07-28
iOS非越獄逆向--程式碼注入
2018-05-16
iOS
難道這就是電子書定價這麼貴的原因？
2019-01-02
使用 PhpStrom 自帶的 git 功能
2021-02-02
PHPGit
子div設定float後會導致父div無法自動撐開
2018-07-24
越來越普及的OCR “手寫”輸入不如“識別”輸入！
2019-10-22
IDEA中Usage提示功能設定
2023-02-20
Idea
Kindle退市，掌閱iReader或將接過電紙書市場大旗
2022-06-02
《Head First Android》讀後感，電子書PDF下載
2018-05-16
Android
中國首份OCR白皮書出爐，基於深度學習的OCR已成主流
2020-10-03
深度學習
帶有電子郵件功能的ftp傳輸軟體：Deliver Express for Mac
2023-12-29
FTPExpressMac
越獄環境下使用Cycript（準備）
2018-06-19
電子書DRM破解
2018-04-28
後端學習值得收藏的一些開源電子書
2022-04-12
後端

kindle電子書_越獄後koreader中自帶OCR功能的設定

相關文章