LateXML改善LaTeX生成的PDF檔案可讀性

Isakovsky發表於2024-12-10

PDF,作為一款由Adobe公司開發的文件格式,其優點是,能保證佈局在不同的作業系統和裝置上保持一致,所見即所得

它的缺點是,餘下全部(癱

PDF檔案只儲存了格式資訊,完全丟失了原始檔的結構化資訊,編碼不統一,二進位制和字串混放,匯出為PDF的效果基本和PSD檔案全圖層合併的效果差不多,導致所有試圖對PDF進行自動化處理的嘗試都極為困難.(當然,在視覺大模型得到發展的今天,這個問題已經大大緩解)

以下是一個經典的例子:

LateXML改善LaTeX生成的PDF檔案可讀性

幸運的是,arxiv上釋出的文章一般提供其Tex原始檔,我們可以使用LateXML(顧名思義,就是將Latex輸出為標記語言的形式)編譯改善其可讀性.

下載地址:https://math.nist.gov/~BMiller/LaTeXML/get.html#windows.chocolatey

專案提供了Windows版的Releases,但需要透過包管理工具Chocolatey或Strawberry進行安裝,我不太會,所以以Ubuntu為例

sudo apt-get install latexml

在arxiv上下載tar.gz格式的原始碼

LateXML改善LaTeX生成的PDF檔案可讀性

解壓檔案

tar -zxvf arXiv-xxxx.xxxxx.tar.gz

進入解壓資料夾後使用命令編譯:

 latexmlc --dest=out.html main.tex

效果其實還行

LateXML改善LaTeX生成的PDF檔案可讀性

相關文章