PDF,作為一款由Adobe公司開發的文件格式,其優點是,能保證佈局在不同的作業系統和裝置上保持一致,所見即所得
它的缺點是,餘下全部(癱
PDF檔案只儲存了格式資訊,完全丟失了原始檔的結構化資訊,編碼不統一,二進位制和字串混放,匯出為PDF的效果基本和PSD檔案全圖層合併的效果差不多,導致所有試圖對PDF進行自動化處理的嘗試都極為困難.(當然,在視覺大模型得到發展的今天,這個問題已經大大緩解)
以下是一個經典的例子:
幸運的是,arxiv上釋出的文章一般提供其Tex原始檔,我們可以使用LateXML(顧名思義,就是將Latex輸出為標記語言的形式)編譯改善其可讀性.
下載地址:https://math.nist.gov/~BMiller/LaTeXML/get.html#windows.chocolatey
專案提供了Windows版的Releases,但需要透過包管理工具Chocolatey或Strawberry進行安裝,我不太會,所以以Ubuntu為例
sudo apt-get install latexml
在arxiv上下載tar.gz格式的原始碼
解壓檔案
tar -zxvf arXiv-xxxx.xxxxx.tar.gz
進入解壓資料夾後使用命令編譯:
latexmlc --dest=out.html main.tex
效果其實還行