PDF檔案如何轉成markdown格式

i042416發表於2019-02-24

百度上根據pdf轉makrdown為關鍵字進行搜尋,結果大多數是反過來的轉換,即markdown文字轉PDF格式。

PDF檔案如何轉成markdown格式

但是PDF轉markdown的解決方案很少。

正好我工作上有這個需求,所以自己實現了一個解決方案。

下圖是一個用PDF XChange Editor開啟的PDF檔案,我想將其內容透過markdown格式匯出。

PDF檔案如何轉成markdown格式

(1) 首先將該PDF匯出成word格式,字尾.docx

PDF檔案如何轉成markdown格式
PDF檔案如何轉成markdown格式

(2) 使用typora獲得該word文件的markdown原始碼:

PDF檔案如何轉成markdown格式

此時任務只完成了一半,因為typora這個工具轉換成的markdown格式,如果原始的word文件裡包含圖片,這些圖片以本地圖片的形式存在於markdown裡,那我如果直接將包含了這些本地圖片的標籤的markdown釋出到簡書,CSDN,開源中國,騰訊雲,阿里雲這些支援markdown的社群時,這些本地圖片將無法顯示。

PDF檔案如何轉成markdown格式

因此我們必須找到一個高效的方法,將word裡包含的本地圖片先上傳到網路上,再用生成的包含了圖片網路url的markdown標籤替換本地圖片標籤。
(3) 把word檔案的字尾從.docx改成.zip, 解壓後,在資料夾word的子資料夾media裡能找到所有的本地檔案。

PDF檔案如何轉成markdown格式

把這些本地檔案全部上傳到網站,生成下面這些url:

PDF檔案如何轉成markdown格式

我寫了一個工具,可以把僅包含了本地圖片標籤的markdown原始碼和包含了上述線上圖片url標籤的原始碼做一個合併,後並後,本地圖片標籤會被線上圖片標籤取代:

PDF檔案如何轉成markdown格式

這個工具可以從我github上獲得:

下圖就是我的原始PDF轉換成markdown格式後釋出在某社群上的效果,和原始PDF外觀完全一致:

PDF檔案如何轉成markdown格式

要獲取更多Jerry的原創文章,請關注公眾號"汪子熙":


PDF檔案如何轉成markdown格式


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24475491/viewspace-2636820/,如需轉載,請註明出處,否則將追究法律責任。

相關文章