C# 實現將 PDF 轉文字的功能
更新
2014年2月27日: 這篇文章最初只描述使用 PDFBox 來解析PDF檔案。現在它已經被擴充套件到包括使用 IFilter 和 iTextSharp 的例程了。
這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本(1.8.4)。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案(要消除依賴關係有點棘手)。
如何解析 PDF 檔案
在.NET中從PDF檔案裡提取文字的幾種主要方法有:
-
Microsoft 的 IFilter 介面 和 Adobe 的 IFilter 實現;
-
iTextSharp;
-
PDFBox。
不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。
Adobe PDF IFilter
為了使用 IFilter 介面來解析 PDF 檔案,你需要:
-
Windows 2000 或者後續版本
-
Adobe Acrobat 或 Reader 7.0.5+ (或單獨的 Adobe PDF IFilter [adobe.com])
-
IFilter COM 封裝類 [dotlucene.net]
樣例程式碼:
using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
缺點:
-
使用了不可靠的 COM 互操作來處理 IFilter 介面 (並且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。
-
需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人釋出可索引的解決方案,會很痛苦。
iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個 Java 的PDF 操作庫 iText(http://itextpdf.com/) 的.NET輸出。它主要著眼於編輯PDF而不是閱讀,但它當然也支援從PDF中提取文字(儘管有點大材小用)。
例程:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }
信用證: 成員號 10364982
缺點:
-
需要許可證(如果你不喜歡 AGPL許可證 的話)
PDFBox
PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用(參見LucenePDFDocument)。
幸運的是,PDFBox有一個使用IKVM.NET開發的.NET版本 (只需訪問PDFBox下載頁)。
在.NET中使用PDFBox需要引用:
-
IKVM.OpenJDK.Core.dll
-
IKVM.OpenJDK.SwingAWT.dll
-
pdfbox-1.8.4.dll
並將下列檔案複製到bin資料夾下:
-
commons-logging.dll
-
fontbox-1.8.4.dll
-
IKVM.OpenJDK.Util.dll
-
IKVM.Runtime.dll
使用PDFBox解析PDF十分簡單:
using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path) { PDDocument doc = null; try { doc = PDDocument.load(path) PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc); } finally { if (doc != null) { doc.close(); } } }
編譯後的大小加起來差不多有18MB:
-
IKVM.OpenJDK.Core.dll (4 MB)
-
IKVM.OpenJDK.SwingAWT.dll (6 MB)
-
pdfbox-1.8.4.dll (4 MB)
-
commons-logging.dll (82 kB)
-
fontbox-1.8.4.dll (180 kB)
-
IKVM.OpenJDK.Util.dll (2 MB)
-
IKVM.Runtime.dll (1 MB)
速度還可以:解析U.S. Copyright Act PDF (5.1 MB)檔案用了13秒。
感謝bobrien100提供的改進建議。
缺點:
-
IKVM.NET依賴 (18 MB)
-
速度(尤其是IKVM.NET的啟動時間)
相關資訊
-
在SquarePDF.NET上可以看到本文(和後續更新)。
原文地址:http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C
相關文章
- C#將html轉pdfC#HTML
- C# 將PDF轉為ExcelC#Excel
- C# 將OFD轉為PDFC#
- C# 將PDF轉為線性化PDFC#
- C#實現 word、pdf、ppt 轉為圖片C#
- C# 將PDF文件轉換為Markdown文件C#
- Python實現批次將ppt轉換為pdfPython
- Python實現批量將ppt轉換為pdfPython
- C#/VB.NET 將彩色PDF轉為灰度C#
- 分享:哪個pdf轉換器有識別文字功能
- Java 將PDF轉為PDF/AJava
- React專案實現匯出PDF的功能React
- Python 將PDF轉為PDF/A、PDF/X,以及PDF/A轉回PDFPython
- PDF抽取文字 C# with Adobe APIC#API
- 將“PDF轉換成PPT”與“PPT轉PDF”的方法
- JPG轉PDF如何實現?圖片批次轉換PDF的快捷方法
- Windows 系統,PHP實現PPT轉PDF,PDF轉圖片的操作WindowsPHP
- 使用C#,VB和Java將PDF轉換為DOC / DOCXJava
- 用C#實現生成PDF文件(原碼)C#
- html頁面轉PDF的功能HTML
- C#實現截圖功能C#
- php實現pdf轉圖片PHP
- Java 將PDF轉為線性PDFJava
- C# 將Excel轉為PDF時自定義表格紙張大小C#Excel
- 在electron下實現PDF線上預覽功能
- NetSuite實現pdf列印中的條形碼的功能UI
- C#函式實現的小功能集合C#函式
- WPF/C#:實現導航功能C#
- C# 設定或驗證 PDF中的文字域格式C#
- JS實現將文字轉換為語音並自動播放JS
- C#影象顯示實現拖拽、錨點縮放功能【轉】C#
- 【轉】[C#] 1行程式碼實現C#複製資料夾功能C#行程
- Centos 安裝 openoffice 並實現將office檔案轉化為pdfCentOS
- PDF轉文字檔案的最簡單方法
- WPF上位機 - 使用轉換器實現TIA Wincc中的文字列表功能
- 文字超長,實現展開收起功能...
- WebView實現頁內文字查詢功能WebView
- 利用 ICEpdf 快速實現 pdf 檔案預覽功能