C# 實現將 PDF 轉文字的功能

oschina發表於2014-03-05

　更新

　　2014年2月27日： 這篇文章最初只描述使用 PDFBox 來解析PDF檔案。現在它已經被擴充套件到包括使用 IFilter 和 iTextSharp 的例程了。

　　這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本（1.8.4）。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案（要消除依賴關係有點棘手）。

　如何解析 PDF 檔案

　　在.NET中從PDF檔案裡提取文字的幾種主要方法有:

Microsoft 的 IFilter 介面和 Adobe 的 IFilter 實現；
iTextSharp；
PDFBox。

　　不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

　Adobe PDF IFilter

　　為了使用 IFilter 介面來解析 PDF 檔案，你需要：

Windows 2000 或者後續版本
Adobe Acrobat 或 Reader 7.0.5+ (或單獨的 Adobe PDF IFilter [adobe.com])
IFilter COM 封裝類 [dotlucene.net]

　　樣例程式碼：

using IFilter;

// ...

public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

　　缺點：

使用了不可靠的 COM 互操作來處理 IFilter 介面 (並且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。
需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人釋出可索引的解決方案，會很痛苦。

　iTextSharp

　　iTextSharp（http://sourceforge.net/projects/itextsharp/）是一個 Java 的PDF 操作庫 iText（http://itextpdf.com/）的.NET輸出。它主要著眼於編輯PDF而不是閱讀，但它當然也支援從PDF中提取文字（儘管有點大材小用）。

　　例程:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

// ...
 
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();

    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }

    return text.ToString();
  }
}

　　信用證: 成員號 10364982

　　缺點：

需要許可證（如果你不喜歡 AGPL許可證的話）

　PDFBox

　　PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用（參見LucenePDFDocument）。

　　幸運的是，PDFBox有一個使用IKVM.NET開發的.NET版本（只需訪問PDFBox下載頁）。

　　在.NET中使用PDFBox需要引用：

IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll

　　並將下列檔案複製到bin資料夾下：

commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll

　　使用PDFBox解析PDF十分簡單：

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;

// ...

private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

　　編譯後的大小加起來差不多有18MB：

IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)

　　速度還可以：解析U.S. Copyright Act PDF (5.1 MB)檔案用了13秒。

　　感謝bobrien100提供的改進建議。

　　缺點：

IKVM.NET依賴 (18 MB)
速度（尤其是IKVM.NET的啟動時間）

　相關資訊

在SquarePDF.NET上可以看到本文（和後續更新）。

　　原文地址：http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C

C#將html轉pdf
2020-04-04
C#HTML
C# 將PDF轉為Excel
2022-04-08
C#Excel
C# 將OFD轉為PDF
2022-02-08
C#
C# 將PDF轉為線性化PDF
2021-12-22
C#
C#實現 word、pdf、ppt 轉為圖片
2015-09-01
C#
C# 將PDF文件轉換為Markdown文件
2024-11-01
C#
Python實現批次將ppt轉換為pdf
2023-03-31
Python
Python實現批量將ppt轉換為pdf
2018-02-26
Python
C#/VB.NET 將彩色PDF轉為灰度
2021-11-26
C#
分享：哪個pdf轉換器有識別文字功能
2017-12-14
Java 將PDF轉為PDF/A
2022-01-24
Java
React專案實現匯出PDF的功能
2022-06-06
React
Python 將PDF轉為PDF/A、PDF/X，以及PDF/A轉回PDF
2024-05-08
Python
PDF抽取文字 C# with Adobe API
2014-04-08
C#API
將“PDF轉換成PPT”與“PPT轉PDF”的方法
2017-01-13
JPG轉PDF如何實現？圖片批次轉換PDF的快捷方法
2021-09-09
Windows 系統，PHP實現PPT轉PDF，PDF轉圖片的操作
2021-08-11
WindowsPHP
使用C＃，VB和Java將PDF轉換為DOC / DOCX
2021-03-11
Java
用C#實現生成PDF文件（原碼）
2006-09-03
C#
html頁面轉PDF的功能
2019-04-04
HTML
C#實現截圖功能
2024-05-09
C#
php實現pdf轉圖片
2022-06-07
PHP
Java 將PDF轉為線性PDF
2021-12-23
Java
C# 將Excel轉為PDF時自定義表格紙張大小
2021-11-29
C#Excel
在electron下實現PDF線上預覽功能
2019-04-16
NetSuite實現pdf列印中的條形碼的功能
2020-12-04
UI
C#函式實現的小功能集合
2008-04-01
C#函式
WPF/C#：實現導航功能
2024-07-18
C#
C# 設定或驗證 PDF中的文字域格式
2022-01-07
C#
JS實現將文字轉換為語音並自動播放
2022-06-22
JS
C#影象顯示實現拖拽、錨點縮放功能【轉】
2015-09-16
C#
【轉】[C#] 1行程式碼實現C#複製資料夾功能
2024-07-05
C#行程
Centos 安裝 openoffice 並實現將office檔案轉化為pdf
2021-10-13
CentOS
PDF轉文字檔案的最簡單方法
2019-07-09
WPF上位機 - 使用轉換器實現TIA Wincc中的文字列表功能
2024-05-03
文字超長，實現展開收起功能...
2018-08-20
WebView實現頁內文字查詢功能
2018-01-26
WebView
利用 ICEpdf 快速實現 pdf 檔案預覽功能
2016-04-16

C# 實現將 PDF 轉文字的功能

更新

如何解析 PDF 檔案

Adobe PDF IFilter

iTextSharp

PDFBox

相關資訊

相關文章

　更新

　如何解析 PDF 檔案

　Adobe PDF IFilter

　iTextSharp

　PDFBox

　相關資訊