C# 提取PDF中的表格

iceblue發表於2021-10-19

原文網址 : https://www.cnblogs.com/Yesi/p/15425309.html

本文介紹在C#程式中（附VB.NET程式碼）提取PDF中的表格的方法，呼叫Spire.PDF for .NET提供的提取表格的類以及方法等來獲取表格單元格中的文字內容；程式碼內容中涉及到的主要類及方法歸納如下表，供參考：

型別	描述
PdfDocument Class	Represents a pdf document model.
PdfDocument.LoadFromFile(string filename) Method	Loads a PDF document.
PdfTableExtractor Class	Represents the PDF table extractor.
PdfTable Class	Defines a PDF table.
PdfTableExtractor. ExtractTable(int pageIndex) Method	Extracts table from page.
PdfTable.GetText(int rowIndex,int columnIndex) Method	Gets Text in cell.
File.WriteAllText() Method	Saves extracted text in table to a .txt file.

環境配置

Visual Studio 2017
.net framework 4.6.1
PDF測試文件
庫：Spire.PDF for .NET 7.10.4

引用dll檔案的2種方法：

方法1：通過NuGet安裝。

【步驟】

滑鼠右鍵點選“引用”，“管理NuGet程式包”，

點選“瀏覽”，在搜尋框中輸入，點選“安裝”，

或者使用PM控制檯安裝:

PM>Install-Package Spire.PDF -Version 7.10.4

方法2：手動新增引用。

【步驟】

滑鼠右鍵點選“引用”，“新增引用”，

點選“瀏覽”，“瀏覽”，將本地路徑下的dll檔案（需提前下載到本地，並解壓）新增到引用列表

點選OK,完成引用：

程式碼示例

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
    class Program
    {
        static void Main(string[] args)
        {
            //載入PDF文件
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("sample.pdf");
            StringBuilder builder = new StringBuilder();

            //抽取表格
            PdfTableExtractor extractor = new PdfTableExtractor(pdf);
            PdfTable[] tableLists = null;
            for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
            {
                tableLists = extractor.ExtractTable(pageIndex);
                if (tableLists != null && tableLists.Length > 0)
                {
                    foreach (PdfTable table in tableLists)
                    {
                        int row = table.GetRowCount();
                        int column = table.GetColumnCount();
                        for (int i = 0; i < row; i++)
                        {
                            for (int j = 0; j < column; j++)
                            {
                                string text = table.GetText(i, j);
                                builder.Append(text + " ");
                            }
                            builder.Append("\r\n");
                        }
                    }
                }
            }

            //儲存提取的表格內容到txt文件
            File.WriteAllText("ExtractedTable.txt", builder.ToString());
        }
    }
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
    Class Program
        Private Shared Sub Main(args As String())
            '載入PDF文件
            Dim pdf As New PdfDocument()
            pdf.LoadFromFile("sample.pdf")
            Dim builder As New StringBuilder()

            '抽取表格
            Dim extractor As New PdfTableExtractor(pdf)
            Dim tableLists As PdfTable() = Nothing
            For pageIndex As Integer = 0 To pdf.Pages.Count - 1
                tableLists = extractor.ExtractTable(pageIndex)
                If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
                    For Each table As PdfTable In tableLists
                        Dim row As Integer = table.GetRowCount()
                        Dim column As Integer = table.GetColumnCount()
                        For i As Integer = 0 To row - 1
                            For j As Integer = 0 To column - 1
                                Dim text As String = table.GetText(i, j)
                                builder.Append(text & Convert.ToString(" "))
                            Next
                            builder.Append(vbCr & vbLf)
                        Next
                    Next
                End If
            Next

            '儲存提取的表格內容到txt文件
            File.WriteAllText("ExtractedTable.txt", builder.ToString())
        End Sub
    End Class
End Namespace

表格內容提取結果：

其他注意事項：

程式碼中的PDF檔案以及生成的.txt檔案路徑為 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。檔案路徑也可以自定義為其他路徑。
注意使用的dll檔案版本。低於7.10.4的其他版本不支援提取表格。

—End—

Java 讀取PDF中的表格
2021-10-22
Java
表格轉文字如何實現-表格文字識別介面整合示例-快速提取表格中的文字
2024-10-30
C#/VB.NET 在PDF表格中新增條形碼
2022-06-02
C#
提取pdf指定頁
2024-11-21
技巧：如何提取excel表格中的姓名和聯絡方式
2021-11-09
Excel
高效的PDF文字提取技術
2023-11-30
提取pdf文件的目錄1.0
2024-11-03
C# 將Excel轉為PDF時自定義表格紙張大小
2021-11-29
C#Excel
C#中PDF文件操作類
2018-09-07
C#
PDF的資訊提取的問題
2022-01-05
win11 下利用 PowerShell 提取 wps 表格中嵌入的圖片
2024-11-27
python 讀取PDF表格
2020-09-25
Python
excel表格文字識別-ocr表格文字提取api介面整合
2024-10-31
ExcelAPI
Python 提取PDF文字和圖片
2023-10-10
Python
想要提取PDF檔案中的美麗圖片，該怎麼辦？
2020-08-24
pdf的表格怎麼轉換成word？
2024-07-03
pageoffice提取線上開啟的excel表格資料
2024-04-02
Excel
C# 設定或驗證 PDF中的文字域格式
2022-01-07
C#
C# 獲取PDF中的數字簽名證書
2021-11-15
C#
提取pdf目錄，並且分級
2024-11-03
C# 正規表示式提取字串中括號裡的值
2018-10-22
C#字串
C# 將PDF轉為線性化PDF
2021-12-22
C#
Java新增條形碼到PDF表格
2022-06-07
Java
如何用Python批量提取PDF文字內容？
2018-06-27
Python
C# 提取Word中插入的多媒體檔案（視訊、音訊）
2022-03-03
C#音訊
將SAP CRM WebClient UI的表格匯出成PDF
2020-08-02
WebclientUI
如何將SAP WebClient UI的表格匯出成PDF
2020-08-26
WebclientUI
巧用Python的camelot庫批量提取PDF發票資訊
2021-09-23
Python
C#將html轉pdf
2020-04-04
C#HTML
C# PDF轉圖片
2024-12-06
C#
C# 在PDF文件中應用多種不同字型
2022-01-29
C#
C# 使用JavaScript設定或驗證 PDF中的文字域格式
2022-01-06
C#JavaScript
Python中用PyPDF2拆分pdf提取頁面
2021-09-11
Python
excel表格怎麼提取手機號碼和姓名？
2021-11-02
Excel
C# iText 7 切分PDF，處理PDF頁面大小
2022-04-26
C#
C# 壓縮PDF檔案
2023-11-03
C#
C# 將OFD轉為PDF
2022-02-08
C#
C# 將PDF轉為Excel
2022-04-08
C#Excel

C# 提取PDF中的表格

環境配置

程式碼示例

相關文章