Java 讀取PDF中的表格
一、概述
本文以Java示例展示讀取PDF中的表格的方法。這裡匯入Spire.PDF for Javah中的jar包,並使用其提供的相關及方法來實現獲取表格中的文字內容。下表中整理了本次程式碼使用到的主要類、方法及解釋,供參考:
型別 |
描述 |
PdfDocument Class |
Represents a pdf document model. |
PdfDocument. loadFromFile (string filename) Method |
Loads a PDF document. |
PdfTableExtractor Class |
Represents the PDF table extractor. |
PdfTable Class |
Defines a PDF table. |
PdfTableExtractor. extractTable (int pageIndex) Method |
Extracts table from page. |
PdfTable.getText(int rowIndex,int columnIndex) Method |
Gets Text in cell. |
FileWriter. write() Method |
Saves extracted text in table to a .txt file. |
二、環境配置
-
IntelliJ IDEA 2018(JDK 1.8.0)
-
PDF 測試文件
-
PDF Jar包:Spire.PDF for Java Version: 4.10.2
Jar包的匯入方法:
將jar包下載到本地,解壓。然後執行如下步驟來手動匯入:
三、讀取PDF 中的表格
import com.spire.pdf.*; import com.spire.pdf.utilities.PdfTable; import com.spire.pdf.utilities.PdfTableExtractor; import java.io.FileWriter; import java.io.IOException; public class ExtractTable { public static void main(String[] args)throws IOException { //載入PDF文件 PdfDocument pdf = new PdfDocument(); pdf.loadFromFile("test.pdf"); //建立StringBuilder類的例項 StringBuilder builder = new StringBuilder(); //抽取表格 PdfTableExtractor extractor = new PdfTableExtractor(pdf); PdfTable[] tableLists ; for (int page = 0; page < pdf.getPages().getCount(); page++) { tableLists = extractor.extractTable(page); if (tableLists != null && tableLists.length > 0) { for (PdfTable table : tableLists) { int row = table.getRowCount(); int column = table.getColumnCount(); for (int i = 0; i < row; i++) { for (int j = 0; j < column; j++) { String text = table.getText(i, j); builder.append(text+" "); } builder.append("\r\n"); } } } } //將提取的表格內容寫入txt文件 FileWriter fileWriter = new FileWriter("ExtractedTable.txt"); fileWriter.write(builder.toString()); fileWriter.flush(); fileWriter.close(); } }
表格內容讀取結果:
—End—
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31499788/viewspace-2838582/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python 讀取PDF表格Python
- Java 讀取PDF中的文字和圖片Java
- Java 讀取Word表格中的文字和圖片Java
- Java 讀取Word文字框中的文字/圖片/表格Java
- Python如何讀取pdf中的圖片Python
- PHPExcel 讀取表格PHPExcel
- Java 建立、填充、讀取PDF表單域Java
- C# 提取PDF中的表格C#
- golang讀取pdfGolang
- Python讀取Excel表格PythonExcel
- 從json物件中讀取資料存入表格JSON物件
- Java新增條形碼到PDF表格Java
- excel-Spreadsheets:讀取Excel電子表格資料的Java原始碼ExcelJava原始碼
- 讀取JSON資料存入表格JSON
- SpringBoot利用java反射機制,實現靈活讀取Excel表格中的資料和匯出資料至Excel表格Spring BootJava反射Excel
- Java PDF書籤——新增、編輯、刪除、讀取書籤Java
- java中讀取配置檔案Java
- RAG學習--pdf讀取與切割
- PDF轉雙層或者讀雙層PDF中的文字
- Java替換PDF中的字型Java
- Java 替換PDF中的字型Java
- 使用Java通過POI讀取EXCEL中的資料JavaExcel
- Java 讀取檔案Java
- pdf的表格怎麼轉換成word?
- Java中的獲取檔案的物理絕對路徑,和讀取檔案Java
- dotnet OpenXML 讀取 PPT 內嵌 ole 格式 Excel 表格的資訊XMLExcel
- Java 讀取 sun 包的原始碼Java原始碼
- Java 設定PDF跨頁表格重複顯示錶頭行Java
- C# 讀取Word文字框中的文字、圖片和表格(附VB.NET程式碼)C#
- XSS 從 PDF 中竊取資料
- Java 新增、讀取、刪除Excel中的圖表趨勢線JavaExcel
- JavaScript刪除核取方塊選中的表格行JavaScript
- poi讀取表格資料和表格顯示不一致問題解決
- 如何在Java中讀取超過記憶體大小的檔案Java記憶體
- 將SAP CRM WebClient UI的表格匯出成PDFWebclientUI
- 如何將SAP WebClient UI的表格匯出成PDFWebclientUI
- Java中的讀/寫鎖Java
- java多現場讀取listJava