Java 讀取PDF中的文字和圖片

iceblue發表於2019-07-18

原文網址 : https://www.cnblogs.com/Yesi/p/11206330.html

Java

本文將介紹通過Java程式來讀取PDF文件中的文字和圖片的方法。分別呼叫方法extractText()和extractImages()來讀取。

使用工具：Free Spire.PDF for Java（免費版）

Jar檔案獲取匯入：

方法1：通過官網下載jar檔案包。下載後，解壓檔案，並將lib資料夾下的Spire.Pdf.jar檔案匯入java程式。匯入後如下圖：

方法2：可通過maven倉庫安裝匯入。

Java程式碼示例

import com.spire.pdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {
    public static void main(String[]args) throws Exception {
        //載入測試文件
        PdfDocument pdf = new PdfDocument("sample.pdf");

        //例項化StringBuilder類
        StringBuilder sb = new StringBuilder();
        //定義一個int型變數
        int index = 0;

        //遍歷PDF文件中每頁
        PdfPageBase page;
        for (int i= 0; i<pdf.getPages().getCount();i++) {
            page = pdf.getPages().get(i);
            //呼叫extractText()方法提取文字
            sb.append(page.extractText(true));
            FileWriter writer;
            try {
                //將StringBuilder物件中的文字寫入到txt
                writer = new FileWriter("ExtractText.txt");
                writer.write(sb.toString());
                writer.flush();
            } catch (IOException e) {
                e.printStackTrace();
            }

            //呼叫extractImages方法獲取圖片
            for (BufferedImage image : page.extractImages()) {
                    //指定輸出圖片名，指定圖片格式
                    File output = new File(String.format("Image_%d.png", index++));
                    ImageIO.write(image, "PNG", output);
            }
        }
        pdf.close();
    }
}

文字和圖片讀取效果：

（本文完）

Java 讀取Word表格中的文字和圖片
2021-07-02
Java
Java 讀取Word文字框中的文字/圖片/表格
2021-03-05
Java
Python如何讀取pdf中的圖片
2021-09-11
Python
Python 提取PDF文字和圖片
2023-10-10
Python
Java 讀取PDF中的表格
2021-10-22
Java
C# 讀取Word文字框中的文字、圖片和表格（附VB.NET程式碼）
2021-03-10
C#
Java 獲取Word批註所標記的文字和圖片
2021-07-22
Java
利用百度AI OCR圖片識別，Java實現PDF中的圖片轉換成文字
2019-07-22
AIJava
開發筆記：PDF生成文字和圖片水印
2020-10-25
筆記
Java Word中的文字、圖片替換功能
2020-06-02
Java
Java pdf轉高清圖片
2018-04-11
Java
Python操作PDF-文字和圖片提取（使用PyPDF2和PyMuPDF）
2020-12-25
Python
讀取本地圖片
2024-08-23
地圖
PDF轉雙層或者讀雙層PDF中的文字
2024-12-04
PDF 和圖片互轉
2019-10-21
（IOS）根據bundle中的檔名讀取圖片
2018-07-31
iOS
Java 將PDF轉為透明背景的圖片
2021-11-05
Java
利用html5 file api讀取本地檔案（如圖片、PDF等）
2019-03-01
HTMLAPI
Java 圖片裁剪，擷取
2022-01-28
Java
Java 建立、填充、讀取PDF表單域
2020-03-02
Java
java 讀取指定某一行的文字
2019-02-27
Java
Java 在Word中建立郵件合併模板併合並文字和圖片
2021-07-15
Java
pdf轉圖片
2024-12-06
日常筆記二：獲取富文字編輯器中圖片
2021-06-07
筆記
golang讀取pdf
2018-10-18
Golang
python opencv讀取網路圖片
2019-03-04
PythonOpenCV
Chrome 獲取網頁顏色（文字、圖片）
2022-04-06
Chrome網頁
圖片怎麼轉換成PDF,圖片轉PDF教程
2018-08-08
python讀取txt文字資料進行分詞並生成詞雲圖片
2020-11-21
Python分詞
C# 掃描並讀取圖片中的文字
2021-06-21
C#
成品直播原始碼，JAVA獲取圖片的寬、高和大小
2023-11-15
原始碼Java
Overleaf中插入pdf圖片只顯示圖片路徑的解決方式
2024-08-03
pdf是圖片還是文件 pdf格式是文字檔案還是影像檔案
2022-04-20
Java 獲取Excel中圖片所在的行、列座標位置
2022-04-25
JavaExcel
MATLAB讀取圖片遇到長寬的問題
2018-09-11
Matlab
.NET 8 使用官方OpenXml SDK，替換Word中的文字和圖片
2024-05-22
XML
分割pdf為圖片
2024-05-30
03 #### 讀取靜態檔案-圖片
2024-09-28

Java 讀取PDF中的文字和圖片

Java程式碼示例

相關文章