【Java】Jsoup 解析HTML報告

emdzz發表於2024-08-02

原文網址 : https://www.cnblogs.com/mindzone/p/18339177

JavaJSHTML

一、需求背景

有好幾種報告檔案，目前是人肉找報告資訊填到Excel上生成統計資訊

跟使用者交流了下需求和提供的幾個檔案，發現都是html檔案

其實所謂的報告的檔案，就是一些本地可開啟的靜態資源，裡面也有js、img等等

二、方案選型

前面老闆一直說是文件解析，我尋思這不就是寫爬蟲嗎....

因為是在現有系統上加新功能實現，現有系統還是Java做後端服務，所以之前學的Python就不想用了

寫Python還需要單獨起個服務部署起來，Java有JSOUP能用，沒Python那麼好用就是...

三、落地實現

1、JSOUP依賴座標：

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.18.1</version>
</dependency>

2、檔案讀取問題

我發現每種型別的報告檔案的存放方式都不一樣

第一種單HTML檔案：

這種相對簡單，只需要讀取路徑後直接訪問檔案內容即可

String reportFilePath = "C:/Users/Administrator/Desktop/report-type/xxx.html";
String htmlContent = new String(Files.readAllBytes(Paths.get(reportFilePath)), StandardCharsets.UTF_8);
Document doc = Jsoup.parse(htmlContent);

第二種單Zip壓縮檔案：

單層壓縮，可以透過zipFile的API訪問，取出壓縮條目一個個用條目名稱進行判斷

再透過zipFile開啟讀取流對該條目進行讀取

String targetFile = "index.html";
ZipEntry targetEntry = null;
String reportFilePath = "C:/Users/Administrator/Desktop/report-type/xxxhtml.zip";
ZipFile zipFile = isWinSys() ? new ZipFile(new File(reportFilePath), ZipFile.OPEN_READ, Charset.forName("GBK")) : new ZipFile(reportFilePath);
Enumeration<? extends ZipEntry> zipEntries = zipFile.entries();
while (zipEntries.hasMoreElements()) {
    ZipEntry zipEntry = zipEntries.nextElement();
    boolean isDirectory = zipEntry.isDirectory();
    if (isDirectory) continue;
    String name = zipEntry.getName();
    if (targetFile.equals(name)) {
        targetEntry = zipEntry;
        break;
    }
}
boolean hasFind = Objects.nonNull(targetEntry);
if (!hasFind) return; /* 沒有可讀取的目標檔案 */
InputStream inputStream = zipFile.getInputStream(targetEntry);
String htmlCode = IoUtil.readUtf8(inputStream);
Document doc = Jsoup.parse(htmlCode);

執行完成後記得要釋放資源：

/* 資源釋放 */
inputStream.close();
zipFile.close();

第三種多Zip巢狀壓縮檔案：

檔案被壓縮了兩次，要解壓兩邊才可以訪問

1、讀取內嵌的Zip檔案時發現MALFORM報錯，需要根據作業系統設定讀取編碼...

https://blog.csdn.net/qq_25112523/article/details/136060946

然後在建立ZipFile物件的API加了一個作業系統的判斷

public static boolean isWinSys() {
    String property = System.getProperty("os.name");
    return property.contains("win") || property.contains("Win");
}

2、ZipFile只對單層壓縮有用，如果是巢狀的壓縮檔案就不支援了

這個報告檔案的情況是第一層只有一個條目，所以上傳上來的檔案我只關心裡面只有一個內嵌的壓縮檔案就行

當匹配這個條件交給ZipFile讀取輸入流，轉換成Zip輸入流，否則不處理

可以在下面程式碼看到，對被壓縮的檔案進行inputStream讀取後，要改用ZipInputStream讀取

zipInputStream 等效 zipFile + zipEntries的合體，包含了條目迭代資訊

但是隻有一個getNextEntry方法，只能寫While迴圈不斷判斷下一個條目是否還存在

檔名叫report.html，判斷條目名是否匹配後結束迴圈

再利用IO工具類直接讀取ZipInputStream即可（getNextEntry方法就是讓ZipInputStream不斷切換到當前條目的引用）

如果要處理複雜情況要在While裡面才能實現的，建議每個條目結束之後呼叫closeEntry方法

String targetSuffix = ".zip";
String targetFile = "report.html";
String reportFilePath = "C:/Users/Administrator/Desktop/report-type/xx_20240729153751.zip";
ZipFile zipFile = isWinSys() ? new ZipFile(new File(reportFilePath), ZipFile.OPEN_READ, Charset.forName("GBK")) : new ZipFile(reportFilePath);
Enumeration<? extends ZipEntry> enumeration = zipFile.entries();
/* 轉換成集合條目，迭代條目不能判斷size */
List<ZipEntry> zipEntrieList = new ArrayList<>();
while (enumeration.hasMoreElements()) {
    ZipEntry zipEntry = enumeration.nextElement();
    zipEntrieList.add(zipEntry);
}
/* 只有1個zip壓縮檔案時才處理 */
if (CollectionUtils.isEmpty(zipEntrieList)) return;
boolean isOnlyOneEntry = zipEntrieList.size() == 1;
boolean anyMatch = zipEntrieList.stream().anyMatch(ze -> ze.getName().endsWith(targetSuffix));
if (!isOnlyOneEntry || !anyMatch) return;
ZipEntry zipEntry = zipEntrieList.get(0);
/* 透過ZipInputStream不斷切換條目找到目標檔案 */
InputStream inputStream = zipFile.getInputStream(zipEntry);
ZipInputStream zipInputStream = new ZipInputStream(inputStream);
/* 在內層中尋找目標檔案 */
ZipEntry reportEntry = zipInputStream.getNextEntry();
while (Objects.nonNull(reportEntry)) {
    String name = reportEntry.getName();
    if (targetFile.equals(name)) break;
    reportEntry = zipInputStream.getNextEntry();
}
String htmlCode = IoUtil.readUtf8(zipInputStream);
Document doc = Jsoup.parse(htmlCode);

同樣這裡也需要釋放資源：

/* 資源釋放 */
zipInputStream.close();
inputStream.close();
zipFile.close();

3、常見查詢API使用

一、常見API方法

下班到家才反應過來ownText是元素自己的文字內容，過濾掉其他巢狀的元素文字

也可以直接使用cssQuery

doc.select("table.y-report-ui-report-info-grid")

二、使用兄弟元素查詢對應關係

有一個特殊的情況就是有些元素按文件結構應該是一個逐層關聯的結構

先有A，然後B在A裡面，C又在B裡面這樣

但是這個是攤開來的結構，A -> B -> C -> D，元素id和類名也沒用直接關係，這樣是很難構建關聯的

只能透過元素的順序推斷結構：

1、獲取當前ip標題元素和下一個ip標題元素的兄弟元素下標值

2、將idp元素的兄弟元素下標值取出

3、比較idp元素是否在兩者之間，如果為是表示idp元素屬於第一個ip標題元素

三、父子元素操作獲取兄弟元素

/* 2、讀取【漏洞分佈】資訊 */

/* 2、讀取【漏洞分佈】資訊 */
Element vulnTable = doc.getElementById("vuln_distribution");
Element vulnTableBody = vulnTable.child(1);
Elements allTrList = vulnTableBody.children();
Elements vulnTitleTrList = vulnTable.select("tr[style='cursor:pointer;']");
for (Element vrTr : vulnTitleTrList) {
    /* 2-1、漏洞名稱 */
    String vt = vrTr.child(1).text();
    int vrTrIdx = allTrList.indexOf(vrTr);
    Element vrDetailTr = allTrList.get(vrTrIdx + 1);
    Element vrDetailTableBody = vrDetailTr.child(1).child(0).child(0);
    /* 2-2、漏洞主機 */
    String ipHosts = vrDetailTableBody.child(0).child(1).text();
    ipHosts = ipHosts.replaceAll("&nbsp", "").replaceAll(" 點選檢視詳情;", "");
    /* 2-3、漏洞描述 */
    String vulnDesc = vrDetailTableBody.child(1).child(1).text();
    /* 2-4、威脅分值 */
    String vulnTag = vrDetailTableBody.child(3).child(1).text();
    String format = StrFormatter.format("reportTime: {}, ip: {}, name: {}, tag: {} desc: {}, ", date, ipHosts, vt, vulnTag, vulnDesc);
    System.out.println(format);
}

Element vulnTable = doc.getElementById("vuln_distribution"); Element vulnTableBody = vulnTable.child(1); Elements allTrList = vulnTableBody.children(); Elements vulnTitleTrList = vulnTable.select("tr[style='cursor:pointer;']"); for (Element vrTr : vulnTitleTrList) { /* 2-1、漏洞名稱 */ String vt = vrTr.child(1).text(); int vrTrIdx = allTrList.indexOf(vrTr); Element vrDetailTr = allTrList.get(vrTrIdx + 1); Element vrDetailTableBody = vrDetailTr.child(1).child(0).child(0); /* 2-2、漏洞主機 */ String ipHosts = vrDetailTableBody.child(0).child(1).text(); ipHosts = ipHosts.replaceAll("&nbsp", "").replaceAll(" 點選檢視詳情;", ""); /* 2-3、漏洞描述 */ String vulnDesc = vrDetailTableBody.child(1).child(1).text(); /* 2-4、威脅分值 */ String vulnTag = vrDetailTableBody.child(3).child(1).text(); String format = StrFormatter.format("reportTime: {}, ip: {}, name: {}, tag: {} desc: {}, ", date, ipHosts, vt, vulnTag, vulnDesc); System.out.println(format); }

Java中使用Jsoup解析HTML表格教程
2024-03-17
JavaJSHTML
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
JAVA 解析html 型別字串（使用jsoup）
2024-08-16
JavaHTML型別字串JS
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
使用java的HTML解析器 jsoup來防止XSS攻擊
2020-12-12
JavaHTMLJS
解析：學Java好還是HTML5好？
2022-02-10
JavaHTML
解析-HTML 解析器
2019-02-20
HTML
pytest(2)-pytest-html測試報告
2022-02-13
HTML測試報告
Jsoup http請求
2019-02-01
JSHTTP
jsoup物件的使用
2020-12-04
JS物件
Html 解析利器-goquery
2021-04-18
HTMLGo
Pytest學習筆記10-生成html報告
2021-07-05
筆記HTML
Java學習進度報告
2024-08-16
Java
Java培訓教程之使用Jsoup實現簡單的爬蟲技術
2021-07-12
JavaJS爬蟲
JRebel ：2020 年 Java 技術報告
2020-02-23
Java
SonarQube學習（六）- SonarQube之掃描報告解析
2021-01-16
【效能調優】Oracle AWR報告指標全解析
2020-12-17
Oracle指標
Python解析XML檔案生成HTML
2019-02-16
PythonXMLHTML
iOS 輕量級 HTML 解析方案
2019-01-22
iOSHTML
【SCRIPT】Oracle巡檢報告html格式樣例，帶趨勢圖
2021-11-30
OracleHTML
360 度評估大揭秘：個人報告深度解析
2024-11-28
360 度評估大揭秘：團隊報告深度解析
2024-11-27
HTML5 Audio & Video 屬性解析
2019-02-16
HTMLIDE
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
Pytest單元測試框架生成HTML測試報告及優化
2022-01-28
框架HTML測試報告優化
Java解析XML
2018-07-10
JavaXML
Java ThreadLocal解析
2020-05-16
Javathread
Java 程式碼覆蓋率調研報告
2020-04-08
Java
Java語言學習報告第七週
2024-08-16
Java
jsoup爬蟲技術+druid連線池
2018-03-21
JS爬蟲UI
jspdf + html2canvas 實現html轉pdf (提高解析度版本)
2019-02-16
JSHTMLCanvas
Jmeter3.1官方自帶的HTML圖形測試報告 + 漢化
2018-03-04
JMeterHTML測試報告
SCRIPT】Oracle巡檢報告html格式樣例指令碼，帶趨勢圖
2021-12-02
OracleHTML指令碼
『心善淵』Selenium3.0基礎 — 29、使用HTMLTestRunner生成unittest的HTML報告
2021-07-15
HTML
深入解析webpack 外掛html-webpack-plugin
2018-11-27
WebHTMLPlugin
瀏覽器是如何解析html的？
2018-12-23
瀏覽器HTML
Java 實現 markdown轉Html
2018-11-30
JavaHTML