java 爬取網頁內容。 標題、圖片等

FH-Admin發表於2021-09-24
package com.fh.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 說明:爬取網頁
 * 作者:FH Admin
 * from:fhadmin.cn
 */
public class GetWeb {

    /**
     * 獲取當前網頁的code
     * 
     * @param httpUrl
     *            網頁地址
     * @return
     * @throws IOException
     */
    public static String getHtmlCode(String httpUrl) throws IOException {
        String content = "";         // 定義字串content
        URL url = new URL(httpUrl); // 生成傳入的URL的物件
        BufferedReader reader = new BufferedReader(new InputStreamReader(
                url.openStream(), "utf-8"));// 獲得當前url的位元組流(緩衝)
        String input;
        while ((input = reader.readLine()) != null) { // 當前行存在資料時
            content += input;         // 將讀取資料賦給content
        }
        reader.close();             // 關閉緩衝區
        return content;
    }

    /**
     * 把網頁中的所有圖片的完整路徑放到list裡面
     * 
     * @param wwwurl
     *            要爬的網頁連線
     * @throws IOException
     */
    public static List<String> getImagePathList(String httpUrl)
            throws IOException {

        // 透過副檔名匹配網頁圖片的正規表示式
        // String searchImgReg =
        // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        // String searchImgReg2 =
        // "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        // 透過img標籤匹配網頁圖片的正規表示式
        String searchImgReg = "<(img|IMG)\\b[^>]*\\b(src|SRC|src2|SRC2)\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>";
        List<String> imgList = new ArrayList<String>();     // 存放圖片的list
        String content = null;
        content = getHtmlCode(httpUrl);                        // 獲得content
        Pattern pattern = Pattern.compile(searchImgReg);     // 講編譯的正規表示式物件賦給pattern
        Matcher matcher = pattern.matcher(content);         // 對字串content執行正規表示式
        while (matcher.find()) {
            String quote = matcher.group(3);
            String imgsrc = (quote == null || quote.trim().length() == 0) ? matcher.group(4).split("\\s+")[0] : matcher.group(4);
            if (!imgsrc.startsWith("http://") && !imgsrc.startsWith("https://")) {             // 檢驗地址是否http://
                String[] httpUrlarr = httpUrl.split("/");
                String wwwhost = httpUrlarr[0] + "//" + httpUrlarr[2]; //獲取域名完整地址
                if(!isNetFileAvailable(wwwhost + "/" + imgsrc)){
                    for(int i=3;i<httpUrlarr.length;i++){
                        wwwhost = wwwhost + "/" + httpUrlarr[i];
                        if(isNetFileAvailable(wwwhost + "/" + imgsrc)){
                            imgsrc = wwwhost + "/" + imgsrc;
                            break;
                        }
                    }
                }else{
                    imgsrc = wwwhost + "/" + imgsrc;
                }
            }
            imgList.add(imgsrc);
        }
        return imgList;

    }

    /**
     * 獲取網頁的標題
     * 
     * @param httpUrl
     *            要爬的網頁連線
     * @return
     */
    public static String getTilte(String httpUrl) {

        String searchTitle = "(<title>|<TITLE>)(.*?)(</title>|</TITLE>)"; // 獲取網頁的標題的正規表示式
        Pattern pattern = Pattern.compile(searchTitle); // 獲得content
        try {
            Matcher matcher = pattern.matcher(getHtmlCode(httpUrl));
            while (matcher.find()) {
                return matcher.group(2);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;

    }

    /**
     * 檢測網路資源是否存在 
     * 
     * @param strUrl
     * @return
     */
    public static boolean isNetFileAvailable(String strUrl) {
        InputStream netFileInputStream = null;
        try {
            URL url = new URL(strUrl);
            URLConnection urlConn = url.openConnection();
            netFileInputStream = urlConn.getInputStream();
            if (null != netFileInputStream) {
                return true;
            } else {
                return false;
            }
        } catch (IOException e) {
            return false;
        } finally {
            try {
                if (netFileInputStream != null)
                    netFileInputStream.close();
            } catch (IOException e) {
            }
        }
    }
}
本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章