實現java讀取網頁內容並下載網頁中出現的圖片

悠悠隱於市發表於2011-03-18

實現java讀取網頁內容並下載網頁中出現的圖片2009年04月16日 星期四 上午 10:30package com;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetContentPicture {
public void getHtmlPicture(String httpUrl) {
URL url;
BufferedInputStream in;
FileOutputStream file;
try {
   System.out.println("取網路圖片");
   String fileName = httpUrl.substring(httpUrl.lastIndexOf("/"));
   String filePath = "./pic/";
   url = new URL(httpUrl);

   in = new BufferedInputStream(url.openStream());

   file = new FileOutputStream(new File(filePath+fileName));
   int t;
   while ((t = in.read()) != -1) {
    file.write(t);
   }
   file.close();
   in.close();
   System.out.println("圖片獲取成功");
} catch (MalformedURLException e) {
   e.printStackTrace();
} catch (FileNotFoundException e) {
   e.printStackTrace();
} catch (IOException e) {
   e.printStackTrace();
}
}

public String getHtmlCode(String httpUrl) throws IOException {
String content ="";
URL uu = new URL(httpUrl); // 建立URL類物件
BufferedReader ii = new BufferedReader(new InputStreamReader(uu
    .openStream())); // //使用openStream得到一輸入流並由此構造一個BufferedReader物件
String input;
while ((input = ii.readLine()) != null) { // 建立讀取迴圈，並判斷是否有讀取值
   content += input;
}
ii.close();
return content;
}

public void get(String url) throws IOException {

String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";

String content = this.getHtmlCode(url);
System.out.println(content);

Pattern pattern = Pattern.compile(searchImgReg);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
   System.out.println(matcher.group(3));
   this.getHtmlPicture(url+matcher.group(3));
   
}

pattern = Pattern.compile(searchImgReg2);
matcher = pattern.matcher(content);
while (matcher.find()) {
   System.out.println(matcher.group(3));
   this.getHtmlPicture(matcher.group(3));
   
}
// searchImgReg =
// "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
}
public static void main(String[] args) throws IOException {
String url = "http://www.baidu.com/";
GetContentPicture gcp = new GetContentPicture();
gcp.get(url);
}
}

java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
將內表下載到網頁，並開啟網頁：
2007-10-09
網頁
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
html網頁內容如何實現上標和下標效果
2017-02-17
HTML網頁
c#簡單實現提取網頁內容
2009-11-30
C#網頁
網頁設計內容網頁中關於圖片預覽的設計
2019-01-14
網頁
網頁點選實現下載效果
2017-02-27
網頁
使用CInternetSession和CHttpFile讀取網頁內容
2012-11-22
SessionHTTP網頁
如何使用ScrapySharp下載網頁內容
2023-12-25
網頁
使用Python實現網頁中圖片的批次下載和水印新增儲存
2023-10-12
Python網頁
網頁正文及內容圖片提取演算法
2015-09-10
網頁演算法
將網頁內容以圖片形式儲存在本地
2012-02-01
網頁
android Gallery實現非同步載入網路圖片並只載入當前停止頁面圖
2012-05-08
Android非同步
使用了`wreq`庫來下載網頁內容
2023-11-01
網頁
NSURLConnection類實現下載網路圖片
2014-02-17
PHP如何實現網頁截圖？
2021-03-01
PHP網頁
文章內容分頁功能實現
2021-09-09
爬網入門：JAVA抓取網站網頁內容
2011-03-17
Java網站網頁
js實現父頁面獲取iframe子頁面內容程式碼
2017-03-21
JS
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
怎麼更改網頁上的內容並儲存
2024-10-07
網頁
修改網頁內容的方法
2024-10-07
網頁
CURL抓取網頁內容並用正則提取。
2017-06-05
網頁
淺談小程式內嵌網頁及內嵌網頁跳轉分享實現
2019-03-04
網頁
Django實現圖片上傳並前端頁面顯示
2020-06-26
Django前端
拖動滾動條實現網頁內容自動載入程式碼例項
2017-04-01
網頁
C#實現網頁截圖功能
2009-11-25
C#網頁
透過Requests模組獲取網頁內容並使用BeautifulSoup進行解析
2024-03-26
網頁
html2canvas.js實現前端將頁面轉化為圖片並長按下載
2019-03-21
HTMLCanvasJS前端
IOS遍歷網頁獲取網頁中<img>標籤中的圖片url
2016-05-07
iOS網頁
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Chrome 獲取網頁顏色（文字、圖片）
2022-04-06
Chrome網頁
JavaScript 獲取網頁尾本程式碼內容
2020-02-20
JavaScript網頁
網頁可讀內容抽取 API 資料介面
2024-08-31
網頁API
以Referer方案寫一個圖片防盜鏈服務並實現網頁端"破解"
2018-08-13
網頁
以Referer方案寫一個圖片防盜鏈服務並實現網頁端”破解”
2018-08-13
網頁

實現java讀取網頁內容並下載網頁中出現的圖片

相關文章