小小圖片爬蟲

Aurora Polaris發表於2016-12-01

小小圖片爬蟲


前言

通過對HttpClient的學習,開啟了我對後臺的理解,在我的眼中,後臺不再是依賴前端的存在,它可以是一種無瀏覽器,無APP介面的存在。這篇部落格將盡詳細的介紹HttpClient實現網路爬蟲。

世界上第一個爬蟲叫做“網際網路漫遊者”(www waderer),他是由麻省理工學院(MIT)的學生馬休·格雷在1993年寫的。

假定我們從一家入口網站的首頁出發,先下載這個網頁,通過分析這個網頁,可以找到藏在它裡面的超連結,就知道這家入口網站所有連結的網頁。

網站蜘蛛網

爬蟲就是從某個節點(某個網頁)開始,爬取連結中隱藏的祕寶。

事前準備

  1. 在程式碼的開始,我們需要先準備我們需要的那個節點,我們開啟我們瀏覽器(這裡以谷歌瀏覽器為示例),我們輸入搜尋自己喜歡的內容頁面
    喜歡的內容
  2. 接著我們開啟瀏覽器的開發者,如果實在是找不到,那就直接點選F12,效果是一樣的
    谷歌瀏覽器的開發者開啟方式
  3. 開啟開發者之後,我們要選擇其中的Network,通過這個欄目,我們就能看到所有的http請求和響應等等資訊。
    1代表我們選擇的Network,2是我們想要的連結資源,3就是連結資源。
    開發者模式下我們能看到的
  4. 點選http請求(即點選3)我們就能看到所有的詳細資訊,如下圖所示
    http的資料
  5. 之後,就可以準備我們要的第一個材料,一個連結操作如下,我們右擊一個http連結,然後把它複製下來。
    複製連結

專案結構

專案環境

環境Encoding:UTF-8
eclipse環境說明

專案說明

專案包括:
存放一些物件的model層
存放響應的servlet層
存放工具的utils層
還有就是一個頁面index.jsp
/* 其實讓我寫這個頁面的時候,我是拒絕的,因為這個小爬蟲是不需要頁面的,增加頁面只是為了直觀而已,所以我就寫了一個簡單的頁面,當然你可以使用APP、WindowsForm、swing的介面,或者什麼介面都不要,直接輸入引數就行。因為後臺要的只是引數 */

專案目錄

專案結構說明


專案編碼

頁面

index.jsp

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>輸入頁面</title>
</head>
<body>
<script type="text/javascript"> 
function checkForm() {
    var keyWord=document.getElementById("keyWord");
    var pageNum=document.getElementById("pageNum");
    var fileUri=document.getElementById("fileUri");
    var num=new RegExp("^[0-9]*$");//判斷正整數 /^[1-9]+[0-9]*]*$/    
    if(!num.test(pageNum.value)) {
        alert("請輸入數字");
        return false;
    } else if(keyWord.value==""||pageNum.value==""||fileUri==""){
        alert("請填完整內容");
        return false;
    }
    return true;
}
</script>
<%
String message=(String)request.getAttribute("message");
if(message!=null) {
    out.print(message);
}
%>
    <form action="CatchPicture" method="post" onsubmit="return checkForm()"> 
        <label for="keyWord">關鍵字</label>
        <input type="text" value="火影忍者" id="keyWord" name="keyWord"/>
        <label for="pageNum">獲得頁數</label>
        <input type="text" value="1" name="pageNum" id="pageNum"/><br/>
        <label for="file">儲存到</label>
        <input type="text" name="fileUri" id="fileUri" value="C:\Users\CHEN\Desktop\save"/>
        <input type=button value="選擇資料夾"/>
        <input type="submit" value="提交"/>
    </form>
</body>
</html>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43

com.cjm.servlet

CatchPciture

package com.cjm.servlet;

import java.io.IOException;
import java.io.PrintWriter;

import javax.servlet.ServletException;
import javax.servlet.annotation.WebServlet;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

import org.apache.http.client.ClientProtocolException;

import com.cjm.model.Picture;
import com.cjm.utils.PictureDownload;

/**
 * @time 2016年4月14日
 * @author CHEN
 * @param 
 * @about 一個圖片下載的系統
 */

@WebServlet("/WEB/jsp/CatchPicture")
public class CatchPicture extends HttpServlet {
    private static final long serialVersionUID = 1L;
    private static Picture picture;
    /**
     * @see HttpServlet#HttpServlet()
     */
    public CatchPicture() {
        super();
        // TODO Auto-generated constructor stub
    }

    /**
     * @see HttpServlet#doGet(HttpServletRequest request, HttpServletResponse response)
     */
    protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
        // TODO Auto-generated method stub
        doPost(request, response);
    }

    /**
     * @see HttpServlet#doPost(HttpServletRequest request, HttpServletResponse response)
     */
    protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
        // TODO Auto-generated method stub
        //提示將要下載圖片
/*       獲得當前執行緒的名字
 *       Thread current = Thread.currentThread();  
         System.outPw.println(current.getName());  */
        //輸出一些提示的資訊,當然最好是寫在日誌中,我在這裡就精簡了這部分內容
        System.out.println("下載圖片");
        //設定編碼
        response.setCharacterEncoding("utf-8");
        request.setCharacterEncoding("utf-8");
        //設定返回提示資訊
        PrintWriter outPwPw=response.getWriter();
        //獲得使用者輸入內容
        String keyWordStr=request.getParameter("keyWord");//獲得關鍵字
        String pageNumStr=request.getParameter("pageNum");//獲得頁數
        String fileUriStr=request.getParameter("fileUri");//獲得資料夾路徑
        //構造Picture物件
        picture=new Picture(keyWordStr,pageNumStr,fileUriStr);

        if(keyWordStr==null||"".equals(keyWordStr)) {//返回失敗的提示
            //當然你可以設定更多的檢驗,但是有更好的處理方式,之後我會使用異常處理去使系統具有恢復性
            request.setAttribute("message", "<script type='text/javascript'>alert('請輸入關鍵字');</script>");
        } else {//萬事俱備
            //呼叫下載過程函式
            //這裡為什麼要使用執行緒呢,關於執行緒的小祕密,我之後也會寫
            //請注意我這裡使用了內部匿名類
            Thread thread =new Thread(){
                public void run() {
                    try {
                        PictureDownload.downloadPicture(picture);//呼叫了整個系統最關鍵的部分
                    } catch (ClientProtocolException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                    }
                }
            };
            thread.setName("pictureCatchMachine");//給他起個名字
            thread.start();
        }
        request.getRequestDispatcher("index.jsp").forward(request, response);//返回展示頁面
    }


}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96

com.cjm.model

JsonFormat

package com.cjm.model;

/**
 * @time 2016年4月14日
 * @author CHEN
 * @param 
 * jsonStr:需要格式化的json字串
 * jonFormat:格式化的json字串,建議就是當需要進行很多字串拼接的時候,使用
 *          StringBuffer,至於為什麼可以看看我寫的String、StringBuffer、StringBuild的區別
 * @about 對jsonStr進行格式化
 *  對jsonStr的格式化其實就是
 *          1、使用適量的換行
 *          2、使用適當的縮排
 *        例子:
 *      {
            "data": {
                "id": 1,
                "name": "junming",
                "wife": [
                    {
                        "id": 1,
                        "name": "yingli"
                    },
                    {
                        "id": 2,
                        "name": "yingli"
                    }
                ]
            }
        }
 */
public class JsonFormat {
    public static String format(String jsonStr) {
        int level = 0;
        StringBuffer jsonFormatStr = new StringBuffer();
        for(int i=0;i<jsonStr.length();i++){
          char c = jsonStr.charAt(i);//取出jsonStr中的所有字元
          if(level>0&&'\n'==jsonFormatStr.charAt(jsonFormatStr.length()-1)){
            jsonFormatStr.append(getLevelStr(level));
          }
          switch (c) {//換行//縮排
          case '{': 
          case '[':
            jsonFormatStr.append(c+"\n");
            level++;
            break;
          case ',': 
            jsonFormatStr.append(c+"\n");
            break;
          case '}':
          case ']':
            jsonFormatStr.append("\n");
            level--;
            jsonFormatStr.append(getLevelStr(level));
            jsonFormatStr.append(c);
            break;
          default:
            jsonFormatStr.append(c);
            break;
          }
        }

        return jsonFormatStr.toString();

      }

      private static String getLevelStr(int level){
        StringBuffer levelStr = new StringBuffer();
        for(int levelI = 0;levelI<level ; levelI++){
          levelStr.append("\t");//增加空格
        }
        return levelStr.toString();
      }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75

MyHttpClient

package com.cjm.model;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

import jdk.internal.org.xml.sax.InputSource;

import org.apache.commons.httpclient.HttpClientError;
import org.apache.commons.httpclient.HttpState;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.protocol.HTTP;

/**
 * @time 2016年4月14日
 * @author CHEN
 * @param 
 * @about 獲得json返回值
 */

public class MyHttpClient {
    /**
     * @about 通過url獲得json返回內容
     * @param url
     * @return
     * @throws ClientProtocolException
     * @throws IOException
     */
    public static String getJsonDate(String url) throws ClientProtocolException, IOException {
        HttpClient client=new DefaultHttpClient();
        HttpPost post=new HttpPost(url);
        //獲得響應物件
        HttpResponse response = client.execute(post);
        //響應狀態
        Integer statusCode=response.getStatusLine().getStatusCode();

        if(statusCode!=HttpStatus.SC_OK) {
            throw new HttpClientError("http status is ERROR");
        }

        HttpEntity entityRsp=response.getEntity();
        StringBuffer result=new StringBuffer();
        BufferedReader rd=new BufferedReader(new InputStreamReader(
                entityRsp.getContent(),HTTP.UTF_8));

        String tempLine=rd.readLine();
        while(tempLine!=null) {
            result.append(tempLine);
            tempLine=rd.readLine();
        }
        if(entityRsp!=null) {
            entityRsp.consumeContent();
        }
        return result.toString();
    }
}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65

Picture

package com.cjm.model;

/**
 * @time 2016年4月14日
 * @author CHEN
 * @param Picture:物件的關鍵詞、檔案路徑、頁數
 */

public class Picture {
    private String keyWord;//關鍵詞
    private String pageNum;//下載的頁數
    private String fileUri;//資料夾路徑


    public Picture() {
        super();
    }
    public Picture(String keyWord,String pageNum,String fileUri) {
        super();
        this.keyWord=keyWord;
        this.pageNum=pageNum;
        this.fileUri=fileUri;
    }
    public String getKeyWord() {
        return keyWord;
    }
    public void setKeyWord(String keyWord) {
        this.keyWord = keyWord;
    }
    public String getPageNum() {
        return pageNum;
    }
    public void setPageNum(String pageNum) {
        this.pageNum = pageNum;
    }
    public String getFileUri() {
        return fileUri;
    }
    public void setFileUri(String fileUri) {
        this.fileUri = fileUri;
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43

com.cjm.utils

PictureDownload

package com.cjm.utils;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.net.URLEncoder;

import net.sf.json.JSONArray;
import net.sf.json.JSONObject;

import org.apache.http.client.ClientProtocolException;

import com.cjm.model.MyHttpClient;
import com.cjm.model.Picture;


/**
 * @time 2016年4月14日
 * @author CHEN
 * @param 
 * picture:要下載物件的關鍵詞、檔案路徑、頁數
 * @about 一個圖片下載的系統
 */
public class PictureDownload {
    //下載圖片的功能
    public static void downloadPicture(Picture picture) throws ClientProtocolException, IOException {
        //獲得下載的頁數
        int pageCount=(int)Double.parseDouble(picture.getPageNum());
        //URLEncoder.encode(picture.getKeyWord()):將關鍵字轉化成url格式
        for(int i=0;i<=pageCount;i++) {
            //爬取的圖片來自百度
            String uri="http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj"
            + "&ct=201326592&is=&fp=result&queryWord=" + URLEncoder.encode(picture.getKeyWord())
            + "&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0"
            + "&word=" + URLEncoder.encode(picture.getKeyWord())
            + "&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=" + 30 * i 
            + "&rn=30&gsm=7000096&1460517144785=";
            //獲得返回的json字串
            String jsonStr= MyHttpClient.getJsonDate(uri);

            //將jsonStr字串格式化之後寫入檔案
            String rootPathStr=Thread.currentThread().getContextClassLoader().getResource("/").getPath();
            //File file=new File(rootPathStr+"json.txt");
            //if(!file.exists()) {
            //  file.createNewFile();//新建檔案
            //}
            //System.out.println("記錄檔案的地址"+file.getAbsolutePath());//最好是記在日誌中
            //開始記錄入檔案
            /*
             *裝飾者
             *FileWriter 被裝飾者
             *BufferWriter 裝飾者 
             *就是加了一個快取,這樣等到快取滿了再寫到硬碟,提高了效能
             */
            //FileWriter outFw=new FileWriter(file);
            //BufferedWriter outPw=new BufferedWriter(outFw);
            //outPw.write(jsonStr,0,jsonStr.length());//要寫入的內容、起始的位置、結束的位置
            //outPw.close();//這是很重要的,關閉流

            JSONObject objRoot=JSONObject.fromObject(jsonStr);//將jsonStr字串轉成JSONObject物件
            JSONArray imgsJson=(JSONArray) objRoot.get("data");//獲得data節點內容
            for(int i1=0;i1<imgsJson.size()-1;i1++) {
                JSONObject jsonObject=imgsJson.getJSONObject(i1);//獲得陣列的JSONObject物件
                String objUri=(String)jsonObject.get("hoverURL");
                //輸出下載的圖片地址
                System.out.println(objUri);
                //下載圖片
                PictureDownloadMachine.downloadImage(objUri,picture);
            }
        }

    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74

PictureDownloadMachine


package com.cjm.utils;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.nio.file.Paths;

import com.cjm.model.Picture;

/**
 * @time 2016年4月14日
 * @author CHEN
 * @param 
 * @about 一個圖片下載的具體實現
 */

public class PictureDownloadMachine {
    /**
     * @param objUri:圖片的地址 
     *        picture:提供圖片存放的地址
     */
    public static void downloadImage(String objUri,Picture picture) throws IOException {
        //獲得圖片流
        byte[] btImg=getImageFromNetByUrl(objUri);
        if(null!=btImg&&btImg.length>0) {
            //圖片流存在寫入硬碟
            String pathStr=Paths.get(picture.getFileUri(), objUri.substring(objUri.lastIndexOf("/")+1)).toString();//拼接路徑
            writeImageToDisk(btImg,pathStr);//寫入硬碟
        }
    }

    private static byte[] getImageFromNetByUrl(String strUrl) {
        try {
            URL url=new URL(strUrl);//將連結轉成URL
            HttpURLConnection conn=(HttpURLConnection)url.openConnection();
            //偽裝成瀏覽器
            conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2700.0 Safari/537.36");
            //偽裝主機
            conn.setRequestProperty("Host" ,"image.baidu.com");
            //設定接收方式
            conn.setRequestProperty("Accept" ,"text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01");
            //設定字元
            conn.setRequestProperty("Accept-Encoding" ,"gzip, deflate, sdch");
            //設定連線狀態
            conn.setRequestProperty("Connection" ,"keep-alive");
            //偽裝請求方
            conn.setRequestProperty("Referer" ,"http://image.baidu.com");
            conn.setRequestProperty("X-Requested-With" ,"XMLHttpRequest");
            conn.setRequestMethod("GET");
            conn.setConnectTimeout(5*1000);
            //獲得返回流
            InputStream inStream =conn.getInputStream();
            byte[]btImg=readInputStream(inStream);
            return  btImg;
        } catch(Exception e) {
            e.printStackTrace();
            return null;
        }
    }
    /**
     * @about 捕獲內容緩衝區的資料,轉換成位元組陣列
     * @param inputStream :輸入流
     *        byteArrayOutputStream :輸出流(儲存容器)
     */
    private static byte[] readInputStream(InputStream inputStream) throws IOException {
        ByteArrayOutputStream byteArrayOutputStream=new ByteArrayOutputStream();
        byte[]buffer=new byte[1024];
        int len=0;
        while ((len=inputStream.read(buffer))!=-1) {
            byteArrayOutputStream.write(buffer,0,len);
        }
        inputStream.close();
        return byteArrayOutputStream.toByteArray();
    }
    private static void writeImageToDisk(byte[] btImg, String fileUri) throws IOException {
        File file=new File(fileUri);//新建一個檔案空殼
        FileOutputStream fileOutputStream=new FileOutputStream(file);//檔案輸出流
        fileOutputStream.write(btImg);//把圖片寫到了檔案空殼中
        fileOutputStream.flush();//把快取的內容都寫完
        fileOutputStream.close();
    }   
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87

最後再說幾句

  1. 在寫這個專案的時候,遇到了jar包的問題,httpclient.jar推薦使用4.3版本的。不然有可能會報ClassNotFoundException:org.apache.http.message.TokenParser
  2. 該文章為原創文章,轉載的時候請附上我的微博連結,謝謝。

資源下載路徑

小小圖片爬蟲

 

相關文章