【知識積累】使用Httpclient實現網頁的爬取並儲存至本地

leesf發表於2015-07-28

程式功能實現了爬取網頁頁面並且將結果儲存到本地，通過以爬取頁面出發，做一個小的爬蟲，分析出有利於自己的資訊，做定製化的處理。

其中需要的http*的jar檔案，可以在網上自行下載

import java.io.DataOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;

public class CrawlPage {
    private static String filePath = "F:\\01_Code\\01_Eclipse\\AnalogLogin\\crawData\\";
    private static String url = "http://www.huxiu.com/";
    private static void saveToLocal(InputStream in, String filePath, String filename) throws IOException {
        File file = new File(filePath);
        if(!file.exists())
            file.mkdirs();
        DataOutputStream out = new DataOutputStream(new FileOutputStream(
                new File(filePath + filename)));
        int result;
        while((result=in.read())!=-1){
            out.write(result);
        }
        out.flush();
        out.close();
    }
    
    public static void crawlPage() throws IOException {
         DefaultHttpClient client = new DefaultHttpClient();
         HttpGet get = new HttpGet(url);
         HttpResponse response = client.execute(get);
         HttpEntity entity = response.getEntity();
         InputStream in = entity.getContent();
         String fileName = "crawlPage.html";
         //儲存到本地
         saveToLocal(in, filePath + url.substring(5) + "\\", fileName);
    }
    
    public static void main(String[] args) throws IOException {
        crawlPage();
    }
}

[Python Scrapy爬蟲] 二.翻頁爬取農產品資訊並儲存本地
2018-02-10
Python爬蟲
【知識積累】BufferedImage類實現圖片的切分
2016-02-29
【知識積累】JavaMail實現發郵件功能
2015-07-21
JavaAI
日常知識積累
2019-02-16
機器學習知識積累
2018-07-22
機器學習
使用Scrapy爬取圖片入庫,並儲存在本地
2019-06-27
[python爬蟲] Selenium爬取內容並儲存至MySQL資料庫
2017-03-13
Python爬蟲MySql資料庫
常用前端知識積累
2020-12-17
前端
MySQL知識-積累篇
2020-10-04
MySql
php獲取遠端網站圖片並儲存本地
2017-11-23
PHP網站
js基礎知識積累
2019-11-05
JS
java web dev知識積累
2019-01-21
JavaWebdev
java知識大全積累篇
2017-11-17
Java
java日常知識點積累
2018-01-10
Java
ubuntu點選知識積累
2024-09-19
Ubuntu
神經網路理論與工程實戰-知識積累
2019-02-23
神經網路
【知識積累】爬蟲之網頁亂碼解決方法(gb2312 -> utf-8)
2016-03-03
爬蟲網頁
PHP and laravel知識點小小積累
2016-04-08
PHPLaravel
Linux知識積累（長更）
2016-02-25
Linux
python入門012～使用requests爬取網路圖片並儲存到本地
2021-09-09
Python
（詳細）python爬取網頁資訊並儲存為CSV檔案（後面完整程式碼！！！）
2020-10-29
Python網頁
機器學習數學知識積累總結
2019-02-15
機器學習
機器學習之step by step實戰及知識積累筆記
2018-06-13
機器學習筆記
儲存器的知識
2024-11-10
Android下載網路pdf檔案儲存至本地
2020-10-26
Android
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
JAVA學習筆記及知識積累
2018-09-28
Java筆記
機器學習數學知識積累之概率論
2018-06-25
機器學習
使用LocalStorage實現Form表單內容本地儲存
2018-06-01
ORM
前端必須懂的計算機網路知識—(跨域、代理、本地儲存)
2018-10-01
前端計算機網路跨域
js—localstorage (本地儲存）必知
2020-10-21
JS
使用Node.js爬取任意網頁資源並輸出高質量PDF檔案到本地~
2019-06-14
Node.js網頁
知識積累，韓語中的俗語學習
2018-10-12
積累的一些程式碼片段/小知識
2014-08-07
【知識積累】隨機數生成的幾種方法
2016-03-30
隨機
儲存知識website
2015-04-16
Web
實現java讀取網頁內容並下載網頁中出現的圖片
2011-03-18
Java網頁
本地儲存localStorage使用
2019-01-04

【知識積累】使用Httpclient實現網頁的爬取並儲存至本地

相關文章