HtmlUnit 爬蟲簡單案例——模擬登陸CSDN
最近要弄一個爬蟲程式,想著先來個簡單的模擬登陸, 在權衡JxBrowser和HtmlUnit 兩種技術, JxBowser有介面呈現效果,但是對於某些js跳轉之後的效果獲取比較繁瑣。
隨後考慮用HtmlUnit, 想著借用我們們CSND的登陸練練手。誰知道CSDN的登陸,js載入時間超長,不設定長一點的載入時間,按鈕提交根本沒效果,js沒生效。 具體看程式碼註釋吧。 奉勸做爬蟲的同志們,千萬別用CSDN登陸練手,坑死我了。。。
maven配置如下:
<dependencies>
<!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.18</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.9.2</version>
</dependency>
</dependencies>
程式碼如下:
/*
* Copyright (c) 2017 Create By Shijing All Rights Reserved.
*/
package com.test;
import java.io.IOException;
import java.net.MalformedURLException;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.SilentCssErrorHandler;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButtonInput;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
import com.gargoylesoftware.htmlunit.util.Cookie;
public class SimulateLogin
{
//訪問的目標網址(CSDN)
private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net";
public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException
{
// 模擬一個瀏覽器
WebClient webClient = new WebClient(BrowserVersion.CHROME);
// 設定webClient的相關引數
webClient.setCssErrorHandler(new SilentCssErrorHandler());
//設定ajax
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
//設定支援js
webClient.getOptions().setJavaScriptEnabled(true);
//CSS渲染禁止
webClient.getOptions().setCssEnabled(false);
//超時時間
webClient.getOptions().setTimeout(50000);
//設定js丟擲異常:false
webClient.getOptions().setThrowExceptionOnScriptError(false);
//允許重定向
webClient.getOptions().setRedirectEnabled(true);
//允許cookie
webClient.getCookieManager().setCookiesEnabled(true);
// 模擬瀏覽器開啟一個目標網址
HtmlPage page = webClient.getPage(TARGET_URL);
/**等待js載入完全,CSDN這點 特別坑,js載入時間超長!!!!!!! 後人切記不要用CSDN模擬登陸!!!!!!!**/
webClient.waitForBackgroundJavaScript(10000*3);
// 根據form的名字獲取頁面表單,也可以通過索引來獲取:page.getForms().get(0)
HtmlForm form = (HtmlForm) page.getElementById("fm1");
HtmlTextInput username = (HtmlTextInput) form.getInputByName("username");
HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password");
username.setValueAttribute("********"); //使用者名稱
password.setValueAttribute("********"); //密碼
HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("//input[contains(@class, 'logging')]").get(0);
// ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");
// HtmlPage retPage = (HtmlPage) result.getNewPage();
HtmlPage retPage = button.click();
// 等待JS驅動dom完成獲得還原後的網頁
webClient.waitForBackgroundJavaScript(1000);
//輸出跳轉網頁的地址
System.out.println(retPage.getUrl().toString());
//輸出跳轉網頁的內容
System.out.println(retPage.asXml());
//獲取cookie
Set<Cookie> cookies = webClient.getCookieManager().getCookies();
Map<String, String> responseCookies = new HashMap<String, String>();
for (Cookie c : cookies) {
responseCookies.put(c.getName(), c.getValue());
System.out.print(c.getName()+":"+c.getValue());
}
webClient.close();
System.out.println("Success!");
}
}
另外,CSDN的JS總是莫名其妙的報一堆錯,如果不想看,想忽略的話,在建立WebClient前加上如下程式碼:
//設定日誌級別,原頁面js異常不列印
LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog");
java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")
.setLevel(Level.OFF);
java.util.logging.Logger.getLogger("org.apache.commons.httpclient")
.setLevel(Level.OFF);
相關文章
- 爬蟲之普通的模擬登陸爬蟲
- Python爬蟲之模擬知乎登入Python爬蟲
- Python 爬蟲(七)-- Scrapy 模擬登入Python爬蟲
- 爬蟲模擬登入—OAUTH的詳解爬蟲OAuth
- Python 爬蟲模擬登入方法彙總Python爬蟲
- 第九章 表單和登陸爬蟲爬蟲
- python 爬蟲網頁登陸Python爬蟲網頁
- Python網路爬蟲——模擬登陸爬取網站資料並載入到excl表格裡Python爬蟲網站
- 爬蟲實戰(二):Selenium 模擬登入並爬取資訊爬蟲
- 情況最簡單下的爬蟲案例爬蟲
- 通過session模擬登陸Session
- Python爬蟲實戰之(五)| 模擬登入wechatPython爬蟲
- 模擬登陸——以github為例Github
- c# 模擬網站登陸C#網站
- curl模擬請求、登陸以及帶驗證碼登陸
- 為爬蟲獲取登入cookies: 使用Charles和requests模擬微博登入爬蟲Cookie
- 爬蟲方式(模擬使用者)爬蟲
- 爬蟲模擬登入破解無原圖滑動驗證碼爬蟲
- Python爬蟲實戰之(四)| 模擬登入京東商城Python爬蟲
- 使用OkHttp模擬登陸LeetCodeHTTPLeetCode
- 大規模非同步新聞爬蟲:簡單的百度新聞爬蟲非同步爬蟲
- 簡單的爬蟲程式爬蟲
- 爬蟲案例爬蟲
- Python模擬微博登陸,親測有效Python
- 使用postman模擬登陸post請求方法Postman
- python模擬登陸知乎(最新版)Python
- PHP模擬登陸抓取頁面內容PHP
- 使用python模擬登陸百度Python
- PHP PDO 簡單登陸操作PHP
- python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用Python爬蟲
- python簡單爬蟲(二)Python爬蟲
- 那些年,我爬過的北科(二)——爬蟲基礎之session登陸爬蟲Session
- 用不同的庫實現模擬登陸知乎!
- 爬蟲如何利用session方法保持登陸狀態(selenium)爬蟲Session
- 爬蟲案例(六)爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- 簡單瞭解python爬蟲Python爬蟲