java簡單的爬蟲(今日頭條)

zhumeilu發表於2017-12-14

原文網址 : https://juejin.im/post/5a31efed5188254a701f0f92

之前在做資訊站的時候需要用到爬蟲來獲取一些文章,今天剛好有空就研究了一下.在網上看到了一個demo,使用的是Jsoup,我拿過來修改了一下, 由於今日頭條的文章的特殊性,所以無法直接獲取文章的地址,需要獲取文章的id然後在拼接成url再訪問.

public class Demo2 {

 public static void main(String[] args) {

	// 需要爬的網頁的文章列表
	String url = "http://www.toutiao.com/news_finance/";
	//文章詳情頁的字首(由於今日頭條的文章都是在group這個目錄下,所以定義了字首,而且通過請求獲取到的html頁面)
	String url2="http://www.toutiao.com/group/";
	//連結到該網站
	Connection connection = Jsoup.connect(url);
	Document content = null;
	try {
		//獲取內容
		content = connection.get();
	} catch (IOException e) {
		e.printStackTrace();
	}
	//轉換成字串
	String htmlStr = content.html();
	//因為今日頭條的文章展示比較奇葩,都是通過js定義成變數,所以無法使用獲取dom元素的方式獲取值
	String jsonStr = StringUtils.substringBetween(htmlStr,"var _data = ", ";");
	System.out.println(jsonStr);
	Map parse = (Map) JSONObject.parse(jsonStr);
	JSONArray parseArray = (JSONArray) parse.get("real_time_news");
	Map map=null;
	List<Map> maps=new ArrayList<>();
	//遍歷這個jsonArray,獲取到每一個json物件,然後將其轉換成Map物件(在這裡其實只需要一個group_id,那麼沒必要使用map)
	for(int i=0;i<parseArray.size();i++){
		map = (Map)parseArray.get(i);
		maps.add((Map)parseArray.get(i));
		System.out.println(map.get("group_id"));
		
	}
	//遍歷之前獲取到的map集合,然後分別訪問這些文章詳情頁
	for (Map map2 : maps) {
		connection = Jsoup.connect(url2+map2.get("group_id"));
		try {
			Document document = connection.get();
			//獲取文章標題
			Elements title = document.select("[class=article-title]");
			System.out.println(title.html());
			//獲取文章來源和文章釋出時間
			Elements articleInfo = document.select("[class=articleInfo]");
			Elements src = articleInfo.select("[class=src]");
			System.out.println(src.html());
			Elements time = articleInfo.select("[class=time]");
			System.out.println(time.html());
			//獲取文章內容
			Elements contentEle = document.select("[class=article-content]");
			System.out.println(contentEle.html());
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
 }
}
複製程式碼

一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
[Android]今日頭條的螢幕適配方案，簡單又粗暴！
2018-09-14
Android
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
分析Ajax爬取今日頭條街拍美圖
2018-04-04
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
phpspider簡單快速上手的php爬蟲框架
2020-02-17
PHPIDE爬蟲框架
情況最簡單下的爬蟲案例
2020-03-06
爬蟲
今日頭條極速版和今日頭條有什麼區別？
2018-05-08
開源JAVA單機爬蟲框架簡介,優缺點分析
2018-11-16
Java爬蟲框架
Java培訓教程之使用Jsoup實現簡單的爬蟲技術
2021-07-12
JavaJS爬蟲
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
Laravel 手動搭建簡單的資料爬蟲
2019-11-28
Laravel爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
使用requests+BeautifulSoup的簡單爬蟲練習
2018-04-06
爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
今日頭條怎麼設定黑色背景？今日頭條app開啟深色模式的技巧
2020-10-22
APP模式
今日頭條怎麼賺錢？頭條號的賺錢思路
2022-01-22
大規模非同步新聞爬蟲：簡單的百度新聞爬蟲
2018-12-02
非同步爬蟲
今日頭條Android面試
2018-05-16
Android面試
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
【Python3網路爬蟲開發實戰】6-Ajax資料爬取-4-分析Ajax爬取今日頭條街拍美圖
2019-02-19
Python爬蟲
今日頭條：2018今日頭條兩會閱讀大資料（附下載）
2018-03-24
大資料
python最簡單的爬蟲 , 一看就會
2018-06-14
Python爬蟲
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
python爬蟲請求頭
2020-10-06
Python爬蟲
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
Python《成功破解簡單的動態載入的爬蟲》
2020-12-20
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲

java簡單的爬蟲(今日頭條)

相關文章