lxml庫和貼吧圖片下載案例

wanghandou發表於2017-10-20

# -*- encoding: UTF-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import urllib2
from lxml import etree

#找出所有帖子的連結
def loadPage(url):
	"""
	作用：根據url傳送請求，獲取伺服器響應檔案
	url：需要爬取的url地址
	"""
	#headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(url)
	html=urllib2.urlopen(request).read()
	#解析HTML文件為HTML DOM模型
	content=etree.HTML(html)
	#返回所有匹配成功的列表集合
	link_list=content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
	for link in link_list:
		#組合為每個帖子的連結
		fulllink="http://tieba.baidu.com"+link
		loadimage(fulllink)

# #取出每個帖子裡的每個圖片的連結
def loadimage(link):
	headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(link,headers=headers)
	html=urllib2.urlopen(request).read()
	#解析HTML文件為HTML DOM模型
	content=etree.HTML(html)
	#返回帖子裡的所有圖片連結的集合
	link_list=content.xpath('//img[@class="BDE_Image"]/@src')
	for link in link_list:
		print link
		writeimage(link)


#根據圖片的url。把圖片下載
def writeimage(link):
	headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(link,headers=headers)
	response=urllib2.urlopen(request)
	image=response.read()

	#取出連結的後10位作為檔案的名字
	filename=link[-10:]
	#把圖片寫在文件裡面
	with open(filename,"wb") as f:
		f.write(image)
	print "-"*30


def tiebaspider(url,beginpage,endpage):
	"""
	作用：貼吧爬蟲排程器，負責組合處理每個頁面的url
	url：貼吧url的前部分
	beginpage：起始頁
	endpage：終止頁
	"""
	for page in range(beginpage,endpage+1):
		pn=str((page-1)*50)
		fullurl=url+"&pn="+str(pn)
		loadPage(fullurl)


if __name__=='__main__':
	print u"輸入關鍵字:",
	kw=raw_input()
	print u"輸入起始頁",
	beginpage=int(raw_input())
	print u"最後一頁:",
	endpage=int(raw_input())
	url="http://tieba.baidu.com/f?"
	key=urllib.urlencode({"kw":kw})
	fullurl=url+key
	tiebaspider(fullurl,beginpage,endpage)

不習慣用正規表示式的可以使用llxml庫把html解析成dom，然後用xpath來解析，更方便

Python爬去貼吧圖片
2018-01-09
Python
段友福利：Python爬取段友之家貼吧圖片和小視訊
2018-06-01
Python
lxml庫
2021-09-09
XML
淺析Beautiful Soup庫和Lxml庫
2018-07-12
XML
圖片下載框架概述
2019-01-11
框架
Python 下載圖片
2024-03-12
Python
解耦圖片載入庫
2019-02-25
解耦
本地HTML中圖片下載
2018-08-25
HTML
仿SDWebImage多圖片下載
2015-11-12
Web
圖片彈窗和下載彈窗wordpress外掛下載-Facebox download
2018-07-11
使用httpclient下載頁面、圖片
2020-02-27
HTTPclient
python自動下載圖片
2020-03-30
Python
Opencv官方樣例圖片下載
2020-11-18
OpenCV
獲取SDWebImage下載的圖片
2017-12-13
Web
圖片預載入和懶載入
2024-07-30
word貼上圖片到ckeitor
2021-04-16
TestFlight下載App，載入圖片失效。Xcode安裝App，圖片載入正常。
2024-10-15
APPXCode
前端實現點選下載圖片
2018-08-23
前端
SDWebImage類實現圖片的下載
2014-02-18
Web
ARKit 如何給SCNNode貼Gif圖片
2018-04-19
CNN
原生JS實現base64圖片下載-圖片儲存到本地
2019-02-16
JS
使用Go語言和colly庫來下載指定網站圖片的程式
2023-11-23
Go網站
基於ThinkPHP的圖片下載網站
2019-05-11
PHP網站
Python中scrapy下載儲存圖片
2021-08-09
Python
Python學習筆記 - 下載圖片
2019-01-19
Python筆記
vue點選下載圖片的實現
2021-01-03
Vue
vue前端製作圖片，並下載（canvase）
2018-05-22
Vue前端Canvas
圖片預載入，圖片懶載入，和jsonp中的一個疑問
2019-02-16
JSON
圖片庫
2017-12-13
vue 實現貼上上傳圖片
2020-11-18
Vue
Mac圖片拼貼編輯器：Posterino
2022-03-23
Mac
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
花了一整天寫了個下載markdown圖片到本地的庫?
2019-01-31
分享一下自己做的一個圖片載入庫XImageLoader
2017-02-18
Android平滑圖片載入和快取庫 Glide 使用詳解
2017-09-20
Android快取IDE
Android 平滑圖片載入和快取庫 Glide 使用詳解
2015-08-26
Android快取IDE
怎樣從天堂圖片網上批量下載高清圖片到電腦？
2021-11-18
圖片上傳-下載-刪除等圖片管理的若干經驗總結
2015-10-26

lxml庫和貼吧圖片下載案例

相關文章