# -*- encoding: UTF-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import urllib2
from lxml import etree
#找出所有帖子的連結
def loadPage(url):
"""
作用:根據url傳送請求,獲取伺服器響應檔案
url:需要爬取的url地址
"""
#headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
request=urllib2.Request(url)
html=urllib2.urlopen(request).read()
#解析HTML文件為HTML DOM模型
content=etree.HTML(html)
#返回所有匹配成功的列表集合
link_list=content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
for link in link_list:
#組合為每個帖子的連結
fulllink="http://tieba.baidu.com"+link
loadimage(fulllink)
# #取出每個帖子裡的每個圖片的連結
def loadimage(link):
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
request=urllib2.Request(link,headers=headers)
html=urllib2.urlopen(request).read()
#解析HTML文件為HTML DOM模型
content=etree.HTML(html)
#返回帖子裡的所有圖片連結的集合
link_list=content.xpath('//img[@class="BDE_Image"]/@src')
for link in link_list:
print link
writeimage(link)
#根據圖片的url。把圖片下載
def writeimage(link):
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
request=urllib2.Request(link,headers=headers)
response=urllib2.urlopen(request)
image=response.read()
#取出連結的後10位作為檔案的名字
filename=link[-10:]
#把圖片寫在文件裡面
with open(filename,"wb") as f:
f.write(image)
print "-"*30
def tiebaspider(url,beginpage,endpage):
"""
作用:貼吧爬蟲排程器,負責組合處理每個頁面的url
url:貼吧url的前部分
beginpage:起始頁
endpage:終止頁
"""
for page in range(beginpage,endpage+1):
pn=str((page-1)*50)
fullurl=url+"&pn="+str(pn)
loadPage(fullurl)
if __name__=='__main__':
print u"輸入關鍵字:",
kw=raw_input()
print u"輸入起始頁",
beginpage=int(raw_input())
print u"最後一頁:",
endpage=int(raw_input())
url="http://tieba.baidu.com/f?"
key=urllib.urlencode({"kw":kw})
fullurl=url+key
tiebaspider(fullurl,beginpage,endpage)
不習慣用正規表示式的可以使用llxml庫把html解析成dom,然後用xpath來解析,更方便