爬蟲---xpath解析(爬取美女圖片)
這個網頁的程式碼結構。可以很好的拿來練手xpath解析。現在爬這個網站比較慢,有時還可能報錯。程式碼沒有問題,可以實現,也許是缺一些優化。等熟悉了再來優化。
程式碼中的處理中文亂碼的方式劃重點。一種是手動設定響應資料的編碼格式,另一種是通用處理中文亂碼解決方案。encode('iso-8859-1').decode('gbk')
用這個別忘了接收修改後的資料哦!
import requests
from lxml import etree
import os
if __name__ == "__main__":
headers = {
'Referer': 'http://pic.netbian.com/4kmeinv/index_2.html',
'user_agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url='http://pic.netbian.com/4kmeinv/'
#獲取響應資料
response = requests.get(url = url, headers = headers)
#手動設定響應資料的編碼格式
# response.encoding = 'utf-8'
page_text = response.text
#例項化etree物件,並將頁面資料載入到物件中
tree = etree.HTML(page_text)
#統一儲存到資料夾中
if not os.path.exists('./BeautyPhotos'):
os.mkdir('./BeautyPhotos')
#xpath解析,返回列表,儲存的是li標籤
li_list = tree.xpath('//div[@class = "slist"]/ul/li')
# print(li_list)
for li in li_list:
url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
title = li.xpath('./a/b/text()')[0] + '.jpg'
#通用處理中文亂碼的解決方案
title = title.encode('iso-8859-1').decode('gbk')
#儲存圖片
img_data = requests.get(url = url,headers = headers).content
img_path = 'BeautyPhotos/' + title
with open(img_path,'wb') as fp:
fp.write(img_data)
print("儲存成功!")
相關文章
- Python爬蟲遞迴呼叫爬取動漫美女圖片Python爬蟲遞迴
- Java爬蟲批量爬取圖片Java爬蟲
- node:爬蟲爬取網頁圖片爬蟲網頁
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- 爬蟲豆瓣美女爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 爬蟲解析庫:XPath 輕鬆上手爬蟲
- python 爬蟲 下載百度美女圖片Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 爬蟲 – xpath 匹配爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python爬蟲學習(6): 爬取MM圖片Python爬蟲
- Python爬蟲之資料解析(XPath)Python爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- Python爬蟲——XPathPython爬蟲
- Python爬蟲-xpathPython爬蟲
- Python爬蟲新手教程: 知乎文章圖片爬取器Python爬蟲
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- Python爬蟲入門-爬取pexels高清圖片Python爬蟲
- 小小圖片爬蟲爬蟲
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- 蘇寧易購網址爬蟲爬取商品資訊及圖片爬蟲
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- 爬蟲之xpath的使用爬蟲
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- Python爬蟲——Xpath和lxmlPython爬蟲XML
- Python爬蟲入門【4】:美空網未登入圖片爬取Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- 爬蟲實戰:探索XPath爬蟲技巧之熱榜新聞爬蟲
- python 爬蟲之requests爬取頁面圖片的url,並將圖片下載到本地Python爬蟲
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- Python爬蟲之XPath語法Python爬蟲
- 基於 go + xpath 爬蟲小案例Go爬蟲
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- 使用正則編寫簡單的爬蟲爬取某網站的圖片爬蟲網站