爬蟲---xpath解析（爬取美女圖片）

Gotop!發表於2020-12-23

原文網址 : https://blog.csdn.net/weixin_44918193/article/details/111570457

這個網頁的程式碼結構。可以很好的拿來練手xpath解析。現在爬這個網站比較慢，有時還可能報錯。程式碼沒有問題，可以實現，也許是缺一些優化。等熟悉了再來優化。

程式碼中的處理中文亂碼的方式劃重點。一種是手動設定響應資料的編碼格式，另一種是通用處理中文亂碼解決方案。encode('iso-8859-1').decode('gbk') 用這個別忘了接收修改後的資料哦！

在這裡插入圖片描述

import requests
from lxml import etree
import os
if __name__ == "__main__":
    headers = {
        'Referer': 'http://pic.netbian.com/4kmeinv/index_2.html',
        'user_agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/'
    #獲取響應資料
    response = requests.get(url = url, headers = headers)

    #手動設定響應資料的編碼格式
    # response.encoding = 'utf-8'
    page_text = response.text
    #例項化etree物件，並將頁面資料載入到物件中
    tree = etree.HTML(page_text)

    #統一儲存到資料夾中
    if not os.path.exists('./BeautyPhotos'):
        os.mkdir('./BeautyPhotos')

    #xpath解析，返回列表，儲存的是li標籤
    li_list = tree.xpath('//div[@class = "slist"]/ul/li')
    # print(li_list)
    for li in li_list:
        url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        title = li.xpath('./a/b/text()')[0] + '.jpg'
        #通用處理中文亂碼的解決方案
        title = title.encode('iso-8859-1').decode('gbk')

        #儲存圖片
        img_data = requests.get(url = url,headers = headers).content
        img_path = 'BeautyPhotos/' + title
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print("儲存成功！")

Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python 爬蟲下載百度美女圖片
2024-04-18
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲豆瓣美女
2018-11-28
爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
爬蟲 – xpath 匹配
2018-12-20
爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
爬蟲之xpath的使用
2024-04-02
爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
蘇寧易購網址爬蟲爬取商品資訊及圖片
2021-10-12
爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲之XPath語法
2019-05-20
Python爬蟲
python爬去百度美女吧圖片
2018-04-01
Python
AotucCrawler 快速爬取圖片
2021-11-25
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲

爬蟲---xpath解析（爬取美女圖片）

相關文章