我的第一篇部落格（從爬蟲開始）

healthy_T發表於2020-09-29

原文網址 : https://blog.csdn.net/weixin_51211600/article/details/108862562

自從自學ython到現在差不多三月有餘，總感覺學了後面的，就會忘了前面的，特此開個部落格在這裡記錄一下，順便讓自己鞏固一下知識。
剛來第一天，也不知道弄什麼好，還是先來一個爬蟲爬取小姐姐的圖片吧（聽說這樣比較吸引點選…）

說到爬蟲，當然必須要用到requests，所以第一步當然是安裝了，安裝也很簡單,直接pip就行：

pip install requests

哦，忘記說了，我用的Python版本是3.7.9的，建議大家把Python換成3.5以上的吧。

今天我們的目標就是：站長之家
http://aspx.sc.chinaz.com/query.aspx?keyword=%E6%80%A7%E6%84%9F%E7%BE%8E%E5%A5%B3

我們先來分析一下網站，右鍵點選檢查，再點選原始碼，發現這是個靜態網頁，沒困難，直接搞起
我們需要用到一個parsel 庫，這個庫是scrapy的內建庫，裡面有各種查詢資料的方法，re,xpath,css等等都很有用，而且還能為以後學習scrapy提前參考一下，parsel下載也很簡單：

pip install parsel

import parsel
import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400'
}
url = 'http://aspx.sc.chinaz.com/query.aspx?keyword=性感美女'

html = requests.get(url,headers=headers).text

res = parsel.Selector(html)
url_list = res.xpath('//div[@class="imgload"]/div')

for urls in url_list:
    link = urls.xpath('./div/a/@href').get()
    print(link)

output：
http://sc.chinaz.com/tupian/150921398600.htm
http://sc.chinaz.com/tupian/190529039593.htm
http://sc.chinaz.com/tupian/150807092720.htm
http://sc.chinaz.com/tupian/150116595010.htm
http://sc.chinaz.com/tupian/190205506532.htm
http://sc.chinaz.com/tupian/170516393121.htm
http://sc.chinaz.com/tupian/190403392630.htm
http://sc.chinaz.com/tupian/180301072722.htm
http://sc.chinaz.com/tupian/140703076000.htm
....

順利拿到內容頁，繼續分析，方法同上，就不多說了，直接上程式碼：

	content = requests.get(link,headers=headers)
    content.encoding = "utf-8"
    image_url = parsel.Selector(content.text)
    for img in image_url.xpath('//div[@class="imga"]/a'):
        # 提取圖片地址
        images = img.xpath('./img/@src').get()        
        
        # 提取標題做圖片名稱
        title = img.xpath('./@title').get()


        print(images,title)

output：
http://pic.sc.chinaz.com/files/pic/pic9/201509/apic14867.jpg 漂亮性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201905/zzpic18256.jpg 歐美性感美女寫真圖片
http://pic.sc.chinaz.com/files/pic/pic9/201508/apic13697.jpg 美乳性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201501/apic8825.jpg 包廂性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201901/zzpic16191.jpg 個性性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201701/fpic10114.jpg 風塵性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201904/zzpic17359.jpg 抽菸性感美女圖片
http://pic.sc.chinaz.com/files/pic/pic9/201802/zzpic10593.jpg 超性感美女寫真圖片
http://pic.sc.chinaz.com/files/pic/pic9/201406/apic4601.jpg 妖嬈性感美女圖片
.....

圖片與名字都拿到了，下一步就是講這些全部下載到本地，然後有時間再慢慢看咯,全部程式碼奉上：

import parsel
import requests


for page in range(1,21):        # 爬取20頁
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400'
    }
    url = f'http://aspx.sc.chinaz.com/query.aspx?keyword=性感美女&issale=&classID=0&navindex=0&page={page}'

    html = requests.get(url,headers=headers).text

    res = parsel.Selector(html)
    url_list = res.xpath('//div[@class="imgload"]/div')

    for urls in url_list:
        link = urls.xpath('./div/a/@href').get()
        

        content = requests.get(link,headers=headers)
        content.encoding = "utf-8"
        image_url = parsel.Selector(content.text)
        for img in image_url.xpath('//div[@class="imga"]/a'):
            # 提取圖片地址
            images = img.xpath('./img/@src').get()        
            
            # 提取標題做圖片名稱
            title = img.xpath('./@title').get()

            print("正在下載",images)
            # 定義下載到何處
            filename = title + ".jpg"
            image = requests.get(images)
            with open("./images/" + filename,"wb") as f:
                f.write(image.content)

在這裡插入圖片描述
可以優化的地方還有很多，可以做的更加靈活，暫時就先這樣吧

01、部落格爬蟲
2019-04-11
爬蟲
我的部落格生涯開始了
2024-09-27
每天一個爬蟲-learnku我的部落格列表
2021-06-17
爬蟲
我的第一篇部落格
2024-11-26
從零開始的爬蟲專案（一）
2020-04-23
爬蟲
VuePress從零開始搭建自己的部落格
2018-06-09
Vue
【從零開始學爬蟲】建立模板
2023-01-06
爬蟲
我的第一篇部落格出爐~
2018-12-08
這是我的第一篇部落格
2021-01-03
如何從現在開始寫部落格？
2019-06-24
從零開始搭建部落格系列
2024-06-25
從零開始的個人技術部落格
2019-02-16
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
【從零開始學爬蟲】對任務的操作
2022-12-07
爬蟲
從零開始搭建一個 hexo 部落格。
2018-12-12
Hexo
從零開始設計一個部落格
2021-01-11
從零開始寫一個node爬蟲(一)
2019-04-09
爬蟲
《從零開始學Python網路爬蟲》概要
2018-08-29
Python爬蟲
【從零開始學爬蟲】模板的高階選項
2023-01-06
爬蟲
[雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門
2018-09-10
Python爬蟲
人生第一篇部落格，從這裡開始，記錄C++記憶體池的學習
2018-05-23
C++記憶體
【從零開始學爬蟲】模板的複製與貼上
2023-01-06
爬蟲
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
【爬蟲工具】下載部落格轉成Markdown的形式
2019-02-16
爬蟲
大家好，這是我的第一篇部落格
2020-11-06
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
部落格園記錄：汽車引數爬蟲
2024-11-06
爬蟲
分享5個爬蟲專業部落格網站
2021-10-12
爬蟲網站
決定開始寫部落格
2018-08-11
部落格第一篇
2018-05-17
第一篇部落格
2024-11-30
從今天開始，拿起VuePress打造屬於自己的專屬部落格
2019-05-12
Vue
【Python】從0開始寫爬蟲——轉身扒豆瓣電影
2018-08-16
Python爬蟲
從零開始，如何用puppeteer寫一個爬蟲指令碼
2018-08-17
爬蟲指令碼
我的部落格
2024-08-24
我開通部落格啦
2024-11-25
從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
從 0 開始搭建一個技術部落格，私藏乾貨~
2019-01-25

我的第一篇部落格（從爬蟲開始）

相關文章