Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

夢想橡皮擦發表於2019-01-04

原文網址 : https://flycode.co/archives/232431

寫在前面

很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波。

整體看上去，煎蛋網的妹子圖質量還是可以的，不是很多，但是還蠻有味道的，這可能也是爬蟲er，一批一批的奔赴上去的原因。

1. 網站分析

這個網站如果用 selenium 爬取，其實也沒什麼要分析的,模擬訪問就行，匯入必備的模組。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requests

import time
複製程式碼

我使用的是PhantomJS 去載入瀏覽器，關於這個PhantomJS，去網際網路搜尋一下吧，資料大把，會看的很爽的，總之呢，它可以模擬一個真實的瀏覽器做任何事情，得到你想要的資料。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 這個地方需要設定一下瀏覽器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")

複製程式碼

2. 分析資料

程式獲取到資料之後就可以對資料進行處理了，編寫一個get_content函式，用來處理網頁原始碼。

def get_content():

    try:

        wait.until(
            EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol'))
        )
        #
        print("正在爬取{}".format(browser.current_url))
        page_source = browser.page_source  # 獲取網頁原始碼
        html = etree.HTML(page_source)  # 解析原始碼
        imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配圖片
        download(imgs)

    except Exception as e:
        print("錯誤")
        print(e)
    finally:
        browser.close()
複製程式碼

圖片獲取到之後，在上面的程式碼中，注意有一個地方呼叫了一個 download函式，這個函式就是用來下載圖片的


def download(imgs):
    path = "./xxoo/{}"  # 路徑我寫死了
    for img in imgs:
        try:
            res = requests.get(img)
            content = res.content
        except Exception as e:
            print(e)
            continue

        file_name = img.split("/")[-1] # 獲取檔名

        with open(path.format(file_name),"wb") as f:
            f.write(content)
            print(file_name,"成功下載檔案")
            time.sleep(0.3)

    # 迴圈下載完畢，進行翻頁操作 previous-comment-page
    next = wait.until(
        EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]'))
    )
    next.click()
    return get_content()  # 繼續呼叫上面的網頁原始碼分析流程

複製程式碼

OK，執行一下。

Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三
2018-12-20
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲入門【8】：蜂鳥網圖片爬取之三
2019-07-31
Python爬蟲
Python爬蟲入門【6】：蜂鳥網圖片爬取之一
2019-07-30
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取
2019-01-09
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲入門教程 29-100 手機APP資料抓取 pyspider
2019-01-23
Python爬蟲APPIDE
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲入門學習線路圖2019最新版（附Python爬蟲視訊教程）
2019-01-09
Python爬蟲
Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分
2019-03-12
Python爬蟲MITAPP
Python爬蟲入門
2020-11-30
Python爬蟲
Python Selenium+PhantomJs 爬煎蛋妹子圖
2020-04-06
PythonJS
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲
Python 爬蟲 + 人臉檢測 —— 知乎高顏值圖片抓取
2020-12-21
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
圖片抓取_千圖網圖片抓取
2021-01-13
python-爬蟲入門
2024-09-22
Python爬蟲
Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapy
2019-02-25
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
入門須知之網路爬蟲的基本流程及抓取策略
2018-11-10
爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
實戰：如何通過python requests庫寫一個抓取小網站圖片的小爬蟲
2020-01-25
Python網站爬蟲

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面

1. 網站分析

2. 分析資料

相關文章