python爬取糗事百科

sixkery發表於2018-08-14

原文網址 : https://flycode.co/archives/167609

閒來無事，找點段子一樂呵，就逛到糗事百科，這次爬取沒有什麼難度，唯一值得說道的是增加了一點點的程式碼健壯性。

import requests
from lxml import etree


class Spider():

    def __get_page(self,url,headers):
        try:
            response = requests.get(url,headers=headers)
            if response.status_code == 200:
                return response.text
            else:
                return None
        except Exception:
            return None

    def __parse_page(self,html):
        results = []
        data = etree.HTML(html)
        items = data.xpath(`//div[@id="content-left"]/div`)
        for item in items:
            #獲取作者
            author = item.xpath(`./div[1]/a[2]/h2/text()`)
            if author:
                results.append(author[0].strip())
            else:
                results.append(`匿名使用者`)

            #獲取內容
            content = item.xpath(`./a[1]/div/span/text()`)
            if content:
                results.append(``.join(content).replace(`
`,``))
            else:
                results.append(`此使用者沒有內容`)

            #獲取好笑數
            number = item.xpath(`./div[2]/span[1]/i/text()`)
            if number:
                results.append(number[0])
            else:
                results.append(`0`)

        return results


    def __save_to_txt(self,data):
        with open(`data.txt`,`w`,encoding=`utf-8`) as f:
            f.write(data)

    def run(self):

        for i in range(1,13):
            url =`https://www.qiushibaike.com/text/page/` + str(i)
            headers = {`User-Agent`: `Mozilla/5.0 (Windows NT 10.0; WOW64)`
                                     ` AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36`
                       }
            html = self.get_page(url,headers)
            result = self.parse_page(html)
            self.save_to_txt(str(result))

#例項化類
spider = Spider()
spider.run()

其中類裡的方法是私有方法，外部不可呼叫。
解析網頁部分增加了判斷獲取欄位為空的處理方法。
歡迎大家跟我交流學習。

Python爬取糗事百科段子
2018-08-31
Python
python爬蟲十二：middlewares的使用，爬取糗事百科
2018-05-31
Python爬蟲
python3.6.5 爬取糗事百科，開心一下
2018-07-10
Python
python多執行緒爬去糗事百科
2018-04-03
Python執行緒
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
使用python爬取百度百科
2022-07-05
Python
[外掛擴充套件]糗事百科QiuBa
2020-04-04
套件
仿的一個笑話網站糗事百科
2019-05-11
網站
使用webmagic爬蟲對百度百科進行簡單的爬取
2019-02-20
Web爬蟲
python爬取網圖
2019-10-15
Python
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
仿糗事百科笑話系統原始碼，PHP笑話系統原始碼
2019-05-11
原始碼PHP
Python爬取電影天堂
2018-11-01
Python
Python爬取周杰倫instagram
2018-07-08
Python
python 爬取 mc 皮膚
2019-08-02
Python
Python《爬取IPhone各式桌布》
2020-12-11
PythoniPhone
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
用python爬取知識星球
2019-02-16
Python
python爬取北京租房資訊
2018-05-18
Python
Python：爬取疫情每日資料
2020-02-17
Python
利用Python爬取必應桌布
2020-10-13
Python
Python-爬取CVE漏洞庫?
2021-11-05
Python
關於python爬取網頁
2021-03-10
Python網頁
python——豆瓣top250爬取
2021-01-02
Python
Python爬蟲：爬取instagram，破解js加密引數
2019-04-09
Python爬蟲JS加密
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站

python爬取糗事百科

相關文章