python爬蟲-抓取內涵吧內涵段子

這是個python簡易爬蟲，主要使用了requests和re模組，適合入門。
出處：https://github.com/jingsupo/python-spider/blob/master/day03/04neihanba.py

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests, re, time


class Neihanspider(object):
    def __init__(self):
        self.base_url = 'http://www.neihan8.com/article/list_5_'
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        # 第一層解析的正規表示式 正則裡面的符號不能改，必須照原樣複製過來
        self.first_pattern = re.compile(r'<div class="f18 mb20">.*?</div>', re.S)
        # 第二層解析的正規表示式 去除所有標籤 字元實體 空白 全形空格
        self.second_pattern = re.compile(r'<.*?>|&.*?;|\s|　　')

    # 傳送請求
    def send_request(self, url):
        time.sleep(2)
        try:
            response = requests.get(url, headers=self.headers)
            return response.content
        except Exception as e:
            print e

    # 寫入檔案
    def write_file(self, data, page):
        with open('04neihanba.txt', 'a') as f:
            filename = '第' + str(page) + '頁的段子\n'
            print filename
            f.write('-' * 10 + '\n')
            f.write(filename)
            f.write('-' * 10 + '\n')

            for first_data in data:
                # 第二層解析
                content = self.second_pattern.sub('', first_data)
                f.write(content)
                # 在每個段子結束的時候加個換行
                f.write('\n\n')

    # 排程方法
    def start_work(self):
        for page in range(1, 5):
            # 拼接url
            url = self.base_url + str(page) + '.html'

            # 傳送請求
            data = self.send_request(url)

            # 轉碼
            data = data.decode('gbk').encode('utf-8')

            # 第一層解析
            data_list = self.first_pattern.findall(data)

            # 將資料寫入檔案
            self.write_file(data_list, page)


if __name__ == '__main__':
    spider = Neihanspider()
    spider.start_work()

Python爬取內涵段子裡的段子
2021-09-09
Python
Python網路爬蟲（正則, 內涵段子，貓眼電影, 鏈家爬取）
2018-10-30
Python爬蟲
內涵妹子
2019-05-11
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
二貨宿舍內涵笑話網站
2019-05-11
網站
百笑生內涵社群搞笑視訊網
2019-05-11
68句唯美簡短有內涵微信個性簽名大全微信簽名一句話內涵
2018-09-13
單個Acticity顯示多個列表，仿內涵段子詳情頁的熱門評論、全部評論
2018-12-12
悶騷社群-有思想,有個性,有內涵！
2019-05-11
內涵笑話圖片網站，二貨宿舍
2019-05-11
網站
城市規劃館該如何體現城市內涵
2022-07-11
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
如何透過深挖文化內涵打造夜遊文化IP
2021-09-06
AISecOps白皮書精華解讀之背景內涵篇
2020-12-26
AI
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
ScienceDirect內容爬蟲
2021-07-21
爬蟲
資料結構與演算法涵蓋哪些內容？
2024-04-11
資料結構演算法
數字城市的技術內涵及發展趨勢
2023-05-18
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
什麼是上下文中的內涵邏輯？ -Bill Wadge
2021-02-23
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
遊戲基礎知識——“突破心靈困境”情節的內涵
2020-05-28
遊戲
“黃金有價玉無價”玉石首飾的內涵太深刻！
2022-06-27
python爬蟲之抓取小說(逆天邪神)
2022-03-10
Python爬蟲
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS
揭祕工業網際網路的內涵、熱點與難點！
2018-05-01
區塊鏈鼻祖比特幣之1：比特幣的內涵與價值
2018-04-25
區塊鏈比特幣
windows10系統如何開啟內涵圖種子【圖文教程】
2018-04-11
Windows
大家信夫淺談信用資本的內涵構成與本質
2021-12-15
原神「海燈節」—— 為二次元世界打造文化內涵
2021-03-04
二次元
學習python做爬蟲主要學習哪些內容呢?
2020-07-20
Python爬蟲
為基本牌賦予新內涵三國殺發起首屆“閃閃節”
2023-03-03

python爬蟲-抓取內涵吧內涵段子

相關文章