python爬蟲-抓取內涵吧內涵段子
這是個python簡易爬蟲,主要使用了requests和re模組,適合入門。
出處:https://github.com/jingsupo/python-spider/blob/master/day03/04neihanba.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests, re, time
class Neihanspider(object):
def __init__(self):
self.base_url = 'http://www.neihan8.com/article/list_5_'
self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
# 第一層解析的正規表示式 正則裡面的符號不能改,必須照原樣複製過來
self.first_pattern = re.compile(r'<div class="f18 mb20">.*?</div>', re.S)
# 第二層解析的正規表示式 去除所有標籤 字元實體 空白 全形空格
self.second_pattern = re.compile(r'<.*?>|&.*?;|\s| ')
# 傳送請求
def send_request(self, url):
time.sleep(2)
try:
response = requests.get(url, headers=self.headers)
return response.content
except Exception as e:
print e
# 寫入檔案
def write_file(self, data, page):
with open('04neihanba.txt', 'a') as f:
filename = '第' + str(page) + '頁的段子\n'
print filename
f.write('-' * 10 + '\n')
f.write(filename)
f.write('-' * 10 + '\n')
for first_data in data:
# 第二層解析
content = self.second_pattern.sub('', first_data)
f.write(content)
# 在每個段子結束的時候加個換行
f.write('\n\n')
# 排程方法
def start_work(self):
for page in range(1, 5):
# 拼接url
url = self.base_url + str(page) + '.html'
# 傳送請求
data = self.send_request(url)
# 轉碼
data = data.decode('gbk').encode('utf-8')
# 第一層解析
data_list = self.first_pattern.findall(data)
# 將資料寫入檔案
self.write_file(data_list, page)
if __name__ == '__main__':
spider = Neihanspider()
spider.start_work()
相關文章
- 爬蟲 內涵段子爬蟲
- Python爬取內涵段子裡的段子Python
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- python爬蟲學習(2)-抓取百度貼吧內容Python爬蟲
- Python爬蟲,抓取淘寶商品評論內容!Python爬蟲
- 內控流程修訂之考-內涵和外延
- 三種 Python 網路內容抓取工具與爬蟲Python爬蟲
- 二貨宿舍內涵笑話網站網站
- 一段很有內涵的話,分享
- 68句唯美簡短有內涵微信個性簽名大全 微信簽名一句話內涵
- 內涵笑話圖片網站,二貨宿舍網站
- 如何透過深挖文化內涵打造夜遊文化IP
- AISecOps白皮書精華解讀之背景內涵篇AI
- Weex在內涵發現頁中的工程實踐
- 資訊時代賦予企業三基工作新內涵
- 單個Acticity顯示多個列表,仿內涵段子詳情頁的熱門評論、全部評論
- Python爬蟲抓取股票資訊Python爬蟲
- 數字城市的技術內涵及發展趨勢
- ScienceDirect內容爬蟲爬蟲
- 遊戲基礎知識——“突破心靈困境”情節的內涵遊戲
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 榮耀V9評測:高顏值有內涵 手遊玩家的利器
- python爬蟲:使用BeautifulSoup修改網頁內容Python爬蟲網頁
- 爬蟲,可用於增加訪問量和抓取網站全頁內容爬蟲網站
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- PHP 爬蟲爬取社群文章內容PHP爬蟲
- 大家信夫淺談信用資本的內涵構成與本質
- windows10系統如何開啟內涵圖種子【圖文教程】Windows
- 揭祕工業網際網路的內涵、熱點與難點!
- 蘋果推送iOS 8.2 beta5:內涵AppleWatch開發套件蘋果iOSAPP套件
- Python爬蟲抓取技術的門道Python爬蟲
- python爬蟲之抓取小說(逆天邪神)Python爬蟲
- Python爬蟲使用代理proxy抓取網頁Python爬蟲網頁
- python爬蟲-抓取騰訊招聘資訊頁面Python爬蟲
- Python 爬蟲網頁內容提取工具xpath(一)Python爬蟲網頁
- Python 爬蟲網頁內容提取工具xpath(二)Python爬蟲網頁
- python 爬蟲如何爬取動態生成的網頁內容Python爬蟲網頁