python爬取糗事百科
閒來無事,找點段子一樂呵,就逛到糗事百科,這次爬取沒有什麼難度,唯一值得說道的是增加了一點點的程式碼健壯性。
import requests
from lxml import etree
class Spider():
def __get_page(self,url,headers):
try:
response = requests.get(url,headers=headers)
if response.status_code == 200:
return response.text
else:
return None
except Exception:
return None
def __parse_page(self,html):
results = []
data = etree.HTML(html)
items = data.xpath(`//div[@id="content-left"]/div`)
for item in items:
#獲取作者
author = item.xpath(`./div[1]/a[2]/h2/text()`)
if author:
results.append(author[0].strip())
else:
results.append(`匿名使用者`)
#獲取內容
content = item.xpath(`./a[1]/div/span/text()`)
if content:
results.append(``.join(content).replace(`
`,``))
else:
results.append(`此使用者沒有內容`)
#獲取好笑數
number = item.xpath(`./div[2]/span[1]/i/text()`)
if number:
results.append(number[0])
else:
results.append(`0`)
return results
def __save_to_txt(self,data):
with open(`data.txt`,`w`,encoding=`utf-8`) as f:
f.write(data)
def run(self):
for i in range(1,13):
url =`https://www.qiushibaike.com/text/page/` + str(i)
headers = {`User-Agent`: `Mozilla/5.0 (Windows NT 10.0; WOW64)`
` AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36`
}
html = self.get_page(url,headers)
result = self.parse_page(html)
self.save_to_txt(str(result))
#例項化類
spider = Spider()
spider.run()
- 其中類裡的方法是私有方法,外部不可呼叫。
- 解析網頁部分增加了判斷獲取欄位為空的處理方法。
- 歡迎大家跟我交流學習。
相關文章
- Python爬取糗事百科段子Python
- python爬蟲十二:middlewares的使用,爬取糗事百科Python爬蟲
- python3.6.5 爬取糗事百科,開心一下Python
- python多執行緒爬去糗事百科Python執行緒
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 使用python爬取百度百科Python
- [外掛擴充套件]糗事百科QiuBa套件
- 仿的一個笑話網站 糗事百科網站
- 使用webmagic爬蟲對百度百科進行簡單的爬取Web爬蟲
- python爬取網圖Python
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- 仿糗事百科笑話系統原始碼,PHP笑話系統原始碼原始碼PHP
- Python爬取電影天堂Python
- Python爬取周杰倫instagramPython
- python 爬取 mc 皮膚Python
- Python《爬取IPhone各式桌布》PythoniPhone
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- python爬蟲——爬取大學排名資訊Python爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- python 爬蟲 1 爬取酷狗音樂Python爬蟲
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- 用python爬取知識星球Python
- python爬取北京租房資訊Python
- Python:爬取疫情每日資料Python
- 利用Python爬取必應桌布Python
- Python-爬取CVE漏洞庫?Python
- 關於python爬取網頁Python網頁
- python——豆瓣top250爬取Python
- Python爬蟲:爬取instagram,破解js加密引數Python爬蟲JS加密
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python 第一個爬蟲,爬取 147 小說Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- 爬蟲——爬取貴陽房價(Python實現)爬蟲Python
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站