Python爬取糗事百科段子
#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding(`utf8`)
page = 1
url = `http://www.qiushibaike.com/hot/page/` + str(page)
user_agent = `Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36`
headers = {`User-Agent`:user_agent}
try:
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
# print response.read()
######_match_ string
content = response.read().decode(`utf-8`)
# 其中 (.*?)為匹配的內容
# 如果對正則不是很熟的同學,可以參考以下:
# 1. “.”是萬用字元,”*”表示匹配0次或任意次,”?”表示非貪婪匹配,.*?組合在一起則表示儘可能短地做匹配。
# 2. (.*?)代表一個分組,或者說一個捕獲組。
# 3. re.S 標誌代表在匹配時為點任意匹配模式,點 . 也可以代表換行符。
pattern = re.compile(r`<div.*?author clearfix".*?<img.*?<h2>(.*?)</h2>.*?<div.*?`+
`content">.*?<span>(.*?)</span>.*?<div class="stats.*?class="number">(.*?)</i>`,re.S)
items = re.findall(pattern,content)
# print("%s"%items)
for item in items:
print("auther:%s"%item[0])
print("content:%s"%item[1])
print("likes:%s
"%item[2])
except urllib2.URLError,e:
if hasattr(e,`code`):
print e.code
if hasattr(e,`reaon`):
print e.reason
相關文章
- python爬取糗事百科Python
- python爬蟲十二:middlewares的使用,爬取糗事百科Python爬蟲
- python3.6.5 爬取糗事百科,開心一下Python
- python多執行緒爬去糗事百科Python執行緒
- Python爬取內涵段子裡的段子Python
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 使用python爬取百度百科Python
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- [外掛擴充套件]糗事百科QiuBa套件
- 仿的一個笑話網站 糗事百科網站
- 使用webmagic爬蟲對百度百科進行簡單的爬取Web爬蟲
- python爬取網圖Python
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- 仿糗事百科笑話系統原始碼,PHP笑話系統原始碼原始碼PHP
- Python爬取電影天堂Python
- Python爬取周杰倫instagramPython
- python 爬取 mc 皮膚Python
- Python《爬取IPhone各式桌布》PythoniPhone
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- python爬蟲——爬取大學排名資訊Python爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- python 爬蟲 1 爬取酷狗音樂Python爬蟲
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- 用python爬取知識星球Python
- python爬取北京租房資訊Python
- Python:爬取疫情每日資料Python
- 利用Python爬取必應桌布Python
- Python-爬取CVE漏洞庫?Python
- 關於python爬取網頁Python網頁
- python——豆瓣top250爬取Python
- Python爬蟲:爬取instagram,破解js加密引數Python爬蟲JS加密
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python 第一個爬蟲,爬取 147 小說Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- 爬蟲——爬取貴陽房價(Python實現)爬蟲Python
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲