世界盃快到了,看我用Python爬蟲實現(偽)球迷速成!
還有4天就世界盃了,作為一個資深(偽)球迷,必須要實時關注世界盃相關新聞,瞭解各個球隊動態,這樣才能在一堆球迷中如(大)魚(吹)得(特)水(吹),迎接大家仰慕的目光!
給大家分享一個快速瞭解相關資訊的辦法:刷論壇!我們來一起做個虎撲論壇的爬蟲吧!
抓包獲取虎撲論壇相關帖子內容,逐條顯示!
先來觀察下網頁,開啟論壇首頁,選擇國際足球
然後往下拉,找到世界盃相關內容
這裡就是我們的目標了,所有相關的新聞都會在這裡顯示,用F12開啟“開發者工具”然後往下瀏覽看看資料包
注意箭頭指向的那幾個地方!
這就是剛才瀏覽的新聞所在的json包,來看看具體資料是什麼
ok,標題、地址、釋出時間包括來源都已經出現了!我們可以直接抓取json資料然後取出相關內容!
再進入具體新聞頁面看看
所有的文字內容,都在
這個標籤下的
標籤內,我們可以用xpath直接取div下的所有文字內容!
這裡就不一 一說明了,直接上程式碼,並錄個小的GIF圖片給大家看看效果
#@author Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree
header = {
`User-Agent`:`Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0`,
`Host`:`soccer.hupu.com`,
`Referer`:`https://soccer.hupu.com/`}
i = 0
while 1:
#構建迴圈頁面翻頁
url = `https://soccer.hupu.com/home/latest-news?league=世界盃&page=`
i += 1
#獲取json資料,一頁20個
html = requests.get(url+str(i),headers=header).json()[`result`]
for info in html:
time_r = info[`time`]#釋出時間
title = info[`title`]#標題
url_r = info[`url`]#新聞連結
origin = info[`origin`]#來源
print(title)
print(`釋出時間:`,time_r,` `*5,`來自:`,origin)
head = header
head[`Host`] = `voice.hupu.com`#更改header中Host引數
html_r = requests.get(url_r,headers=head)#獲取新聞詳情
html_r.encoding = `utf-8`#編碼格式指定
#獲取div下的所有文字
datas = etree.HTML(html_r.text).xpath(`//div[@class="artical-content-read"]`)[0].xpath(`string(.)`).strip()
print(`
`+`內容:`+`
`*2,datas,`
`)
#可由使用者手動退出迴圈
if input(`任意鍵繼續,“q”退出`) in [`q`, `Q`]:
exit()
現在我們可以快樂的刷刷論壇,積累最新資訊,秒殺一切擋在我們前(裝)進(B)道路上的渣渣吧~!
歡迎大家關注,私信我一起學習,一起看球!
相關文章
- 2018世界盃資料清單:真球迷看球必備,偽球迷速成指南(附完整賽程)
- 誰說爬蟲只能Python?看我用C#快速簡單實現爬蟲開發和演示!爬蟲PythonC#
- 世界盃日曆提醒小卡片:快用Python程式語言來實現它Python
- 利用 Python 爬蟲實現快遞物流資訊查詢Python爬蟲
- 從零開始的Python爬蟲速成指南Python爬蟲
- Python爬蟲-用Scrapy框架實現漫畫的爬取Python爬蟲框架
- Python爬蟲實戰案例-爬取幣世界標紅快訊Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- Python實現微博爬蟲,爬取新浪微博Python爬蟲
- 爬蟲——爬取貴陽房價(Python實現)爬蟲Python
- 當我遇到了爬蟲爬蟲
- python的爬蟲功能如何實現Python爬蟲
- Python爬蟲是如何實現的?Python爬蟲
- 俄羅斯酒店將向世界盃球迷提供比特幣支付服務比特幣
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- Python爬蟲的兩套解析方法和四種爬蟲實現Python爬蟲
- (python)爬蟲----八個專案帶你進入爬蟲的世界Python爬蟲
- 締元信:2014年巴西世界盃大資料全景呈現球迷畫像大資料
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 運用node實現簡單爬蟲爬蟲
- python實現selenium網路爬蟲Python爬蟲
- Python 爬蟲IP代理池的實現Python爬蟲
- Python Beautiful Soup+requests實現爬蟲Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- Python 爬蟲實戰Python爬蟲
- 看我如何用定值 Cookie 實現反爬Cookie
- python爬蟲實戰,爬蟲之路,永無止境Python爬蟲
- 圖靈樣書爬蟲 - Python 爬蟲實戰圖靈爬蟲Python
- 【python爬蟲】python爬蟲demoPython爬蟲
- 物聯網|2018世界盃,資深球迷必知的6點!
- 2022年世界盃中國球迷收看頻率(附原資料表)
- 【Python爬蟲9】Python網路爬蟲例項實戰Python爬蟲
- 大規模非同步新聞爬蟲: 用asyncio實現非同步爬蟲非同步爬蟲
- 對於反爬蟲偽裝瀏覽器進行爬蟲爬蟲瀏覽器
- Python 實戰:用 Scrapyd 打造爬蟲控制檯Python爬蟲
- python爬蟲簡單實現逆向JS解密Python爬蟲JS解密
- python爬蟲實現成語接龍1.0Python爬蟲
- 基於bs4+requests的python爬蟲偽裝Python爬蟲