世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

雲飛學程式設計發表於2018-06-10

原文網址 : https://flycode.co/archives/167978

Python爬蟲

還有4天就世界盃了，作為一個資深（偽）球迷，必須要實時關注世界盃相關新聞，瞭解各個球隊動態，這樣才能在一堆球迷中如（大）魚（吹）得（特）水（吹），迎接大家仰慕的目光!

給大家分享一個快速瞭解相關資訊的辦法：刷論壇！我們來一起做個虎撲論壇的爬蟲吧！

抓包獲取虎撲論壇相關帖子內容，逐條顯示！

先來觀察下網頁，開啟論壇首頁，選擇國際足球

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

然後往下拉，找到世界盃相關內容

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

這裡就是我們的目標了，所有相關的新聞都會在這裡顯示，用F12開啟“開發者工具”然後往下瀏覽看看資料包

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

注意箭頭指向的那幾個地方！

這就是剛才瀏覽的新聞所在的json包，來看看具體資料是什麼

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

ok，標題、地址、釋出時間包括來源都已經出現了!我們可以直接抓取json資料然後取出相關內容！

再進入具體新聞頁面看看

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

所有的文字內容，都在

這個標籤下的

標籤內，我們可以用xpath直接取div下的所有文字內容!

這裡就不一一說明了，直接上程式碼，並錄個小的GIF圖片給大家看看效果

#@author Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
    `User-Agent`:`Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0`,
    `Host`:`soccer.hupu.com`,
    `Referer`:`https://soccer.hupu.com/`}
i = 0
while 1:
    #構建迴圈頁面翻頁
    url = `https://soccer.hupu.com/home/latest-news?league=世界盃&page=`
    i += 1
    #獲取json資料，一頁20個
    html = requests.get(url+str(i),headers=header).json()[`result`]
    for info in html:
        time_r = info[`time`]#釋出時間
        title = info[`title`]#標題
        url_r = info[`url`]#新聞連結
        origin = info[`origin`]#來源
        print(title)
        print(`釋出時間:`,time_r,` `*5,`來自：`,origin)
        head = header
        head[`Host`] = `voice.hupu.com`#更改header中Host引數
        html_r = requests.get(url_r,headers=head)#獲取新聞詳情
        html_r.encoding = `utf-8`#編碼格式指定
        #獲取div下的所有文字
        datas = etree.HTML(html_r.text).xpath(`//div[@class="artical-content-read"]`)[0].xpath(`string(.)`).strip()
        print(`
`+`內容：`+`
`*2,datas,`
`)
        #可由使用者手動退出迴圈
        if input(`任意鍵繼續，“q”退出`) in [`q`, `Q`]:
            exit()

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

現在我們可以快樂的刷刷論壇，積累最新資訊，秒殺一切擋在我們前（裝）進（B）道路上的渣渣吧~！

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

歡迎大家關注，私信我一起學習，一起看球！

2018世界盃資料清單：真球迷看球必備，偽球迷速成指南（附完整賽程）
2018-06-14
誰說爬蟲只能Python？看我用C#快速簡單實現爬蟲開發和演示！
2024-05-27
爬蟲PythonC#
Python爬蟲實戰案例-爬取幣世界標紅快訊
2019-02-16
Python爬蟲
世界盃日曆提醒小卡片：快用Python程式語言來實現它
2018-06-14
Python
利用 Python 爬蟲實現快遞物流資訊查詢
2020-09-25
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
python的爬蟲功能如何實現
2019-02-28
Python爬蟲
Python爬蟲是如何實現的？
2022-07-15
Python爬蟲
python實現selenium網路爬蟲
2021-03-11
Python爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
當我遇到了爬蟲
2024-06-03
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
Python爬蟲教程-06-爬蟲實現百度翻譯(requests)
2018-09-06
Python爬蟲
Python爬蟲可以幹什麼?Python爬蟲有什麼用?
2022-08-25
Python爬蟲
Python 實戰:用 Scrapyd 打造爬蟲控制檯
2018-10-30
Python爬蟲
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
python爬蟲實現成語接龍1.0
2020-10-06
Python爬蟲
基於bs4+requests的python爬蟲偽裝
2018-07-20
Python爬蟲
看我如何用定值 Cookie 實現反爬
2023-04-03
Cookie
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
俄羅斯酒店將向世界盃球迷提供比特幣支付服務
2018-04-02
比特幣
Python《爬蟲初實踐》
2020-12-11
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
大規模非同步新聞爬蟲：用asyncio實現非同步爬蟲
2018-12-03
非同步爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
對於反爬蟲偽裝瀏覽器進行爬蟲
2018-04-12
爬蟲瀏覽器
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
物聯網｜2018世界盃，資深球迷必知的6點！
2019-01-23
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲

世界盃快到了，看我用Python爬蟲實現（偽）球迷速成！

抓包獲取虎撲論壇相關帖子內容，逐條顯示！

相關文章