Python爬蟲實戰:爐石傳說卡牌、原畫資料抓取
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。
原畫爬取
先看一下爐石傳說的原畫:
爐石傳說原畫連結:
http://news.4399.com/gonglue/lscs/kptj/
該網站通過點選檢視更多載入新的內容,本打算使用Selenium模擬點選獲取圖片資訊 ,嘗試發現原始碼中 該按鈕並無相應的跳轉連結
這不應該啊 沒有相應的跳轉連結 點選後是如何載入新的圖片?
後來瀏覽整體網站原始碼後 發現把問題想複雜 根本不需要模擬點選檢視更多
網站其實已經載入了所有的卡牌原畫 只是之後的原畫做了隱藏處理預設不展示 style=display
點選檢視更多後 顯示原畫
那麼只需使用requests獲取網頁原始碼
用BeautiSoup/正規表示式/pyQuery解析元素 遍歷相應img的url 即可下載
教訓:爬蟲前 不要根據網頁所對的操作實施相應的程式碼爬取 不要有這樣的思維定式 首先要做的是先大體瀏覽分析整個網頁的原始碼 有的可能直接寫在原始碼或json或js中 無需再加工
卡牌爬取
爐石傳說卡牌連結:
http://cha.17173.com/hs/
該網站通過下拉右邊的滾動條不斷載入新的卡牌
與上一個網站不同 上一個網站一次性寫入了所有卡牌 只不過做了隱藏處理
該網站是通過js動態載入渲染出的卡牌 直接獲取原始碼 無法得到所有卡牌資訊
那麼就用selenium模擬下拉滾動條(selenium簡直居家必備之神器)
使用selenium執行js指令碼 每次執行下拉1000個單位滾動條 執行90次
為什麼是90次 測試出來的 大概90次拉到底
注意:這裡要增加1~3秒的暫停時間 用於網頁渲染
第一次沒有設定停留時間 無法獲取新的資料 懷疑自己 懷疑人生
經前端/後端好友L君的提示 需增加暫停時間 這樣才能獲得載入渲染後的資料
browser.page_source便可獲得動態載入的所有資料
有了資料 之後就很簡單 正則匹配獲取相應url下載即可
既然獲得了這麼多卡牌和原畫 不能浪費 利用起來 拼圖!
以上文章來源於碼農小黑屋,作者 丨像我這樣的人丨
相關文章
- python爬蟲-requests與bs4獲得所有爐石傳說卡背Python爬蟲
- Python爬蟲入門實戰之貓眼電影資料抓取(實戰篇)Python爬蟲
- Python【爬蟲實戰】提取資料Python爬蟲
- 爬蟲原理與資料抓取爬蟲
- Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)Python爬蟲
- Python 爬蟲實戰(2):股票資料定向爬蟲Python爬蟲
- 爬蟲抓取網頁資料原理爬蟲網頁
- Python 爬蟲實戰Python爬蟲
- 《爐石傳說》新模式「傭兵戰紀」:設計巧妙的卡牌 RPG 玩法模式
- Python爬蟲抓取股票資訊Python爬蟲
- 《爐石傳說》配合星圖騰薩滿卡組分享
- 《爐石傳說》高勝率的平民騎士卡組分享
- 爬蟲實戰——58同城租房資料爬取爬蟲
- Python 爬蟲實戰之爬拼多多商品並做資料分析Python爬蟲
- python爬蟲實戰,爬蟲之路,永無止境Python爬蟲
- 圖靈樣書爬蟲 - Python 爬蟲實戰圖靈爬蟲Python
- python爬蟲實戰教程-Python爬蟲開發實戰教程(微課版)Python爬蟲
- Python爬蟲新手教程:手機APP資料抓取 pyspiderPython爬蟲APPIDE
- Python爬蟲如何去抓取qq音樂的歌手資料?Python爬蟲
- Python爬蟲抓取資料,為什麼要使用代理IP?Python爬蟲
- python爬蟲練習--爬取虎牙主播原畫視訊Python爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- 【Python爬蟲9】Python網路爬蟲例項實戰Python爬蟲
- python3網路爬蟲開發實戰_Python3 爬蟲實戰Python爬蟲
- Python網路爬蟲實戰Python爬蟲
- python 爬蟲實戰的原理Python爬蟲
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 大資料爬蟲專案實戰教程大資料爬蟲
- API商品資料介面呼叫爬蟲實戰API爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 爬蟲實戰爬蟲
- Python3 大型網路爬蟲實戰 004 — scrapy 大型靜態商城網站爬蟲專案編寫及資料寫入資料庫實戰 — 實戰:爬取淘寶Python爬蟲網站資料庫
- Python爬蟲實戰之bilibiliPython爬蟲
- Java爬蟲實戰:API商品資料介面呼叫Java爬蟲API
- 網路爬蟲——爬蟲實戰(一)爬蟲
- python3 爬蟲實戰:為爬蟲新增 GUI 影象介面Python爬蟲GUI