爬蟲福利：教你爬wap站

九茶發表於2016-03-06

前言：

玩過爬蟲的朋友應該都清楚，爬蟲難度：www > m > wap （www是PC端，m和wap是移動端，現在的智慧手機一般用的是m站，部分老手機用的還是wap），原因也很簡單，現在的網站越來越多地使用AJAX載入，反爬蟲機制也厲害。而像wap這種移動端網站限制比較小，網頁結構也簡單，我們獲取、解析起來都簡單很多，理論上速度也會快很多。所以如果允許的話我們儘量採用wap站抓取。
wap爬蟲

正文：

可能很多剛接觸爬蟲的朋友也想從wap爬取，但不知道怎麼做。例如用PC端瀏覽器開啟 weibo.cn 在登入的時候會自動跳回m域名網站，甚至用requests開啟網頁時會返回403錯誤。
這是因為網站伺服器會根據你的瀏覽器表頭判斷你是從哪個平臺傳送的請求，識別到PC端的請求會給你作相應處理。所以我們只需要修改一下瀏覽器表頭（User-Agent）即可。

如果是爬蟲程式，只需要帶上舊版手機瀏覽器的User-Agent即可（例如：”Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1”）。

然而我們只看程式返回的response內容並不舒爽，我們還想在PC端用瀏覽器模擬手機瀏覽器那樣開啟網頁，怎麼辦？
我們只需要把PC瀏覽器的User-Agent改成手機的User-Agent即可。
例如我用的是Chrome50，修改瀏覽器的User-Agent有兩種辦法：一種是安裝一個外掛——User-agent Switcher，另一種是直接修改瀏覽器的表頭（僅當前頁面有效）。

User-agent Switcher外掛：

直接修改瀏覽器的User-Agent：
Chrome修改User-Agent

PS：

就新浪微博而言，開啟一個微博使用者的個人首頁，wap站直接返回一個HTML檔案，並不需要載入JS和CSS，而且格式、編碼都很正常；而m站返回的內容格式比較混亂，用xpath解析不了（也有可能是我的程式有問題），而且使用的是Unicode編碼格式。
之前爬蟲一直在爬PC站，第一次看到m站返回來的內容時，竟有一種莫名的喜悅和衝動，哈哈。。在此特地分享出來，大家感受一下。

轉載請註明出處，謝謝！（原文連結：http://blog.csdn.net/bone_ace/article/details/50814101）

Golang福利爬蟲
2018-08-02
Golang爬蟲
新手爬蟲，教你爬掘金（二）
2019-03-03
爬蟲
教你用python爬蟲爬blibili網站彈幕！
2021-03-22
Python爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲：手把手教你寫迷你爬蟲架構
2020-07-10
Python爬蟲架構
Python爬蟲爬取美劇網站
2016-09-03
Python爬蟲網站
手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
招聘網站爬蟲模板
2020-09-20
網站爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
快上車，scrapy爬蟲飆車找福利(三)
2017-12-28
爬蟲
快上車，scrapy爬蟲飆車找福利(一)
2017-12-28
爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
爬蟲福利----妹子圖網MM批量下載
2020-01-06
爬蟲
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
爬蟲
2024-11-16
爬蟲
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
[烈格黑街][福利]第一個java爬蟲程式
2018-04-03
Java爬蟲
爬蟲專案（一）爬蟲+jsoup輕鬆爬知乎
2017-02-07
爬蟲JS
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
【python爬蟲】python爬蟲demo
2018-02-21
Python爬蟲
爬蟲那些事－爬蟲設計思路
2017-08-02
爬蟲
教你用Python爬取圖蟲網
2019-02-26
Python
如何有效防爬蟲？教你打造安全堡壘
2023-11-08
爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
爬蟲技術(二)－客戶端爬蟲
2017-03-14
爬蟲客戶端
爬蟲福利二之妹子圖網MM批量下載
2020-01-11
爬蟲

爬蟲福利：教你爬wap站

前言：

正文：

PS：

相關文章