大話爬蟲的基本套路薦

SFLYQ發表於2017-10-09

原文網址 : https://flycode.co/archives/257732

什麼是爬蟲？

網路爬蟲也叫網路蜘蛛，如果把網際網路比喻成一個蜘蛛網，那麼蜘蛛就是在網上爬來爬去的蜘蛛，爬蟲程式通過請求url地址，根據響應的內容進行解析採集資料，
比如：如果響應內容是html，分析dom結構，進行dom解析、或者正則匹配，如果響應內容是xml/json資料，就可以轉資料物件，然後對資料進行解析。

有什麼作用？

通過有效的爬蟲手段批量採集資料，可以降低人工成本，提高有效資料量，給予運營/銷售的資料支撐，加快產品發展。

業界的情況

目前網際網路產品競爭激烈，業界大部分都會使用爬蟲技術對競品產品的資料進行挖掘、採集、大資料分析，這是必備手段，並且很多公司都設立了爬蟲工程師的崗位

合法性

爬蟲是利用程式進行批量爬取網頁上的公開資訊，也就是前端顯示的資料資訊。因為資訊是完全公開的，所以是合法的。其實就像瀏覽器一樣，瀏覽器解析響應內容並渲染為頁面，而爬蟲解析響應內容採集想要的資料進行儲存。

反爬蟲

爬蟲很難完全的制止，道高一尺魔高一丈，這是一場沒有硝煙的戰爭，碼農VS碼農
反爬蟲一些手段：

合法檢測：請求校驗(useragent，referer，介面加簽名，等)
小黑屋：IP/使用者限制請求頻率，或者直接攔截
投毒：反爬蟲高境界可以不用攔截，攔截是一時的，投毒返回虛假資料，可以誤導競品決策
… …

爬蟲基本套路

基本流程
- 目標資料
- 來源地址
- 結構分析
- 實現構思
- 操刀編碼
基本手段
- 破解請求限制
  - 請求頭設定，如：useragant為有效客戶端
  - 控制請求頻率(根據實際情景)
  - IP代理
  - 簽名/加密引數從html/cookie/js分析
- 破解登入授權
  - 請求帶上使用者cookie資訊
- 破解驗證碼
  - 簡單的驗證碼可以使用識圖讀驗證碼第三方庫
解析資料
- HTML Dom解析
  - 正則匹配，通過的正規表示式來匹配想要爬取的資料，如：有些資料不是在html 標籤裡，而是在html的script 標籤的js變數中
  - 使用第三方庫解析html dom，比較喜歡類jquery的庫
- 資料字串
  - 正則匹配(根據情景使用)
  - 轉 JSON/XML 物件進行解析

python爬蟲

python寫爬蟲的優勢
- python語法易學，容易上手
- 社群活躍，實現方案多可參考
- 各種功能包豐富
- 少量程式碼即可完成強大功能
涉及模組包
- 請求
  - urllib
  - urllib2
  - cookielib
- 多執行緒
  - threading
- 正則
  - re
- json解析
  - json
- html dom解析
  - pyquery
  - beautiful soup
- 操作瀏覽器
  - selenium

例項解析

鬥魚主播排行

目標資料
- 獲取排行榜主播資訊
來源地址
- [排行榜地址]
  - https://www.douyu.com/directory/rank_list/game
- [主播房間地址]
  - https://www.douyu.com/xxx
    - xxx=房間號
結構分析
- 通過抓包 [排行榜地址]，[主播房間地址] （谷歌除錯network/charles/fiddler）
  - 獲得排行資料介面：https://www.douyu.com/directory/rank_list/game
    - 引數確認(去掉不必要引數)
    - cookie確認(去掉不必要cookie)
    - 模擬請求(charles/fiddler/postman)
  - 獲得主播房間資訊資料
    - 發現$ROOM是主播房間資訊，在頁面的script標籤的js變數中，可使用正則工具寫表示式去匹配
實現構思
- 通過請求 [主播排行介面] 獲取 [排行榜資料]
- [排行榜資料] 中有主播房間號，可以通過拼接獲得 [主播房間地址]
- 請求 [主播房間地址] 可以獲得 [$ROOM資訊] ，解析可以獲得主播房間資訊
操刀編碼

申明：此例子僅作為爬蟲學習DEMO，並無其他利用

基於python實現爬蟲學習基礎demo

def douyu_rank(rankName, statType):
    ```
        鬥魚主播排行資料抓取
        [資料地址](https://www.douyu.com/directory/rank_list/game)

        * `rankName` anchor(巨星主播榜),fans(主播粉絲榜),haoyou(土豪實力榜),user(主播壕友榜)
        * `statType` day(日),week(周),month(月)
    ```
    if not isinstance(rankName, ERankName):
        raise Exception("rankName 型別錯誤，必須是ERankName列舉")
    if not isinstance(statType, EStatType):
        raise Exception("statType 型別錯誤，必須是EStatType列舉")

    rankName = `%sListData` % rankName.name
    statType = `%sListData` % statType.name
    # 請求獲取html原始碼 
    rs = rq.get(
        "https://www.douyu.com/directory/rank_list/game",
        headers={`User-Agent`: `Mozilla/5.0`})
    # 正則解析出資料
    mt = re.search(r`rankListDatas+?=(.*?);`, rs, re.S)
    if (not mt):
        print u"無法解析rankListData資料"
        return
    grps = mt.groups()
    # 資料轉json
    rankListDataStr = grps[0]
    rankListData = json.loads(rankListDataStr)
    dayList = rankListData[rankName][statType]
    # 修改排序
    dayList.sort(key=lambda k: (k.get(`id`, 0)), reverse=False)
    return dayList


def douyu_room(romm_id):
    ```
        主播房間資訊解析
        [資料地址](https://www.douyu.com/xxx)
        `romm_id` 主播房號
    ```
    rs = rq.get(
        ("https://www.douyu.com/%s" % romm_id),
        headers={`User-Agent`: `Mozilla/5.0`})
    mt = re.search(r`$ROOMs+?=s+?({.*?});`, rs, re.S)
    if (not mt):
        print u"無法解析ROOM資料"
        return
    grps = mt.groups()
    roomDataStr = grps[0]
    roomData = json.loads(roomDataStr)
    return roomData

def run():
    ```
        測試爬蟲
    ```
    datas = douyu_rank(ERankName.anchor, EStatType.month)
    print `
主播排行榜：`
    for item in datas:
        room_id = item[`room_id`]
        roomData = douyu_room(room_id)
        rommName = None
        if roomData is not None:
            rommName = roomData[`room_name`]
        roomInfo = (u`房間(%s):%s` % (item[`room_id`], rommName))
        print item[`id`], item[
            `nickname`], roomInfo, `[` + item[`catagory`] + `]`


run()

執行結果：

主播排行榜：

無法解析ROOM資料
1 馮提莫 房間(71017):None [英雄聯盟]
2 阿冷aleng丶 房間(2371789):又是我最喜歡的阿冷ktv時間～ [英雄聯盟]
3 勝哥002 房間(414818):勝哥：南通的雨下的我好心累。 [DNF]
4 White55開解說 房間(138286):盧本偉五五開 每天都要很強 [英雄聯盟]
5 東北大鵪鶉 房間(96291):東北大鵪鶉 宇宙第一寒冰 相聲藝術家！ [英雄聯盟]
6 老實敦厚的笑笑 房間(154537):德雲色 給兄弟們賠個不是 [英雄聯盟]
7 劉飛兒faye 房間(265438):劉飛兒  月底吃雞 大吉大利 [絕地求生]
8 pigff 房間(24422):【PIGFF】借基地直播，沒OW [守望先鋒]
9 雲彩上的翅膀 房間(28101):翅：還是抽天空套刺激！ [DNF]
10 yyfyyf 房間(58428):無盡的9月，殺 [DOTA2]

# 馮提莫 房間做週年主題，解析會有問題

Demo原始碼地址

Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
基本的爬蟲工作原理
2023-11-24
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
爬蟲基本原理及urllib庫的基本使用
2019-03-21
爬蟲
Python爬蟲之Selenium庫的基本使用
2018-11-30
Python爬蟲
爬蟲 | 處理cookie的基本方法——session
2024-06-12
爬蟲CookieSession
爬蟲需要代理IP的基本要求
2021-09-11
爬蟲
【推薦】最高效的Python爬蟲框架！
2021-05-25
Python爬蟲框架
爬蟲基本功就這？早知道幹爬蟲了
2020-11-21
爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
Python相關爬蟲的框架有哪些?五大框架推薦！
2021-02-26
Python爬蟲框架
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python2爬蟲利器：requests庫的基本用法
2021-09-11
Python爬蟲
Beautiful Soup在爬蟲中的基本使用語法
2020-12-01
爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
網路爬蟲技術是什麼，網路爬蟲的基本工作流程是什麼？
2019-03-03
爬蟲
python爬蟲—基本的模組，你一定要懂！！
2019-02-13
Python爬蟲
Python爬蟲進階之代理的基本原理
2021-09-11
Python爬蟲
推薦13個.Net開源的網路爬蟲
2018-05-06
爬蟲
Python爬蟲的框架有哪些？推薦這五個！
2021-05-07
Python爬蟲框架
Python爬蟲進階之會話和Cookies
2021-09-11
Python爬蟲會話Cookie
【爬蟲】第二章-基本請求庫
2024-04-05
爬蟲
網路爬蟲基本原理詳解
2022-07-08
爬蟲
爬蟲代理IP的三大作用
2022-05-21
爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
爬蟲 | 基本步驟和解析網頁的幾種方法
2024-06-05
爬蟲網頁
Python爬蟲，推薦一條高效的學習路徑
2019-02-28
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
大規模非同步新聞爬蟲：簡單的百度新聞爬蟲
2018-12-02
非同步爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
如何學習 Python 包並實現基本的爬蟲過程
2023-11-28
Python爬蟲