爬蟲必備工具，掌握它就解決了一半的問題

Crossin先生發表於2018-07-18

網上爬蟲的教程實在太多了，知乎上搜一下，估計能找到不下一百篇。大家樂此不疲地從網際網路上抓取著一個又一個網站。但只要對方網站一更新，很可能文章裡的方法就不再有效了。

每個網站抓取的程式碼各不相同，不過背後的原理是相通的。對於絕大部分網站來說，抓取的套路就那麼一些。今天這篇文章不談任何具體網站的抓取，只來說一個共性的東西：

如何通過 Chrome 開發者工具尋找一個網站上特定資料的抓取方式。

（我這裡演示的是 Mac 上的英文版 Chrome，Windows 中文版的使用方法是一樣的。）

> 檢視網頁原始碼

在網頁上右擊滑鼠，選擇“檢視網頁原始碼”（View Page Source），就會在新標籤頁中顯示這個 URL 對應的 HTML 程式碼文字。

此功能並不算是“開發者工具”一部分，但也很常用。這個內容和你直接通過程式碼向此 URL 傳送 GET 請求得到的結果是一樣的（不考慮許可權問題）。如果在這個原始碼頁面上可以搜尋到你要內容，則可以按照其規則，通過正則、bs4、xpath 等方式對文字中的資料進行提取。

不過，對於很多非同步載入資料的網站，從這個頁面上並不能搜到你要的東西。或者因為許可權、驗證等限制，程式碼中獲取到的結果和頁面顯示不一致。這些情況我們就需要更強大的開發者工具來幫忙了。

在網頁上右擊滑鼠，選擇“審查元素”（Inspect），可進入 Chrome 開發者工具的元素選擇器。在工具中是 Elements 標籤頁。

Elements 有幾個功能：

從 Elements 工具裡定位資料比我們前面直接在原始碼中搜尋要方便，因為你可以清楚看到它所處的元素結構。但這邊特別提醒的是：

Elements 裡看到的程式碼不等於請求網址拿到的返回值。

它是網頁經過瀏覽器渲染後最終呈現出的效果，包含了非同步請求資料，以及瀏覽器自身對於程式碼的優化改動。所以，你並不能完全按照 Elements 裡顯示的結構來獲取元素，那樣的話很可能得不到正確的結果。

在開發者工具裡選擇 Network 標籤頁就進入了網路監控功能，也就是常說的“抓包”。

這是爬蟲所用到的最重要功能。它主要解決兩個問題：

抓什麼，是指對於那些通過非同步請求獲取到的資料，如何找到其來源。

開啟 Network 頁面，開啟記錄，然後重新整理頁面，就可以看到發出的所有請求，包括資料、JS、CSS、圖片、文件等等都會顯示其中。從請求列表中可以尋找你的目標。

一個個去找會很痛苦。分享幾個小技巧：

找到包含資料的請求之後，接下來就是用程式獲取資料。這時就是第二個問題：怎麼抓。

並不是所有 URL 都能直接通過 GET 獲取（相當於在瀏覽器裡開啟地址），通常還要考慮這幾樣東西：

請求方法，是 GET 還是 POST。
請求附帶的引數資料。GET 和 POST 傳遞引數的方法不一樣。
Headers 資訊。常用的包括 user-agent、host、referer、cookie 等。其中 cookie 是用來識別請求者身份的關鍵資訊，對於需要登入的網站，這個值少不了。而另外幾項，也經常會被網站用來識別請求的合法性。同樣的請求，瀏覽器裡可以，程式裡不行，多半就是 Headers 資訊不正確。你可以從 Chrome 上把這些資訊照搬到程式裡，以此繞過對方的限制。

點選列表中的一個具體請求，上述資訊都可以找到。