3款你必須知道的爬蟲工具

Python資料科學發表於2018-05-03

作者:xiaoyu

微信公眾號:Python資料科學

知乎:資料分析師


本篇博主將和大家分享幾個非常有用的爬蟲小工具,這些小工具在實際的爬蟲的開發中會大大減少你的時間成本,並同時提高你的工作效率,真的是非常實用的工具。

這些工具其實是Google上的外掛,一些擴充套件程式,並且經博主親測,無任何問題。最後的最後,博主將提供小工具的獲取方式。

3款你必須知道的爬蟲工具

好了,話不多說,我們來介紹一下。

JSON-handle

1. 解讀:

我們前面提到過,當客戶端向伺服器端提出<ajax>非同步請求(比如 <xhr>)時,會在響應裡返回 <json> 格式的資料。

在開發者工具中,我們會看到 <json> 格式資料的視覺化效果很差,就是一段冗長的字串,難以直接看出關鍵資訊。

那麼為了直接有效的找到關鍵資訊,<JSON-handle>工具會將繁雜的 <json> 格式資料變成簡單清晰的樹狀圖,極大的提高視覺化效果。

2. 使用說明:

方法很簡單,如果你已經安裝好了小工具,點開圖示彈出框框,把<json>資料複製進去即可。

3款你必須知道的爬蟲工具

當然,你也可以把從任意地方拿來的<json>資料放進去,不侷限於瀏覽器非同步響應。

3. 例項:

就以<天貓網站>為例,隨便找出一個非同步的請求,response是下面這樣的。

jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【搶券減400】Apple/蘋果iPhone X 全網通4G智慧手機蘋果10 蘋果X","typ.......
複製程式碼

把程式碼放進框框裡,點選OK,就變成下面這樣了數(據比較長,只擷取一部分)。

3款你必須知道的爬蟲工具

User-Agent Switcher

1. 解讀:

上篇解讀爬蟲中HTTP的祕密(基礎篇)我們介紹了請求頭,而這個工具就是針對請求頭中的User-Agent欄位的。它的作用是可以隨意更換瀏覽器的User-Agent。

比如,你用Chrome瀏覽器瀏覽網頁,瀏覽器預設身份Chrome,但是你可以通過這個工具更換成其它任何身份。

這個最大的好處就是可以直接更換成手機身份瀏覽網頁,而不必用開發者工具來回切換。

2. 使用說明:

使用Chrome瀏覽器安裝外掛,點開圖示,選擇你需要的身份即可。

3款你必須知道的爬蟲工具

3. 例項:

(預設Chrome瀏覽器是這樣的)

3款你必須知道的爬蟲工具

3款你必須知道的爬蟲工具

(變換為IOS-iphone6)

3款你必須知道的爬蟲工具

3款你必須知道的爬蟲工具

Xpath-Helper

1. 解讀:

針對Xpath解析方法,Xpath-Helper可提供當前網頁指定Xpath語句的查詢結果。

2. 使用說明:

點開圖示,出現黑色框框。

  • QUERY:Xpath語句
  • RESULTS:查詢結果

3款你必須知道的爬蟲工具

3. 例項:

1.假設目標為二維碼下的<百度>二字

3款你必須知道的爬蟲工具

2.開發者工具找到原始碼相應位置,右鍵copy xpath

3款你必須知道的爬蟲工具

3.複製到QUERY裡面,結果自動出來

3款你必須知道的爬蟲工具

Xpath-Helper小工具安裝後需要重啟Chrome方可使用,請大家注意一下這個坑。

安裝方法

  1. 下載Chrome瀏覽器
  2. 下載小工具外掛
  3. 開啟Chrome更多工具—>擴充套件程式
  4. 拖動小工具外掛程式<.crx>到擴充套件程式裡
  5. 安裝

安裝完成後,右上角會有三個小圖示:

3款你必須知道的爬蟲工具

獲取方式

獲取方式很簡單,關注公眾號<Python資料科學>,傳送<爬蟲小工具>,即可得到下載連結和密碼。 希望對大家有幫助,更多精彩敬請期待!


關注微信公眾號Python資料科學,獲取 120G 人工智慧 學習資料。

3款你必須知道的爬蟲工具

3款你必須知道的爬蟲工具

相關文章