爬蟲開發知識入門基礎（1）

Laical發表於2020-06-22

原文網址 : https://learnku.com/articles/46244

1、概述

從抓取、解析、儲存、反爬、加速五個方面介紹了利用 Python 進行網路爬蟲開發的相關知識點和技巧，介紹了不同場景下如何採取不同措施高效地進行資料抓取的方法，包括 Web 抓取、App 抓取、資料儲存、代理選購、驗證碼破解、分散式抓取及管理、智慧解析等多方面的內容，另外還結合了不同場景介紹了常用的一些工具包，全部內容是我在從事網路爬蟲研究過程以來的經驗精華總結。

爬蟲開發知識入門基礎（1）

爬取

對於爬取來說，我們需要學會使用不同的方法來應對不同情景下的資料抓取任務。

爬取的目標絕大多數情況下要麼是網頁，要麼是 App，所以這裡就分為這兩個大類別來進行了介紹。

對於網頁來說，我又將其劃分為了兩種類別，即服務端渲染和客戶端渲染，對於 App 來說，我又針對介面的形式進行了四種類別的劃分——普通介面、加密引數介面、加密內容介面、非常規協議介面。

所以整個大綱是這樣子的：

網頁爬取
服務端渲染
客戶端渲染
App 爬取
普通介面
加密引數介面
加密內容介面
非常規協議介面

爬取 / 網頁爬取

服務端渲染的意思就是頁面的結果是由伺服器渲染後返回的，有效資訊包含在請求的 HTML 頁面裡面，比如貓眼電影這個站點。客戶端渲染的意思就是頁面的主要內容由 JavaScript 渲染而成，真實的資料是通過 Ajax 介面等形式獲取的，比如淘寶、微博手機版等等站點。

爬蟲開發知識入門基礎（1）

服務端渲染的情況就比較簡單了，用一些基本的 HTTP 請求庫就可以實現爬取，如 urllib、urllib3、pycurl、hyper、requests、grab 等框架，其中應用最多的可能就是 requests 了。

對於客戶端渲染，這裡我又劃分了四個處理方法：

尋找 Ajax 介面，此種情形可以直接使用 Chrome/Firefox 的開發者工具直接檢視 Ajax 具體的請求方式、引數等內容，然後用 HTTP 請求庫模擬即可，另外還可以通過設定代理抓包來檢視介面，如 Fiddler/Charles。
模擬瀏覽器執行，此種情形適用於網頁介面和邏輯較為複雜的情況，可以直接以可見即可爬的方式進行爬取，如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等來實現。
直接提取 JavaScript 資料，此種情形適用於真實資料沒有經過 Ajax 介面獲取，而是直接包含在 HTML 結果的某個變數中，直接使用正規表示式將其提取即可。
模擬執行 JavaScript，某些情況下直接模擬瀏覽器執行效率會偏低，如果我們把 JavaScript 的某些執行和加密邏輯摸清楚了，可以直接執行相關的 JavaScript 來完成邏輯處理和介面請求，比如使用 Selenium、PyExecJS、PyV8、js2py 等庫來完成即可。

爬取 / App 爬取

對於 App 的爬取，這裡分了四個處理情況：

對於普通無加密介面，這種直接抓包拿到介面的具體請求形式就好了，可用的抓包工具有 Charles、Fiddler、mitmproxy。
對於加密引數的介面，一種方法可以實時處理，例如 Fiddler、mitmdump、Xposed 等，另一種方法是將加密邏輯破解，直接模擬構造即可，可能需要一些反編譯的技巧。
對於加密內容的介面，即介面返回結果完全看不懂是什麼東西，可以使用可見即可爬的工具 Appium，也可以使用 Xposed 來 hook 獲取渲染結果，也可以通過反編譯和改寫手機底層來實現破解。
對於非常規協議，可以使用 Wireshark 來抓取所有協議的包，或者使用 Tcpdump 來進行 TCP 資料包截獲。

爬蟲開發知識入門基礎（1）

以上便是爬取流程的相關分類和對應的處理方法。
當然爬蟲採集資料使用高質量的http代理，效果是最好的。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Python爬蟲從入門到精通系列──第1課基礎知識
2019-01-17
Python爬蟲
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
爬蟲基礎知識
2023-03-15
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
零基礎入門學習Python爬蟲必備的知識點！
2018-09-26
Python爬蟲
Altium Designer 20 入門基礎知識(1)
2020-12-04
爬蟲基礎---1
2019-01-06
爬蟲
JavaScript 基礎知識入門
2018-12-20
JavaScript
JavaScript入門①-基礎知識築基
2022-11-30
JavaScript
sql入門基礎知識分享
2019-04-01
SQL
Java入門基礎知識點
2023-04-27
Java
Python基礎知識入門（二）
2020-02-14
Python
Python入門基礎知識（二）
2020-10-14
Python
Java基礎知識入門-JDK
2021-09-28
JavaJDK
Dubbo基礎入門知識點
2020-12-19
【爬蟲】第一章-Web基礎知識
2024-04-02
爬蟲Web
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
學 Java 網路爬蟲，需要哪些基礎知識？
2021-09-09
Java爬蟲
Python入門必知的知識點！Python基礎入門
2021-07-13
Python
Python爬蟲筆記（一）——基礎知識簡單整理
2018-07-08
Python爬蟲筆記
Python入門基礎知識例項，
2018-11-24
Python
Python入門之基礎知識（一）
2020-10-13
Python
零基礎入門Java開發主要學什麼知識呢？
2021-10-20
Java
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
【WEB基礎】HTML & CSS 基礎入門（1）初識
2019-05-20
WebHTMLCSS
1、基礎知識
2024-09-27
Python快速入門之基礎知識（一）
2018-08-16
Python
Python 基礎（一）：入門必備知識
2019-11-03
Python
OpenSSL 入門：密碼學基礎知識
2020-01-23
密碼學
Android NDK入門：C++ 基礎知識
2020-02-27
AndroidC++
WebSocket系列之基礎知識入門篇
2018-03-26
Web
Python入門基礎知識學什麼?
2021-09-16
Python
Altium Designer 20 入門基礎知識(5)
2020-12-22
IPIDEA乾貨|學習爬蟲必需瞭解的基礎知識
2023-05-15
Idea爬蟲
爬蟲入門
2024-04-13
爬蟲

爬蟲開發知識入門基礎（1）

1、概述

爬取 / 網頁爬取

爬取 / App 爬取

相關文章