現在的網際網路時代，各種資料收集都離不開爬蟲的幫助，但爬蟲是如何工作的呢？

簡單來說網際網路是由一個個站點和網路裝置組成的大網，我們透過瀏覽器訪問站點，站點把HTML、JS、CSS程式碼返回給瀏覽器，這些程式碼經過瀏覽器解析、渲染，將豐富多彩的網頁呈現我們眼前。

一：爬蟲是什麼？

如果我們把網際網路比作一張大的蜘蛛網，資料便是存放於蜘蛛網的各個節點，而爬蟲就是一隻小蜘蛛，

沿著網路抓取自己的獵物（資料）爬蟲指的是：向網站發起請求，獲取資源後分析並提取有用資料的程式；

從技術層面來說就是透過程式模擬瀏覽器請求站點的行為，把站點返回的HTML程式碼/JSON資料/二進位制資料（圖片、影片）爬到本地，進而提取自己需要的資料，存放起來使用；

二：爬蟲的工作流程

使用者獲取網路資料的方式：

方式1：瀏覽器提交請求--->下載網頁程式碼--->解析成頁面

方式2：模擬瀏覽器傳送請求(獲取網頁程式碼)->提取有用的資料->存放於資料庫或檔案中

爬蟲要做的就是方式；

1、發起請求

使用http庫向目標站點發起請求，即傳送一個Request

Request包含：請求頭、請求體等

Request模組缺陷：不能執行JS 和CSS 程式碼

2、獲取響應內容

如果伺服器能正常響應，則會得到一個Response

Response包含：html，json，圖片，影片等

3、解析內容

解析html資料：正規表示式（RE模組），第三方解析庫如Beautifulsoup，pyquery等

解析json資料：json模組

解析二進位制資料:以wb的方式寫入檔案

4、儲存資料

資料庫（MySQL，Mongdb、Redis）

三：http協議請求與響應

Request：使用者將自己的資訊透過瀏覽器（socket client）傳送給伺服器（socket server）

Response：伺服器接收請求，分析使用者發來的請求資訊，然後返回資料（返回的資料中可能包含其他連結，如：圖片，js，css等）

ps：瀏覽器在接收Response後，會解析其內容來顯示給使用者，而爬蟲程式在模擬瀏覽器傳送請求然後接收Response後，是要提取其中的有用資料。

四：總結

1：爬取流程

爬取--->解析--->儲存

2：爬蟲所需工具

請求庫：requests,selenium（可以驅動瀏覽器解析渲染CSS和JS，但有效能劣勢（有用沒用的網頁都會載入）；）

解析庫：正則，beautifulsoup，pyquery

儲存庫：檔案，MySQL，Mongodb，Redis

海外HTTP代理：眾所周知做爬蟲都是需要大量的海外真實住宅IP地址，所以選擇一款好的海外http代理也很重要，這裡推薦我一直作為爬蟲使用的Smartproxy，

Smartproxy是海外HTTP代理伺服器提供商，IP可以精準定位城市級，每個月都會更新IP池，一手IP，服務於大資料採集領域幫助企業/個人快速高效獲取資料來源。

用海外HTTP代理爬取海外資料的原理是什麼？

相關文章