爬蟲基礎

X__發表於2019-03-30

基本流程:

Request ——> Response ——> 解析 ——> 儲存

HTTP Request:

瀏覽器傳送資訊給該網址所在的伺服器

1.請求方式: 主要型別是GET,OST兩種,另外還有HEAD、PUT、DELETE等

2.請求 URL:URL 全稱是統一資源定位符,也就是我們說的網址。

3.請求頭:包含請求時的頭部資訊,User-Agent,Host,Cookies等

4.請求體:請求額外攜帶的資料

請求引數會顯示在URL連結的後面

HTTP Response:

1.響應狀態:有多種響應狀態,比如200代表成功,301 跳轉頁面,404 表示找不到頁面,502 表示伺服器錯誤;

2.響應頭(Response Headers):比如內容型別,內容長度,伺服器資訊,設定Cookie等;

3.響應體:響應體最主要的部分,包含了請求資源的內容,比如網頁 HTML 程式碼,圖片二進位制資料等。

相關文章