爬蟲入門系列（一）：快速理解 HTTP 協議

劉志軍發表於2017-04-06

爬蟲HTTP協議

4月份給自己挖一個爬蟲系列的坑，主要涉及HTTP 協議、正規表示式、爬蟲框架 Scrapy、訊息佇列、資料庫等內容。

爬蟲的基本原理是模擬瀏覽器進行 HTTP 請求，理解 HTTP 協議是寫爬蟲的必備基礎，招聘網站的爬蟲崗位也赫然寫著熟練掌握HTTP協議規範，寫爬蟲還不得不先從HTTP協議開始講起

HTTP協議是什麼？

你瀏覽的每一個網頁都是基於 HTTP 協議呈現的，HTTP 協議是網際網路應用中，客戶端（瀏覽器）與伺服器之間進行資料通訊的一種協議。協議中規定了客戶端應該按照什麼格式給伺服器傳送請求，同時也約定了服務端返回的響應結果應該是什麼格式。

只要大家都按照協議規定方式發起請求和返回響應結果，任何人都可以基於HTTP協議實現自己的Web客戶端（瀏覽器、爬蟲）和Web伺服器（Nginx、Apache等）。

HTTP 協議本身是非常簡單的。它規定，只能由客戶端主動發起請求，伺服器接收請求處理後返回響應結果，同時 HTTP 是一種無狀態的協議，協議本身不記錄客戶端的歷史請求記錄。

HTTP 協議是如何規定請求格式和響應格式的呢？換言之，客戶端按照什麼格式才能正確發起 HTTP 請求呢？服務端按照什麼格式返回響應結果客戶端才能正確解析？

HTTP 請求

HTTP 請求由3部分組成，分別是請求行、請求首部、請求體，首部和請求體是可選的，並不是每個請求都需要的。

請求行

請求行是每個請求必不可少的部分，它由3部分組成，分別是請求方法（method)、請求URL（URI）、HTTP協議版本，以空格隔開。

HTTP協議中最常用的請求方法有：GET、POST、PUT、DELETE。GET 方法用於從伺服器獲取資源，90%的爬蟲都是基於GET請求抓取資料。

請求 URL 是指資源所在伺服器的路徑地址，比如上圖的例子表示客戶端想獲取 index.html 這個資源，它的路徑在伺服器 foofish.net 的根目錄（/）下面。

請求首部

因為請求行所攜帶的資訊量非常有限，以至於客戶端還有很多想向伺服器要說的事情不得不放在請求首部（Header），請求首部用於給伺服器提供一些額外的資訊，比如 User-Agent 用來表明客戶端的身份，讓伺服器知道你是來自瀏覽器的請求還是爬蟲，是來自 Chrome 瀏覽器還是 FireFox。HTTP/1.1 規定了47種首部欄位型別。HTTP首部欄位的格式很像 Python 中的字典型別，由鍵值對組成，中間用冒號隔開。比如：

User-Agent: Mozilla/5.0複製程式碼

因為客戶端傳送請求時，傳送的資料（報文）是由字串構成的，為了區分請求首部的結尾和請求體的開始，用一個空行來表示，遇到空行時，就表示這是首部的結尾，請求體的開始。

請求體

請求體是客戶端提交給伺服器的真正內容，比如使用者登入時的需要用的使用者名稱和密碼，比如檔案上傳的資料，比如註冊使用者資訊時提交的表單資訊。

現在我們用 Python 提供的最原始API socket 模組來模擬向伺服器發起一個 HTTP 請求

with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    # 1. 與伺服器建立連線
    s.connect(("www.seriot.ch", 80))
    # 2. 構建請求行，請求資源是 index.php
    request_line = b"GET /index.php HTTP/1.1"
    # 3. 構建請求首部，指定主機名
    headers = b"Host: seriot.ch"
    # 4. 用空行標記請求首部的結束位置
    blank_line = b"\r\n"

    # 請求行、首部、空行這3部分內容用換行符分隔，組成一個請求報文字串
    # 傳送給伺服器
    message = b"\r\n".join([request_line, headers, blank_line])
    s.send(message)

    # 伺服器返回的響應內容稍後進行分析
    response = s.recv(1024)
    print(response)複製程式碼

HTTP 響應

服務端接收請求並處理後，返回響應內容給客戶端，同樣地，響應內容也必須遵循固定的格式瀏覽器才能正確解析。HTTP 響應也由3部分組成，分別是：響應行、響應首部、響應體，與 HTTP 的請求格式是相對應的。

響應行

響應行同樣也是3部分組成，由服務端支援的 HTTP 協議版本號、狀態碼、以及對狀態碼的簡短原因描述組成。

狀態碼是響應行中很重要的一個欄位。通過狀態碼，客戶端可以知道伺服器是否正常處理的請求。如果狀態碼是200，說明客戶端的請求處理成功，如果是500，說明伺服器處理請求的時候出現了異常。404 表示請求的資源在伺服器找不到。除此之外，HTTP 協議還很定義了很多其他的狀態碼，不過它不是本文的討論範圍。

響應首部

響應首部和請求首部類似，用於對響應內容的補充，在首部裡面可以告知客戶端響應體的資料型別是什麼？響應內容返回的時間是什麼時候，響應體是否壓縮了，響應體最後一次修改的時間。

響應體

響應體（body）是伺服器返回的真正內容，它可以是一個HTML頁面，或者是一張圖片、一段視訊等等。

我們繼續沿用前面那個例子來看看伺服器返回的響應結果是什麼？因為我只接收了前1024個位元組，所以有一部分響應內容是看不到的。

b'HTTP/1.1 200 OK\r\n
Date: Tue, 04 Apr 2017 16:22:35 GMT\r\n
Server: Apache\r\n
Expires: Thu, 19 Nov 1981 08:52:00 GMT\r\n
Set-Cookie: PHPSESSID=66bea0a1f7cb572584745f9ce6984b7e; path=/\r\n
Transfer-Encoding: chunked\r\n
Content-Type: text/html; charset=UTF-8\r\n\r\n118d\r\n

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\n\n
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n
<head>\n\t
    <meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" />    \n\t
    <meta http-equiv="content-language" content="en" />\n\t
...
</html>複製程式碼

從結果來看，它與協議中規範的格式是一樣的，第一行是響應行，狀態碼是200，表明請求成功。第二部分是響應首部資訊，由多個首部組成，有伺服器返回響應的時間，Cookie資訊等等。第三部分就是真正的響應體 HTML 文字。

至此，你應該對 HTTP 協議有一個總體的認識了，爬蟲的行為本質上就是模擬瀏覽器傳送HTTP請求，所以要想在爬蟲領域深耕細作，理解 HTTP 協議是必須的。

當然 HTTP 協議遠不止這麼一點內容，也根本不可能用一篇文章就試圖把它全部講清楚，我在這裡也只是拋磚引玉，想深入瞭解HTTP的，可參考「Python之禪」推薦的延伸閱讀。

延伸閱讀

《圖解HTTP》
《HTTP權威指南》
HTTP Request：https://www.w3.org/Protocols/rfc2616/rfc2616-sec5.html#sec5
HTTP Response：https://www.w3.org/Protocols/rfc2616/rfc2616-sec6.html

同步發表部落格：foofish.net/understand-…
公眾號：Python之禪 (id:VTtalk)，分享 Python 等技術乾貨

Http協議入門
2018-08-07
HTTP協議
python爬蟲基礎與http協議
2019-03-25
Python爬蟲HTTP協議
Python 爬蟲十六式 - 第一式：HTTP協議
2019-01-05
Python爬蟲HTTP協議
Python 爬蟲十六式 – 第一式：HTTP協議
2019-03-02
Python爬蟲HTTP協議
Http網路協議包 (快速理解)
2020-12-06
HTTP協議
爬蟲入門(HTTP和HTTPS)
2018-12-09
爬蟲HTTP
HTTP協議_入門知識
2018-08-14
HTTP協議
理解http協議
2019-01-18
HTTP協議
Python網路爬蟲實戰(一)快速入門
2019-09-16
Python爬蟲
Python3 爬蟲快速入門攻略
2018-12-07
Python爬蟲
詳解前端HTTP協議入門教程
2018-06-07
前端HTTP協議
深入理解 HTTP 協議
2018-09-22
HTTP協議
快速認識HTTP協議
2019-08-26
HTTP協議
爬蟲快速入門——Get請求的使用
2020-10-25
爬蟲
爬蟲入門
2024-04-13
爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
快速讀懂 HTTP/3 協議
2021-02-19
HTTP協議
Python爬蟲入門
2020-11-30
Python爬蟲
Protobuf協議逆向解析-APP爬蟲
2018-03-04
協議APP爬蟲
網路篇 - http協議從入門到精通
2019-01-22
HTTP協議
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
非同步爬蟲之理解協程
2024-05-05
非同步爬蟲
爬蟲入門第一章
2020-10-18
爬蟲
課時6.HTTP協議（理解）
2018-06-07
HTTP協議
[HTTP 系列] 第 2 篇 —— HTTP 協議那些事
2019-05-06
HTTP協議
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
python-爬蟲入門
2024-09-22
Python爬蟲
深入理解 web 協議(一)- http 包體傳輸
2019-10-21
Web協議HTTP
Python3網路爬蟲快速入門實戰解析
2020-04-23
Python爬蟲
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
Java爬蟲入門(一)——專案介紹
2018-08-06
Java爬蟲
從效能角度幫你理解HTTP協議
2021-06-08
HTTP協議
深入理解 Web 協議 (三)：HTTP 2
2021-02-23
Web協議HTTP
快速理解網路通訊協議
2018-05-19
協議
webpack 快速入門系列 —— 實戰一
2021-05-16
Web
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲