- HTTP結構圖
- HTTP結構之請求篇
(1)組成
http請求報文由三部分組成,分別是:請求行(請求頭)、訊息報頭、請求正文。
- 請求頭(請求行)以一個方法符號開頭,以空格分開,後面跟著請求的URI和協議的版本,格式如下:
Method Request-URI HTTP-Version CRLF
其中 Method表示請求方法;Request-URI是一個統一資源識別符號;HTTP-Version表示請求的HTTP協議版本;CRLF表示回車和換行(除了作為結尾的CRLF外,不允許出現單獨的CR或LF字元)。請求方法如下:
- 請求正文(實體主體):一般不用
(2)請求報文的例子
GET /chn/yxsz/index.htm HTTP/1.1 /*請求行使用相對URL*/
Host:www.tsinghua.edu.cn /*此行為首部行的開始,給出主機的域名*/
Connection:close /*告訴伺服器傳送完請求的文件可釋放連線*/
user-Agent:Mozilla/5.0 /*表明使用者代理是使用Netscape瀏覽器*/
Accept-Language:cn /*表示使用者希望優先得到中文版本的文件*/
複製程式碼
(3)HTTP請求過程(從URL輸入到頁面展現發生什麼?)
a.域名解析(瀏覽器通過向 DNS 伺服器傳送域名,DNS 伺服器查詢(查詢快取)到與域名相對應的 IP 地址,然後返回給瀏覽器,瀏覽器再將 IP 地址打在協議上,同時請求引數也會在協議搭載,然後一併傳送給對應的伺服器)
- 查詢瀏覽器快取(DNS快取)
- 查詢作業系統快取(如果瀏覽器快取沒有,瀏覽器會從hosts檔案查詢是否有DNS資訊)
- 查詢路由快取
- 查詢ISP快取
- 查詢ISP快取ISP 是網際網路服務提供商(Internet Service Provider)的簡稱,ISP 有專門的 DNS 伺服器應對 DNS 查詢請求
- 根伺服器:ISP 的 DNS 伺服器還找不到的話,它就會向根伺服器發出請求,進行遞迴查詢(DNS 伺服器先問根域名伺服器.com 域名伺服器的 IP 地址,然後再問.baidu 域名伺服器,依次類推)
b.發起TCP的3次握手(瀏覽器獲得對應的ip地址後,瀏覽器與遠端Web
伺服器通過TCP
三次握手協商來建立一個TCP/IP
連線。)
c.建立TCP連線後傳送HTTP請求報文
d.伺服器處理請求,並返回HTTP響應報文
e.瀏覽器解析,渲染,並繪製到網頁
- 根據 HTML 解析出 DOM 樹
- 根據 CSS 解析生成 CSS 規則樹
- 結合 DOM 樹和 CSS 規則樹,生成渲染樹
- 根據渲染樹計算每一個節點的資訊
- 根據計算好的資訊繪製頁面
f. 斷開連線(TCP 四次揮手)
- HTTP結構之響應篇
(1)組成
在接收和解釋請求訊息後,伺服器返回一個HTTP響應訊息。HTTP響應也是由三個部分組成,分別是:狀態行、訊息報頭、響應正文
- 狀態行包括狀態碼,協議版本,狀態碼描述;(狀態行格式如下:
HTTP-Version Status-Code Reason-Phrase CRLF
複製程式碼
其中,HTTP-Version表示伺服器HTTP協議的版本;Status-Code表示伺服器發回的響應狀態程式碼;Reason-Phrase表示狀態程式碼的文字描述
a. 1XX(資訊響應類,表示接受的請求正在處理)
b. 2XX(處理成功類,表示請求已被成功接收、理解、接受)
200 OK //客戶端請求成功 ,請求被成功處理,伺服器會根據不同的請求方法返回結果:
GET:請求的對應資源會作為響應返回。
HEAD:請求的對應資源的響應頭(entity-header)會作為響應返回,不包括響應體(message-body)
POST:返回處理對應請求的結果。
複製程式碼
204 No Content //該狀態碼錶示伺服器接收到的請求已經處理完畢,但是伺服器不需要返回響應體.比如,客戶端是瀏覽器的話,發出的請求返回204響應,那麼瀏覽器顯示的頁面不會發生更新。
206 Partial Content //該狀態碼錶示客戶端進行了範圍請求,而伺服器成功執行了這部分的GET請求。客戶端發起的請求,必須在請求頭中包含Range欄位。服務端響應報文中,必須包含由Content-Range指定範圍的實體內容(entity-bodies )
c. 3XX(重定向響應類,表示需要客戶端需要進行附加操作)
301 Moved Permanently // 永久重定向 該狀態碼錶示請求的資源已經被分配了新的URI,並且以後使用資源現在所指的URI。並且根據請求的方法有不同的處理方式:
HEAD:必須在響應頭部Location欄位中指明新的永久性的URI。
GET:除了有Location欄位以外,還需要在響應體中附上永久性URI的超連結文字。
POST:客戶端在傳送POST請求,受到301響應之後,不應該自動跳轉URI,應當讓使用者確認跳轉。
複製程式碼
302 Found // 臨時重定向,該狀態碼錶示請求的資源已被分配了新的URI,希望使用者本次能使用新的URI訪問 和301 Moved Permanently 狀態碼相似,但302狀態碼代表的資源不是被永久移動,只是臨時性質的。如果,使用者把一個URI收藏為書籤,302響應是不會像301那樣去更新書籤。
303 See Other //臨時重定向,該狀態碼錶示由於請求對應的資源存在另一個URI,應使用GET方法定向獲取請求的資源。303與302不同之處在於,302是不會改變請求的方法,如果請 求方法是POST的話,重定向的請求也應該是POST。而對於303,使用POST請求的話,重定向的請求應該是GET請求。
304 Not Modified //資源找到但是不符合請求條件 該狀態碼錶示客戶端傳送附帶條件請求時,伺服器端允許請求訪問資源,但未滿足條件的情況。304狀態碼返回時,不包含任何響應的主題部分。附帶條件的請求指的是採用GET方法的請求頭中包含:If-Match、If-Modified-Since、If-None-Match、If-Range、If-Unmodified-Since中任一首部。
307 Temporary Redirect //臨時重定向。該狀態碼與302和303的有著類似的含義,不同之處在於,307狀態碼並不會指定客戶端要用什麼樣的請求方法請求重定向地址。(302指定使用原有請求方法,303指定使用GET方法)
d. 4XX(客戶端錯誤,請求有語法錯誤或請求無法實現)
400 Bad Request //錯誤請求 客表示該請求報文中存在語法錯誤,導致伺服器無法理解該請求。客戶端需要修改請求的內容後再次傳送請求。
401 Unauthorized //請求未授權 該狀態碼錶示傳送的請求需要有通過HTTP認證(Basic認證,Digest認證)的認證資訊。返回含有401的響應,必須在頭部包含WWW-Authenticate以指明伺服器需要哪種方式的認證。
403 Forbidden //拒絕 該狀態碼錶明對請求資源的訪問被伺服器拒絕了。伺服器沒有必要給出拒絕的詳細理由,但如果想做說明的話,可以在實體的主體部分原因進行描述,這樣就能讓使用者看到了。未獲得檔案系統的訪問許可權,訪問許可權出現某些問題,從未授權的傳送源IP地址試圖訪問等情況都可能發生403響應
404 Not Found //未找到 該狀態碼錶明伺服器上無法找到指定的資源。通常被用於伺服器不想透露拒絕請求的原因,或者沒有其他的響應可提供。
405 //方法禁用 禁用請求中指定的方法
e. 5XX(服務端錯誤,伺服器處理請求出錯 )
500 Internal Server Error //伺服器內部錯誤 該狀態碼錶明伺服器端在執行請求時發生了錯誤。也有可能是Web應用存在的BUG或某些臨時的故障。
501 //尚未實施 伺服器不具備完成請求的功能。 例如,伺服器無法識別請求方法時可能會返回此程式碼。
502 //錯誤閘道器 伺服器作為閘道器或代理,從上游伺服器收到無效響應。
503 Service Unavailable //服務不可用 狀態碼錶明伺服器暫時處於超負載或正在進行停機維護,現在無法處理請求。如果事先得知解除以上需要的時間,最好寫入Retry-After首部欄位再返回給客戶端。
504 //閘道器超時 伺服器作為閘道器或代理,但是沒有及時從上游伺服器收到請求
- HTTP結構之訊息報文(HTTP協議頭)篇
(1)組成
HTTP訊息由客戶端到伺服器的請求和伺服器到客戶端的響應組成。請求訊息和響應訊息都是由開始行(對於請求訊息,開始行就是請求行,對於響應訊息,開始行就是狀態行),訊息報頭(可選),空行(只有CRLF的行),訊息正文(可選)組成。 HTTP訊息報頭包括普通報頭、請求報頭、響應報頭、實體報頭。 每一個報頭域都是由名字+“:”+空格+值 組成,訊息報頭域的名字是大小寫無關的。
- 普通報頭
在普通報文頭中,有少數報頭域用於所有的請求和響應訊息,但並不用於被傳輸的實體,只用於傳輸的訊息。
常用的普通報頭
a. Cache-Control:用於指定快取指令,快取指令是單向的(響應中出現的快取指令在請求中未必會出現),且是獨立的(一個訊息的快取指令不會影響另一個訊息處理的快取機制),HTTP1.0使用的類似的報頭域為Pragma。
b. Date:普通報頭域表示訊息產生的日期和時間
c. Connection:普通報頭域允許傳送指定連線的選項。例如指定連線是連續,或者指定“close”選項,通知伺服器,在響應完成後,關閉連線
- 請求報頭
請求報頭允許客戶端向伺服器端傳遞請求的附加資訊以及客戶端自身的資訊。
常用的請求報頭
a.Accept
Accept請求報頭域用於指定客戶端接受哪些型別的資訊。eg:Accept:image/gif,表明客戶端希望接受GIF圖象格式的源;
Accept:text/html,表明客戶端希望接受html文字
b.Accept-Charset
Accept-Charset請求報頭域用於指定客戶端接受的字符集。
eg:Accept-Charset:iso-8859-1,gb2312
如果在請求訊息中沒有設定這個域,預設是任何字符集都可以接受。
c.Accept-Encoding
Accept-Encoding請求報頭域類似於Accept,但是它是用於指定可接受的內容編碼。eg:Accept-Encoding:gzip,deflate
如果請求訊息中沒有設定這個域伺服器假定客戶端對各種內容編碼都可以接受。
d.Accept-Language
Accept-Language請求報頭域類似於Accept,但是它是用於指定一種自然語言。eg:Accept-Language:zh-cn
如果請求訊息中沒有設定這個報頭域,伺服器假定客戶端對各種語言都可以接受。
e.Authorization
Authorization請求報頭域主要用於證明客戶端有權檢視某個資源。當瀏覽器訪問一個頁面時,如果收到伺服器的響應程式碼為401(未授權),可以傳送一個包含Authorization請求報頭域的請求,要求伺服器對其進行驗證。
f.Host(傳送請求時,該報頭域是必需的)
Host請求報頭域主要用於指定被請求資源的Internet主機和埠號,它通常從HTTP URL中提取出來的,eg:我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
;瀏覽器傳送的請求訊息中,就會包含Host請求報頭域,如下:
Host:www.guet.edu.cn
此處使用預設埠號80,若指定了埠號,則變成:Host:www.guet.edu.cn:指定埠號
g.User-Agent
User-Agent請求報頭域允許客戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。 請求報頭舉例:
GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)
(CRLF)
複製程式碼
- 響應報頭
響應報頭允許伺服器傳遞不能放在狀態行中的附加響應資訊,以及關於伺服器的資訊和對Request-URI所標識的資源進行下一步訪問的資訊。
常用的響應報頭
a. Location
Location響應報頭域用於重定向接受者到一個新的位置。Location響應報頭域常用在更換域名的時候。
b.Server
Server響應報頭域包含了伺服器用來處理請求的軟體資訊。與User-Agent請求報頭域是相對應的。下面是
Server響應報頭域的一個例子:
Server:Apache-Coyote/1.1
WWW-Authenticate
WWW-Authenticate響應報頭域必須被包含在401(未授權的)響應訊息中,客戶端收到401響應訊息時候,併傳送Authorization報頭域請求伺服器對其進行驗證時,服務端響應報頭就包含該報頭域。
eg:WWW-Authenticate:Basic realm="Basic Auth Test!"
//可以看出伺服器對請求資源採用的是基本驗證機制。
- 實體報頭
請求和響應訊息都可以傳送一個實體。一個實體由實體報頭域和實體正文組成,但並不是說實體報頭域和實體正文要在一起傳送,可以只傳送實體報頭域。實體報頭定義了關於實體正文(eg:有無實體正文)和請求所標識的資源的元資訊。
常用的實體報頭
a. Content-Encoding
Content-Encoding實體報頭域被用作媒體型別的修飾符,它的值指示了已經被應用到實體正文的附加內容的編碼,因而要獲得Content-Type報頭域中所引用的媒體型別,必須採用相應的解碼機制。Content-Encoding這樣用於記錄文件的壓縮方法,eg:Content-Encoding:gzip
b. Content-Language
Content-Language實體報頭域描述了資源所用的自然語言。沒有設定該域則認為實體內容將提供給所有的語言閱讀
者。eg:Content-Language:da
c.Content-Length
Content-Length實體報頭域用於指明實體正文的長度,以位元組方式儲存的十進位制數字來表示。
d. Content-Type
Content-Type實體報頭域用語指明傳送給接收者的實體正文的媒體型別。eg:
Content-Type:text/html;charset=ISO-8859-1
Content-Type:text/html;charset=GB2312
複製程式碼
e. Last-Modified
Last-Modified實體報頭域用於指示資源的最後修改日期和時間。
f. Expires
Expires實體報頭域給出響應過期的日期和時間。為了讓代理伺服器或瀏覽器在一段時間以後更新快取中(再次訪問曾訪問過的頁面時,直接從快取中載入,縮短響應時間和降低伺服器負載)的頁面,我們可以使用Expires實體報頭域指定頁面過期的時間。eg:Expires:Thu,15 Sep 2006 16:23:12 GMT
HTTP1.1的客戶端和快取必須將其他非法的日期格式(包括0)看作已經過期。eg:為了讓瀏覽器不要快取頁面,我們也可以利用Expires實體報頭域,設定為0,jsp中程式如下:response.setDateHeader("Expires","0");