網路程式設計(四):輸入一個URL後發生了什麼?

董_不懂發表於2020-12-30

網路程式設計(四):輸入一個URL後發生了什麼?

當在瀏覽器上輸入了一個網址,例如https://www.baidu.com/,按回車後發生了什麼?

一 DNS 解析

DNS解析的過程就是尋找哪臺機器上有你需要資源的過程,尋找的過程遵循就近原則。

輸入一個網址並按回車的時候瀏覽器會根據輸入的URL去查詢對應的IP,具體過程如下:

(1)首先是查詢瀏覽器快取,瀏覽器會儲存一段時間內訪問過的一些網址的DNS資訊,不同瀏覽器儲存的時常不等。

(2)如果沒有找到對應的記錄,這個時候瀏覽器會嘗試呼叫作業系統快取來繼續查詢這個網址的對應DNS資訊。

(3)如果還是沒找到對應的IP,那麼接著會傳送一個請求到路由器上,然後路由器在自己的路由器快取上查詢記錄,路由器一般也存有DNS資訊。

(4)如果還是沒有,這個請求就會被髮送到ISP(注:Internet Service Provider,網際網路服務提供商,就是網路運營商,中國電信中國移動等),ISP也會有相應的ISP DNS伺服器,就是本地DNS伺服器,請求的域名基本上都能在這裡找得到。

(5)如果還是沒有的話, ISP的DNS伺服器會將請求發向根域名伺服器進行搜尋。根域名伺服器就是面向全球的頂級DNS伺服器,共有13臺邏輯上的伺服器,從A到M命名,真正的實體伺服器則有幾百臺,分佈於全球各大洲。

(6)如果到了這裡還是找不到域名的對應資訊,那隻能說明一個問題:這個域名本來就不存在,它沒有在網上正式註冊過。或者域名過期了。

這也就是為什麼有時候開啟一個新頁面會有點慢,因為如果本地沒什麼快取,查詢域名的過程要這樣遞迴地查詢下去,查詢完還要一層層的向上返回。例如"mp3.baidu.com",域名先是解析出這是個.com的域名,然後跑到管理.com域的伺服器上進行進一步查詢,然後是.baidu,最後是mp3, 所以域名結構為:三級域名.二級域名.一級域名。

所以DNS根據域名查詢IP地址的過程為:瀏覽器快取 --> 作業系統快取 --> 路由器快取–>本地(ISP)域名伺服器快取 --> 根域名伺服器。

二 進行 TCP 連線

瀏覽器終於得到了IP以後,向伺服器傳送TCP連線,TCP連線經過三次握手。

三 瀏覽器傳送 HTTP 請求

瀏覽器和伺服器建立連線以後,瀏覽器接著給這個IP地址給伺服器傳送一個http請求,方式為get,例如訪問www.baidu.com。其本質是在建立起的TCP連線中,按照HTTP協議標準傳送一個索要網頁的請求。

這個get請求包含了主機(Host)、使用者代理(User-Agent),使用者代理就是自己的瀏覽器,它是你的"代理人",Connection(連線屬性)中的keep-alive表示瀏覽器告訴對方伺服器在傳輸完現在請求的內容後不要斷開連線,不斷開的話下次繼續連線速度就很快了。可能還會有Cookies,Cookies儲存了使用者的登陸資訊,一般儲存的是使用者的JSESSIONID,在每次向伺服器傳送請求的時候會重複傳送給伺服器。

在建立連線傳送請求時每個服務端需要和客戶端保持通訊,有很多客戶端都會和伺服器進行通訊。伺服器為了識別是哪個客戶端與它通訊,就必須用一個標識記錄客戶端的資訊。客戶端首次訪問伺服器,服務端返回響應時通過附帶一個記錄的客戶端資訊的標識來返回給客戶端,這個標識就是JSESSIONID,JSESSIONID就放在了客戶端的Cookies裡。當客戶端再次向伺服器傳送請求時上就使用上次記錄的Cookies裡面的JSESSIONID,這樣伺服器就知道是哪個瀏覽器了。這樣他們之間就能保持通訊了。

傳送完請求接下來就是等待回應了,如下圖:

image-20201223113555927

四 伺服器處理請求

傳送完請求接下來就是等待回應了,如下圖:

image-20201223113634716

伺服器收到瀏覽器的請求以後,會解析這個請求(讀請求頭),然後生成一個響應頭和具體響應內容。接著伺服器會傳回來一個響應頭和一個響應,響應頭告訴了瀏覽器一些必要的資訊,例如重要的Status Code,2開頭如200表示一切正常,3開頭表示重定向,4開頭是客戶端錯誤,如404表示請求的資源不存在,5開頭表示伺服器端錯誤。響應就是具體的要請求的頁面內容。

五 瀏覽器解析渲染頁面

(1)瀏覽器顯示HTML

當伺服器返回響應之後,瀏覽器讀取關於這個響應的說明書(響應頭),然後開始解析這個響應並在頁面上顯示出來。

瀏覽器開啟一個網址的時候會慢慢載入這個頁面,一部分一部分的顯示,直到完全顯示,知道最後的旋轉進度條停止。因此在瀏覽器沒有完整接受全部HTML文件時,它就已經開始顯示這個頁面了。

(2)瀏覽器向伺服器傳送請求獲取嵌入在HTML中的物件

在瀏覽器顯示HTML時,開啟一個網頁的過程中,主頁(index)頁面框架傳送過來以後,瀏覽器還會因頁面上的靜態資源多次發起連線請求,需要獲取嵌入在HTML中的其他地址的資源。這時,瀏覽器會傳送一些請求來獲取這些檔案。這些內容也要一點點地請求過來,所以標籤欄轉啊轉,內容刷啊刷,最後全部請求並載入好了就終於好了。

這時請求的內容是主頁裡面包含的一些資源,如圖片,視訊,css樣式,JavaScript檔案等等。

這在檔案屬於靜態檔案,首次訪問會留在瀏覽器的快取中,過期才會從伺服器去取。快取的內容通常不會儲存很久,因為難保網站不會被改動。

靜態的檔案一般會從CDN中去取,CDN根據請求獲取資源的時候可能還會用到負載均衡。

(3)瀏覽器傳送非同步(AJAX)請求

對於那些動態的請求,動態網頁等就必須要從伺服器獲取了。對於靜態的頁面內容,瀏覽器通常會進行快取,而對於動態的內容,瀏覽器通常不會進行快取。對於這些動態請求,Nginx可能會專門設定一些伺服器用來處理這些訪問動態頁面的請求。

六 關閉TCP連線

當資料完成請求到返回的過程之後,根據Connection的Keep-Alive屬性可以選擇是否斷開TCP連線,HTTP/1.1一般支援同一個TCP多個請求,而不是1.0版本下的完成一次請求就發生斷開。TCP的斷開與連線不一樣,斷開可以分為主動關閉和被動關閉,需要經過4次握手。

當瀏覽器需要的全部資料都已經載入完畢,一個頁面就顯示完了。

參考內容

【1】輸入一個網址後發生了什麼

相關文章