背景 本文來自於之前我發的一篇微博:
不過寫這篇文章並不是為了幫大家準備面試,而是想借這道題來介紹計算機和網際網路的基礎知識,讓讀者瞭解它們之間是如何關聯起來的。
為了便於理解,我將整個過程分為了六個問題來展開。
第一個問題:從輸入 URL 到瀏覽器接收的過程中發生了什麼事情?
從觸屏到 CPU
首先是「輸入 URL」,大部分人的第一反應會是鍵盤,不過為了與時俱進,這裡將介紹觸控式螢幕裝置的互動。
觸控式螢幕一種感測器,目前大多是基於電容(Capacitive)來實現的,以前都是直接覆蓋在螢幕上的,不過最近出現了 3 種嵌入到螢幕中的技術,第一種是 iPhone 5 的 In-cell,它能減小了 0.5 毫米的厚度,第二種是三星使用的 On-cell 技術,第三種是國內廠商喜歡用的 OGS 全貼合技術,具體細節可以閱讀這篇文章。
當手指在這個感測器上觸控時,有些電子會傳遞到手上,從而導致該區域的電壓變化,觸控式螢幕控制器晶片根據這個變化就能計算出所觸控的位置,然後通過匯流排介面將訊號傳到 CPU 的引腳上。
以 Nexus 5 為例,它所使用的觸屏控制器是 Synaptics S3350B,匯流排介面為 I²C,以下是 Synaptics 觸控式螢幕和處理器連線的示例:
左邊是處理器,右邊是觸控式螢幕控制器,中間的 SDA 和 SCL 連線就是 I²C 匯流排介面。
CPU 內部的處理
移動裝置中的 CPU 並不是一個單獨的晶片,而是和 GPU 等晶片整合在一起,被稱為 SoC(片上系統)。
前面提到了觸屏和 CPU 的連線,這個連線和大部分計算機內部的連線一樣,都是通過電氣訊號來進行通訊的,也就是電壓高低的變化,如下面的時序圖:
在時鐘的控制下,這些電流會經過 MOSFET 電晶體,電晶體中包含 N 型半導體和 P 型半導體,通過電壓就能控制線路開閉,然後這些 MOSFET 構成了 CMOS,接著再由 CMOS 實現「與」「或」「非」等邏輯電路門,最後由邏輯電路門上就能實現加法、位移等計算,整體如下圖所示(來自《計算機體系結構》):
除了計算,在 CPU 中還需要儲存單元來載入和儲存資料,這個儲存單元一般通過觸發器(Flip-flop)來實現,稱為暫存器。
以上這些概念都比較抽象,推薦閱讀「How to Build an 8-Bit Computer」這篇文章,作者基於電晶體、二極體、電容等原件製作了一個 8 位的計算機,支援簡單彙編指令和結果輸出,雖然現代 CPU 的實現要比這個複雜得多,但基本原理還是一樣的。
另外其實我也是剛開始學習 CPU 晶片的實現,所以就不在這誤人子弟了,感興趣的讀者請閱讀本節後面推薦的書籍。
從 CPU 到作業系統核心
前面說到觸屏控制器將電氣訊號傳送到 CPU 對應的引腳上,接著就會觸發 CPU 的中斷機制,以 Linux 為例,每個外部裝置都有一識別符號,稱為中斷請求(IRQ)號,可以通過 /proc/interrupts
檔案來檢視系統中所有裝置的中斷請求號,以下是 Nexus 7 (2013) 的部分結果:
1 2 3 4 5 |
shell@flo:/ $ cat /proc/interrupts CPU0 17: 0 GIC dg_timer 294: 1973609 msmgpio elan-ktf3k 314: 679 msmgpio KEY_POWER |
因為 Nexus 7 使用了 ELAN 的觸屏控制器,所以結果中的 elan-ktf3k 就是觸屏的中斷請求資訊,其中 294 是中斷號,1973609 是觸發的次數(手指單擊時會產生兩次中斷,但滑動時會產生上百次中斷)。
為了簡化這裡不考慮優先順序問題,以 ARMv7 架構的處理器為例,當中斷髮生時,CPU 會停下當前執行的程式,儲存當前執行狀態(如 PC 值),進入 IRQ 狀態),然後跳轉到對應的中斷處理程式執行,這個程式一般由第三方核心驅動來實現,比如前面提到的 Nexus 7 的驅動原始碼在這裡 touchscreen/ektf3k.c。
這個驅動程式將讀取 I²C 匯流排中傳來的位置資料,然後通過核心的 input_report_abs 等方法記錄觸屏按下座標等資訊,最後由核心中的input 子模組將這些資訊都寫進 /dev/input/event0
這個裝置檔案中,比如下面展示了一次觸控事件所產生的資訊:
1 2 3 4 5 6 7 8 9 |
130|shell@flo:/ $ getevent -lt /dev/input/event0 [ 414624.658986] EV_ABS ABS_MT_TRACKING_ID 0000835c [ 414624.659017] EV_ABS ABS_MT_TOUCH_MAJOR 0000000b [ 414624.659047] EV_ABS ABS_MT_PRESSURE 0000001d [ 414624.659047] EV_ABS ABS_MT_POSITION_X 000003f0 [ 414624.659078] EV_ABS ABS_MT_POSITION_Y 00000588 [ 414624.659078] EV_SYN SYN_REPORT 00000000 [ 414624.699239] EV_ABS ABS_MT_TRACKING_ID ffffffff [ 414624.699270] EV_SYN SYN_REPORT 00000000 |
從作業系統 GUI 到瀏覽器
前面提到 Linux 核心已經完成了對硬體的抽象,其它程式只需要通過監聽 /dev/input/event0
檔案的變化就能知道使用者進行了哪些觸控操作,不過如果每個程式都這麼做實在太麻煩了,所以在影像作業系統中都會包含 GUI 框架來方便應用程式開發,比如 Linux 下著名的 X。
但 Android 並沒有使用 X,而是自己實現了一套 GUI 框架,其中有個 EventHub 的服務會通過 epoll 方式監聽 /dev/input/
目錄下的檔案,然後將這些資訊傳遞到 Android 的視窗管理服務(WindowManagerService)中,它會根據位置資訊來查詢相應的 app,然後呼叫其中的監聽函式(如 onTouch 等)。
就這樣,我們解答了第一個問題,不過由於時間有限,這裡省略了很多細節,想進一步學習的讀者推薦閱讀以下書籍。
擴充套件學習
- 《計算機體系結構》
- 《計算機體系結構:量化研究方法》
- 《計算機組成與設計:硬體/軟體介面》
- 《編碼》
- 《CPU自制入門》
- 《作業系統概念》
- 《ARMv7-AR 體系結構參考手冊》
- 《Linux核心設計與實現》
- 《精通Linux裝置驅動程式開發》
第二個問題:瀏覽器如何向網路卡傳送資料?
從瀏覽器到瀏覽器核心
前面提到作業系統 GUI 將輸入事件傳遞到了瀏覽器中,在這過程中,瀏覽器可能會做一些預處理,比如 Chrome 會根據歷史統計來預估所輸入字元對應的網站,比如輸入了「ba」,根據之前的歷史發現 90% 的概率會訪問「www.baidu.com 」,因此就會在輸入回車前就馬上開始建立 TCP 連結甚至渲染了,這裡面還有很多其它策略,感興趣的讀者推薦閱讀 High Performance Networking in Chrome。
接著是輸入 URL 後的「回車」,這時瀏覽器會對 URL 進行檢查,首先判斷協議,如果是 http 就按照 Web 來處理,另外還會對這個 URL 進行安全檢查,然後直接呼叫瀏覽器核心中的對應方法,比如 WebView 中的 loadUrl 方法。
在瀏覽器核心中會先檢視快取,然後設定 UA 等 HTTP 資訊,接著呼叫不同平臺下網路請求的方法。
需要注意瀏覽器和瀏覽器核心是不同的概念,瀏覽器指的是 Chrome、Firefox,而瀏覽器核心則是 Blink、Gecko,瀏覽器核心只負責渲染,GUI 及網路連線等跨平臺工作則是瀏覽器實現的
HTTP 請求的傳送
因為網路的底層實現是和核心相關的,所以這一部分需要針對不同平臺進行處理,從應用層角度看主要做兩件事情:通過 DNS 查詢 IP、通過 Socket 傳送資料,接下來就分別介紹這兩方面的內容。
DNS 查詢
應用程式可以直接呼叫 Libc 提供的 getaddrinfo() 方法來實現 DNS 查詢。
DNS 查詢其實是基於 UDP 來實現的,這裡我們通過一個具體例子來了解它的查詢過程,以下是使用 dig +trace fex.baidu.com
命令得到的結果(省略了一些):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
; <<>> DiG 9.8.3-P1 <<>> +trace fex.baidu.com ;; global options: +cmd . 11157 IN NS g.root-servers.net. . 11157 IN NS i.root-servers.net. . 11157 IN NS j.root-servers.net. . 11157 IN NS a.root-servers.net. . 11157 IN NS l.root-servers.net. ;; Received 228 bytes from 8.8.8.8#53(8.8.8.8) in 220 ms com. 172800 IN NS a.gtld-servers.net. com. 172800 IN NS c.gtld-servers.net. com. 172800 IN NS m.gtld-servers.net. com. 172800 IN NS h.gtld-servers.net. com. 172800 IN NS e.gtld-servers.net. ;; Received 503 bytes from 192.36.148.17#53(192.36.148.17) in 185 ms baidu.com. 172800 IN NS dns.baidu.com. baidu.com. 172800 IN NS ns2.baidu.com. baidu.com. 172800 IN NS ns3.baidu.com. baidu.com. 172800 IN NS ns4.baidu.com. baidu.com. 172800 IN NS ns7.baidu.com. ;; Received 201 bytes from 192.48.79.30#53(192.48.79.30) in 1237 ms fex.baidu.com. 7200 IN CNAME fexteam.duapp.com. fexteam.duapp.com. 300 IN CNAME duapp.n.shifen.com. n.shifen.com. 86400 IN NS ns1.n.shifen.com. n.shifen.com. 86400 IN NS ns4.n.shifen.com. n.shifen.com. 86400 IN NS ns2.n.shifen.com. n.shifen.com. 86400 IN NS ns5.n.shifen.com. n.shifen.com. 86400 IN NS ns3.n.shifen.com. ;; Received 258 bytes from 61.135.165.235#53(61.135.165.235) in 2 ms |
可以看到這是一個逐步縮小範圍的查詢過程,首先由本機所設定的 DNS 伺服器(8.8.8.8)向 DNS 根節點查詢負責 .com 區域的域務器,然後通過其中一個負責 .com 的伺服器查詢負責 baidu.com 的伺服器,最後由其中一個 baidu.com 的域名伺服器查詢 fex.baidu.com 域名的地址。
可能你在查詢某些域名的時會發現和上面不一樣,最底將看到有個奇怪的伺服器搶先返回結果。。。
這裡為了方便描述,忽略了很多不同的情況,比如 127.0.0.1 其實走的是 loopback,和網路卡裝置沒關係;比如 Chrome 會在瀏覽器啟動的時預先查詢 10 個你有可能訪問的域名;還有 Hosts 檔案、快取時間 TTL(Time to live)的影響等。
通過 Socket 傳送資料
有了 IP 地址,就可以通過 Socket API 來傳送資料了,這時可以選擇 TCP 或 UDP 協議,具體使用方法這裡就不介紹了,推薦閱讀 Beej’s Guide to Network Programming。
HTTP 常用的是 TCP 協議,由於 TCP 協議的具體細節到處都能看到,所以本文就不介紹了,這裡談一下 TCP 的 Head-of-line blocking 問題:假設客戶端的傳送了 3 個 TCP 片段(segments),編號分別是 1、2、3,如果編號為 1 的包傳輸時丟了,即便編號 2 和 3 已經到達也只能等待,因為 TCP 協議需要保證順序,這個問題在 HTTP pipelining 下更嚴重,因為 HTTP pipelining 可以讓多個 HTTP 請求通過一個 TCP 傳送,比如傳送兩張圖片,可能第二張圖片的資料已經全收到了,但還得等第一張圖片的資料傳到。
為了解決 TCP 協議的效能問題,Chrome 團隊去年提出了 QUIC 協議,它是基於 UDP 實現的可靠傳輸,比起 TCP,它能減少很多來回(round trip)時間,還有前向糾錯碼(Forward Error Correction)等功能。目前 Google Plus、 Gmail、Google Search、blogspot、Youtube 等幾乎大部分 Google 產品都在使用 QUIC,可以通過 chrome://net-internals/#spdy
頁面來發現。
雖然目前除了 Google 還沒人用 QUIC,但我覺得挺有前景的,因為優化 TCP 需要升級系統核心(比如 Fast Open)。
瀏覽器對同一個域名有連線數限制,大部分是 6,我以前認為將這個連線數改大後會提升效能,但實際上並不是這樣的,Chrome 團隊有做過實驗,發現從 6 改成 10 後效能反而下降了,造成這個現象的因素有很多,如建立連線的開銷、擁塞控制等問題,而像 SPDY、HTTP 2.0 協議儘管只使用一個 TCP 連線來傳輸資料,但效能反而更好,而且還能實現請求優先順序。
另外,因為 HTTP 請求是純文字格式的,所以在 TCP 的資料段中可以直接分析 HTTP 的文字,如果發現。。。
Socket 在核心中的實現
前面說到瀏覽器的跨平臺庫通過呼叫 Socket API 來傳送資料,那麼 Socket API 是如何實現的呢?
以 Linux 為例,它的實現在這裡 socket.c,目前我還不太瞭解,推薦讀者看看 Linux kernel map,它標註出了關鍵路徑的函式,方便學習從協議棧到網路卡驅動的實現。
底層網路協議的具體例子
接下來如果繼續介紹 IP 協議和 MAC 協議可能很多讀者會暈,所以本節將使用 Wireshark 來通過具體例子講解,以下是我請求百度首頁時抓取到的網路資料:
最底下是實際的二進位制資料,中間是解析出來的各個欄位值,可以看到其中最底部為 HTTP 協議(Hypertext Transfer Protocol),在 HTTP 之前有 54 位元組(0x36),這就是底層網路協議所帶來的開銷,我們接下來對這些協議進行分析。
在 HTTP 之上是 TCP 協議(Transmission Control Protocol),它的具體內容如下圖所示:
通過底部的二進位制資料,可以看到 TCP 協議是加在 HTTP 文字前面的,它有 20 個位元組,其中定義了本地埠(Source port)和目標埠(Destination port)、順序序號(Sequence Number)、視窗長度等資訊,以下是 TCP 協議各個部分資料的完整介紹:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Source Port | Destination Port | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Sequence Number | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Acknowledgment Number | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Data | |U|A|E|R|S|F| | | Offset| Reserved |R|C|O|S|Y|I| Window | | | |G|K|L|T|N|N| | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Checksum | Urgent Pointer | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | Options | Padding | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | data | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |
具體各個欄位的作用這裡就不介紹了,感興趣的讀者可以閱讀 RFC 793,並結合抓包分析來理解。
需要注意的是,在 TCP 協議中並沒有 IP 地址資訊,因為這是在上一層的 IP 協議中定義的,如下圖所示:
IP 協議同樣是在 TCP 前面的,它也有 20 位元組,在這裡指明瞭版本號(Version)為 4,源(Source) IP 為 192.168.1.106
,目標(Destination) IP 為 119.75.217.56
,因此 IP 協議最重要的作用就是確定 IP 地址。
因為 IP 協議中可以檢視到目標 IP 地址,所以如果發現某些特定的 IP 地址,某些路由器就會。。。
但是,光靠 IP 地址是無法進行通訊的,因為 IP 地址並不和某臺裝置繫結,比如你的筆記本的 IP 在家中是 192.168.1.1
,但到公司就變成172.22.22.22
了,所以在底層通訊時需要使用一個固定的地址,這就是 MAC(media access control) 地址,每個網路卡出廠時的 MAC 地址都是固定且唯一的。
因此再往上就是 MAC 協議,它有 14 位元組,如下所示:
當一臺電腦加入網路時,需要通過 ARP 協議告訴其它網路裝置它的 IP 及對應的 MAC 地址是什麼,這樣其它裝置就能通過 IP 地址來查詢對應的裝置了。
最頂上的 Frame 是代表 Wireshark 的抓包序號,並不是網路協議
就這樣,我們解答了第二個問題,不過其實這裡面還有很多很多細節沒介紹,建議大家通過下面的書籍進一步學習。
擴充套件學習
第三個問題:資料如何從本機網路卡傳送到伺服器?
從核心到網路介面卡(Network Interface Card)
前面說到呼叫 Socket API 後核心會對資料進行底層協議棧的封裝,接下來啟動 DMA 控制器,它將從記憶體中讀取資料寫入網路卡。
以 Nexus 5 為例,它使用的是博通 BCM4339 晶片通訊,介面採用了 SD 卡一樣的 SDIO,但這個晶片的細節並沒有公開資料,所以這裡就不討論了。
連線 Wi-Fi 路由
Wi-Fi 網路卡需要通過 Wi-Fi 路由來與外部通訊,原理是基於無線電,通過電流變化來產生無線電,這個過程也叫「調製」,而反過來無線電可以引起電磁場變化,從而產生電流變化,利用這個原理就能將無線電中的資訊解讀出來就叫「解調」,其中單位時間內變化的次數就稱為頻率,目前在 Wi-Fi 中所採用的頻率分為 2.4 GHz 和 5 GHz 兩種。
在同一個 Wi-Fi 路由下,因為採用的頻率相同,同時使用時會發生衝突,為了解決這個問題,Wi-Fi 採用了被稱為 CSMA/CA 的方法,簡單來說就是在傳輸前先確認通道是否已被使用,沒有才傳送資料。
而同樣基於無線電原理的 2G/3G/LTE 也會遇到類似的問題,但它並沒有採用 Wi-Fi 那樣的獨佔方案,而是通過頻分(FDMA)、時分(TDMA)和碼分(CDMA)來進行復用,具體細節這裡就不展開了。
以小米路由為例,它使用的晶片是 BCM 4709,這個晶片由 ARM Cortex-A9 處理器及流量(Flow)硬體加速組成,使用硬體晶片可以避免經過作業系統中斷、上下文切換等操作,從而提升了效能。
路由器中的作業系統可以基於 OpenWrt 或 DD-WRT 來開發的,具體細節我不太瞭解,所以就不展開了。
因為內網裝置的 IP 都是類似 192.168.1.x
這樣的內網地址,外網無法直接向這個地址傳送資料,所以網路資料在經過路由時,路由會修改相關地址和埠,這個操作稱為 NAT 對映。
最後家庭路由一般會通過雙絞線連線到運營商網路的。
運營商網路內的路由
資料過雙絞線傳送到運營商網路後,還會經過很多箇中間路由轉發,讀者可以通過 traceroute 命令或者線上視覺化工具來檢視這些路由的 ip 和位置。
當資料傳遞到這些路由器後,路由器會取出包中目的地址的字首,通過內部的轉發表查詢對應的輸出鏈路,而這個轉發表是如何得到的呢?這就是路由器中最重要的選路演算法了,可選的有很多,我對這方面並不太瞭解,看起來維基百科上的詞條列得很全。
主幹網間的傳輸
對於長線的資料傳輸,通常使用光纖作為介質,光纖是基於光的全反射來實現的,使用光纖需要專門的發射器通過電致發光(比如 LED)將電訊號轉成光,比起前面介紹的無線電和雙絞線,光纖訊號的抗干擾性要強得多,而且能耗也小很多。
既然是基於光來傳輸資料,資料傳輸速度也就取決於光的速度,在真空中的光速接近於 30 萬千米/秒,由於光纖包層(cladding)中的折射率(refractive index)為 1.52,所以實際光速是 20 萬千米/秒左右,從首都機場飛往廣州白雲機場的距離是 1967 千米,按照這個距離來算需要花費 10 毫秒才能抵達。這意味著如果你在北京,伺服器在廣州,等你發出資料到伺服器返回資料至少得等 20 毫秒,實際情況預計是 2- 3 倍,因為這其中還有各個節點路由處理的耗時,比如我測試了一個廣州的 IP 發現平均延遲為 60 毫秒。
這個延遲是現有科技無法解決的(除非找到超過光速的方法),只能通過 CDN 來讓傳輸距離變短,或儘量減少序列的來回請求(比如 TCP 建立連線所需的 3 次握手)。
IDC 內網
資料通過光纖最終會來到伺服器所在的 IDC 機房,進入 IDC 內網,這時可以先通過分光器將流量映象一份出來方便進行安全檢查等分析,還能用來進行。。。
這裡的頻寬成本很高,是按照峰值來結算的,以每月每 Gbps(注意這裡指的是 bit,而不是 Byte)為單位,北京這邊價格在十萬人民幣以上,一般網站使用 1G 到 10G 不等。
接下來光纖中的資料將進入叢集(Cluster)交換機,然後再轉發到機架(Rack)頂部的交換機,最後通過這個交換機的埠將資料發往機架中的伺服器,可以參考下圖(來自 Open Compute):
上圖左邊是正面,右邊是側面,可以看到頂部為交換機所留的位置。
以前這些交換機的內部實現是封閉的,相關廠商(如思科、Juniper 等)會使用特定的處理器和作業系統,外界難以進行靈活控制,甚至有時候需要手工配置,但這幾年隨著 OpenFlow 技術的流行,也出現了開放交換機硬體(Open Switch Hardware),比如 Intel 的網路平臺,推薦感興趣的讀者建議看看它的視訊,比文字描述清晰多了。
需要注意的是,一般網路書中提到的交換機都只具備二層(MAC 協議)的功能,但在 IDC 中的交換器基本上都具備三層(IP 協議)的功能,所以不需要有專門的路由了。
最後,因為 CPU 處理的是電氣訊號,所以光纖中的光線需要先使用相關裝置通過光電效應將光訊號轉成電訊號,然後進入伺服器網路卡。
伺服器 CPU
前面說到資料已經到達伺服器網路卡了,接著網路卡會將資料拷貝到記憶體中(DMA),然後通過中斷來通知 CPU,目前伺服器端的 CPU 基本上都是 Intel Xeon,不過這幾年出現了一些新的架構,比如在儲存領域,百度使用 ARM 架構來提升儲存密度,因為 ARM 的功耗比 Xeon 低得多。而在高效能領域,Google 最近在嘗試基於 POWER 架構的 CPU 來開發的伺服器,最新的 POWER8 處理器可以並行執行 96 個執行緒,所以對高併發的應用應該很有幫助。
擴充套件學習
第四個問題:伺服器接收到資料後會進行哪些處理?
為了避免重複,這裡將不再介紹作業系統,而是直接進入後端服務程式,由於這方面有太多技術選型,所以我只挑幾個常見的公共部分來介紹。
負載均衡
請求在進入到真正的應用伺服器前,可能還會先經過負責負載均衡的機器,它的作用是將請求合理地分配到多個伺服器上,同時具備具備防攻擊等功能。
負載均衡具體實現有很多種,有直接基於硬體的 F5,有作業系統傳輸層(TCP)上的 LVS,也有在應用層(HTTP)實現的反向代理(也叫七層代理),接下來將介紹 LVS 及反向代理。
負載均衡的策略也有很多,如果後面的多個伺服器效能均衡,最簡單的方法就是挨個迴圈一遍(Round-Robin),其它策略就不一一介紹了,可以參考 LVS 中的演算法。
LVS
LVS 的作用是從對外看來只有一個 IP,而實際上這個 IP 後面對應是多臺機器,因此也被成為 Virtual IP。
前面提到的 NAT 也是一種 LVS 中的工作模式,除此之外還有 DR 和 TUNNEL,具體細節這裡就不展開了,它們的缺點是無法跨網段,所以百度自己開發了 BVS 系統。
反向代理
方向代理是工作在 HTTP 上的,具體實現可以基於 HAProxy 或 Nginx,因為反向代理能理解 HTTP 協議,所以能做非常多的事情,比如:
- 進行很多統一處理,比如防攻擊策略、放抓取、SSL、gzip、自動效能優化等
- 應用層的分流策略都能在這裡做,比如對 /xx 路徑的請求分到 a 伺服器,對 /yy 路徑的請求分到 b 伺服器,或者按照 cookie 進行小流量測試等
- 快取,並在後端服務掛掉的時候顯示友好的 404 頁面
- 監控後端服務是否異常
- ⋯⋯
Nginx 的程式碼寫得非常優秀,從中能學到很多,對高效能服務端開發感興趣的讀者一定要看看。
Web Server 中的處理
請求經過前面的負載均衡後,將進入到對應伺服器上的 Web Server,比如 Apache、Tomcat、Node.JS 等。
以 Apache 為例,在接收到請求後會交給一個獨立的程式來處理,我們可以通過編寫 Apache 擴充套件來處理,但這樣開發起來太麻煩了,所以一般會呼叫 PHP 等指令碼語言來進行處理,比如在 CGI 下就是將 HTTP 中的引數放到環境變數中,然後啟動 PHP 程式來執行,或者使用 FastCGI 來預先啟動程式。
(等後續有空再單獨介紹 Node.JS 中的處理)
進入後端語言
前面說到 Web Server 會呼叫後端語言程式來處理 HTTP 請求(這個說法不完全正確,有很多其它可能),那麼接下來就是後端語言的處理了,目前大部分後端語言都是基於虛擬機器的,如 PHP、Java、JavaScript、Python 等,但這個領域的話題非常大,難以講清楚,對 PHP 感興趣的讀者可以閱讀我之前寫的 HHVM 介紹文章,其中提到了很多虛擬機器的基礎知識。
Web 框架(Framework)
如果你的 PHP 只是用來做簡單的個人主頁「Personal Home Page」,倒沒必要使用 Web 框架,但如果隨著程式碼的增加會變得越來越難以管理,所以一般網站都會會基於某個 Web 框架來開發,因此在後端語言執行時首先進入 Web 框架的程式碼,然後由框架再去呼叫應用的實現程式碼。
可選的 Web 框架非常多,這裡就不一一介紹了。
讀取資料
這部分不展開了,從簡單的讀寫檔案到資料中間層,這裡面可選的方案實在太多。
擴充套件學習
- 《深入理解Nginx》
- 《Python原始碼剖析》
- 《深入理解Java虛擬機器》
- 《資料庫系統實現》
第五個問題:伺服器返回資料後瀏覽器如何處理?
前面說到服務端處理完請求後,結果將通過網路發回客戶端的瀏覽器,從本節開始將介紹瀏覽器接收到資料後的處理,值得一提的是這方面之前有一篇不錯的文章 How Browsers Work,所以很多內容我不想再重複介紹,因此將重點放在那篇文章所忽略的部分。
從 01 到字元
HTTP 請求返回的 HTML 傳遞到瀏覽器後,如果有 gzip 會先解壓,然後接下來最重要的問題是要知道它的編碼是什麼,比如同樣一個「中」字,在 UTF-8 編碼下它的內容其實是「11100100 10111000 10101101」也就是「E4 B8 AD」,而在 GBK 下則是「11010110 11010000」,也就是「D6 D0」,如何才能知道檔案的編碼?可以有很多判斷方法:
- 使用者設定,在瀏覽器中可以指定頁面編碼
- HTTP 協議中
<meta>
中的 charset 屬性值- 對於 JS 和 CSS
- 對於 iframe
如果在這些地方都沒指明,瀏覽器就很難處理,在它看來就是一堆「0」和「1」,比如「中文」,它在 UTF-8 下有 6 個位元組,如果按照 GBK 可以當成「涓枃」這 3 個漢字來解釋,瀏覽器怎麼知道到底是「中文」還是「涓枃」呢?
不過正常人一眼就能認出「涓枃」是錯的,因為這 3 個字太不常見了,所以有人就想到通過判斷常見字的方法來檢測編碼,典型的比如 Mozilla 的 UniversalCharsetDetection,不過這東東誤判率也很高,所以還是指明編碼的好。
這樣後續對文字的操作就是基於「字元」(Character)的了,一個漢字就是一個字元,不用再關心它究竟是 2 個位元組還是 3 個位元組。
外鏈資源的載入
(待補充,這裡有排程策略)
JavaScript 的執行
(後續再單獨介紹,推薦大家看 R 大去年整理的這個帖子,裡面有非常多相關資料,另外我兩年前曾講過 JavaScript 引擎中的效能優化,雖然有些內容不太正確了,但也可以看看)
從字元到圖片
二維渲染中最複雜的要數文字顯示了,雖然想想似乎很簡單,不就是將某個文字對應的字形(glyph)找出來麼?在中文和英文中這樣做是沒問題的,因為一個字元就對應一個字形(glyph),在字型檔案中找到字形,然後畫上去就可以了,但在阿拉伯語中是不行的,因為它有有連體形式。
(以後續再單獨介紹,這裡非常複雜)
跨平臺 2D 繪製庫
在不同作業系統中都提供了自己的圖形繪製 API,比如 Mac OS X 下的 Quartz,Windows 下的 GDI 以及 Linux 下的 Xlib,但它們相互不相容,所以為了方便支援跨平臺繪圖,在 Chrome 中使用了 Skia 庫。
(以後再單獨介紹,Skia 內部實現呼叫層級太多,直接講程式碼可能不適合初學者)
GPU 合成
(以後續再單獨介紹,雖然簡單來說就是靠貼圖,但還得介紹 OpenGL 以及 GPU 晶片,內容太長)
擴充套件學習
這節內容是我最熟悉,結果反而因為這樣才想花更多時間寫好,所以等到以後再發出來好了,大家先可以先看看以下幾個站點:
第六個問題:瀏覽器如何將頁面展現出來?
前面提到瀏覽器已經將頁面渲染成一張圖片了,接下來的問題就是如何將這張圖片展示在螢幕上。
Framebuffer
以 Linux 為例,在應用中控制螢幕最直接的方法是將影像的 bitmap 寫入 /dev/fb0
檔案中,這個檔案實際上一個記憶體區域的對映,這段記憶體區域稱為 Framebuffer。
需要注意的是在硬體加速下,如 OpenGL 是不經過 Framebuffer 的。
從記憶體到 LCD
在手機的 SoC 中通常都會有一個 LCD 控制器,當 Framebuffer 準備好後,CPU 會通過 AMBA 內部匯流排通知 LCD 控制器,然後這個控制器讀取 Framebuffer 中的資料,進行格式轉換、伽馬校正等操作,最終通過 DSI、HDMI 等介面發往 LCD 顯示器。
以 OMAP5432 為例,下圖是它所支援的一種並行資料傳輸:
LCD 顯示
最後簡單介紹一下 LCD 的顯示原理。
首先,要想讓人眼能看見,就必須有光線進入,要麼通過反射、要麼有光源,比如 Kindle 所使用的 E-ink 螢幕本身是不發光的,所以必須在有光線的地方才能閱讀,它的優點是省電,但限制太大,所以幾乎所有 LCD 都會自帶光源。
目前 LCD 中通常使用 LED 作為光源,LED 接上電源後,在電壓的作用下,內部的正負電子結合會釋放光子,從而產生光,這種物理現象叫電致發光(Electroluminescence),這在前面介紹光纖時也介紹過。
以下是 iPod Touch 2 拆開後的樣子:(來自 Wikipedia):
在上圖中可以看到 6 盞 LED,這就是整個螢幕的光源,這些光源將通過反射的反射輸出到螢幕中。
有了光源還得有色彩,在 LED 中通常做法是使用彩色濾光片(Color filter)來將 LED 光源轉成不同顏色。
另外直接使用三種顏色的 LED 也是可行的,它能避免了濾光導致的光子浪費,降低耗電,很適用於智慧手錶這樣的小螢幕,Apple 收購的 LuxVue 公司就採用的是這種方式,感興趣的話可以去研究它的專利
LCD 螢幕上的每個物理畫素點實際上是由紅、綠、藍 3 種色彩的點組成,每個顏色點能單獨控制,下面是用顯微鏡放大後的情況(來自Wikipedia):
從上圖可以看到每 3 種顏色的濾光片都全亮的時候就是白色,都滅就是黑色,如果你仔細看還能看到有些點並不是完全黑,這是字型上的反鋸齒效果。
通過這 3 種顏色亮度的不同組合就能產生出各種色彩,如果每個顏色點能產生 256 種亮度,就能生成 256 * 256 * 256 = 16777216 種色彩。
並不是所有顯示器的亮度都能達到 256,在選擇顯示器時有個引數是 8-Bit 或 6-Bit 皮膚,其中 8-Bit 的皮膚能在物理上達到 256 種亮度,而 6-Bit 的則只有 64 種,它需要靠重新整理率控制(Frame rate control)技術來達到 256 的效果。
如何控制這些顏色點的亮度?這就要靠液晶體了,液晶體的特性是當有電流通過時會發生旋轉,從而將部分光線擋住,所以只要通過電壓控制液晶體的轉動就能控制這個顏色點的亮度,目前手機螢幕中通常使用 TFT 控制器來對其進行控制,在 TFT 中最著名的要數 IPS 皮膚。
這些過濾後的光線大部分會直接進入眼睛,有些光還會在其它表面上經過漫(diffuse)反射或鏡面(specular)反射後再進入眼睛,加上環境光的影響,要真正算出有多少光到眼睛是一個積分問題,感興趣的讀者可以研究基於物理的渲染。
當光線進入眼睛後,接下來就是生物學的領域了,所以我們到此結束。
擴充套件學習
本文所忽略的內容
為了編寫方便,前面的介紹中將很多底層細節實現忽略了,比如:
- 記憶體相關
- 堆,這裡的分配策略有很多,比如 malloc 的實現
- 棧,函式呼叫,已經有很多優秀的文章或書籍介紹了
- 記憶體對映,動態庫載入等
- 佇列幾乎無處不在,但這些細節和原理沒太大關係
- 各種快取
- CPU 的快取、作業系統的快取、HTTP 快取、後端快取等等
- 各種監控
- 很多日誌會儲存下來以便後續分析
FAQ
從微博反饋來看,有些問題被經常問到,我就在這裡統一回答吧,如果有其它問題請在評論中問。
Q:學那麼多有什麼用?根本用不著
A:計算機是人類最強大的工具,你不想了解它是如何運作的麼?
Q:什麼都瞭解一點,還不如精通一項吧?
A:非常認同,初期肯定需要先在某個領域精通,然後再去了解周邊領域的知識,這樣還能讓你對之前那個領域有更深刻的理解。
Q:曬出來培養一堆麵霸跟自己過不去?
A:本文其實寫得很淺,每個部分都能再深入展開。
Q:這題要把人累死啊,說幾天都說不完的
A:哈哈哈,大神你暴露了,題目只是手段,目的是將你這樣的大牛挖掘出來。
大家的討論
非常感謝各位大牛的參與討論,這裡蒐集了其中的一些回答。
@WOODHEAD笨笨:請求被送往本地路由,接入商路由,旁路分析是否違法地址,連線被中斷,瀏覽器無辜得顯示網頁不存在。嚴重的有人來查水錶
caoz: 這不是我的面試題麼! 還有一道題,使用者反應我們網站卡,請問都有哪些可能性,以及排方法。
@caoz:寫的還是不錯的,但是還是有一些缺漏,比如arp欺騙? 著名的GFW的阻斷策略,以及,一個URL可不是隻有一個請求,多個請求的排隊和定址?此外,cdn, 智慧dns解析機制等。//@ZRJ-: http://t.cn/8smHpMF 從點選到呈現 — 詳解一次HTTP請求 我大三的時候寫的。。 啊
@唐福林:與時俱進,現在應該問從開啟app到重新整理出內容,整個過程中都發生了什麼,如果感覺慢,怎麼定位問題,怎麼解決
@寒冬winter: 回覆@Ivony:這題勝在區分度高,知識點覆蓋均勻,再不懂的人,也能答出幾句,而高手可以根據自己擅長的領域自由發揮,從URL規範、HTTP協議、DNS、CDN、到瀏覽器流式解析、CSS規則構建、layout、paint、onload/domready、JS執行、JS API繫結⋯⋯
@JS小組:[哈哈] 小編想起來了,貌似剛從業那會兒,前端界最美麗的姐@sherrie_wong 面試問過小編這道題.然後我當時把知道的全說了,從瀏覽器解析,發請求,7層網路模型實際用的模型,TCP三次握手.經路由,交換機,DNS,到伺服器.在是否需要與檔案系統還是資料庫打交道,再者分散式運算hadoop啥的…聊了太多.
@萵怖熵崴箔:這種就是流氓問題,我還想問從你按了鍵盤到螢幕上出現字元,中間都發生了什麼事,提示一下:設想你是一個電子。哦,不對,電子又是什麼
@寒冬winter:http://t.cn/zH20bR1 http://t.cn/zH20bR1 之前寫了開頭兩篇,後面荒廢中⋯⋯
@ils傳言:不提電廠發電機轉了幾圈的也幹掉!//@Philonis高:不提交換機和路由器工作原理的全乾掉!//@南非蜘蛛:從7層協議的角度說會比較全面。這種問題只有全棧工程師才能回答。
@聳肩的阿特拉斯閣下:DNS解析URL出IP/Port,瀏覽器連線並向此地址發出GET請求,web服務端(nginx、apache)接收到請求後,通過CGI等介面協議呼叫動態語言(php等),動態語言再連線資料庫查詢相應資料並處理,然後反饋給瀏覽器,瀏覽器解析反饋頁面,通過html、javascript、css處理後呈現到螢幕⋯⋯每個細節的話估計要800頁的書
@一棹凌煙:這種面試題在系統領域的招聘裡其實簡單好使。還有一個類似的:從在鍵盤上敲下一個字元鍵開始,到在虛擬機器裡的terminal裡顯示出來,中間的過程是什麼?
@ICT_朱亞東:記得6年前上胡偉武的晶片設計課,老胡第一節課就說,上完這門課,我希望你們能搞清楚,我翻了一頁PPT,計算機內部都做了那些流水操作,當然啦,我是一點都不記得了。
@julyclyde:我們運維一般問一個TCP segment in a IP packet in an ethernet frame經過一個路由器之後發生什麼變化
@西西福廝:從瀏覽器說起,作業系統相應鍵盤中斷,事件佇列處理,到網際網路路由,到伺服器網路卡中斷,到最後輸出緩衝。。。細說能說兩小時。
@Xscape:從鍵盤中斷說起?回車前的預解析都很靠後了..//@純白色燃燒: 從鍵盤到彈簧入萬有引力而後直達量子力學。
@Bosn:然後從硬體再到電子⋯⋯量子…薛定諤之貓…平行宇宙⋯⋯乃至萬能的哲學!!
@imPony:可深入到PN接面中的電子流動層面
@鞏小東-TX: 猜一下,瀏覽器組http報文sock發出,proxy過濾,收到處理頭,未過期cache返回,http svr處理校驗包,轉為cgi協議給後端,後端map url,load code,與邏輯互動後生成html給svr,svr過濾cache給proxy,proxy給瀏覽器,拉去js完成html,瀏覽器渲染。
@yuange1975:我算對整個過程比較清楚,包含伺服器的處理,web伺服器和瀏覽器的處理以及安全問題,估計少有對兩者的安全都研究過的。但面試時要清晰的比較完整的把大塊流程列出來說明白,也有難度。估計也很難有機會時間去整理文章了。
@ShopEx王磊:我也問這個問題題好多年, 或者變通一下:從輸入URL到展現, 都涉及到哪些快取環節, 快取的更新機制是怎樣的
@一棹凌煙:這種面試題在系統領域的招聘裡其實簡單好使。還有一個類似的:從在鍵盤上敲下一個字元鍵開始,到在虛擬機器裡的terminal裡顯示出來,中間的過程是什麼?
@智慧笨蛋: 確實可以維度不同的說,主要還是看顆粒度,光網路這段從wifi 解密,到NAT,到局間交換,ip包在乙太網包對映等等就可以寫一本書了
/@喬3少:放開了說所有網際網路相關的知識都能體現的,比如dns、瀏覽器快取,tcp連線、http響應,web服務的工作原理,瀏覽器的響應和渲染等等,剛剛在本子上列了下想到的安全威脅,很有意思!
最後
細心的讀者應該會發現本文有隱藏內容,請找。。。