文章原創於公眾號:程式猿周先森。本平臺不定時更新,喜歡我的文章,歡迎關注我的微信公眾號。
之前其實寫過一篇文章具體介紹過:最基礎的Nginx教學,當時有提到過Nginx有一個重要的功能:負載均衡。所以這篇文章主要講講Nginx如何實現反向代理以及在Nginx中負載均衡的引數使用。
一、代理
正向代理
正向代理也是大家最常接觸的到的代理模式,那究竟什麼是正向代理呢?我們都知道Google在國內是無法正常訪問的,但是某些時候我們由於技術問題需要去訪問Google時,我們會先找到一個可以訪問Google的代理伺服器,我們將請求傳送到代理伺服器,代理伺服器去訪問Google,然後將訪問到的資料返回給我們,這樣的過程就是正向代理。
正向代理的特點
正向代理最大的特點是客戶端需要明確知道要訪問的伺服器地址,Google伺服器只清楚請求來自哪個代理伺服器,而不清楚來自哪個具體的客戶端,正向代理可以隱藏真實客戶端的具體資訊。
客戶端必須設定正向代理伺服器,而且需要知道正向代理伺服器的IP地址以及代理程式的埠。一句話來概括就是正向代理代理的是客戶端,是一個位於客戶端和Google伺服器之間的伺服器,為了從Google伺服器取得資料,客戶端向代理伺服器傳送一個請求並指定目標(Google伺服器),然後代理向原始伺服器轉交請求並將獲得的資料返回給客戶端。
正向代理的使用:
- 訪問國外無法訪問的網站
- 做快取,加速訪問資源
- 對客戶端訪問授權,上網進行認證
- 代理可以記錄使用者訪問記錄(上網行為管理),對外隱藏使用者資訊
反向代理
說完了什麼是正向代理,我們接下來看看什麼叫做反向代理,如果我們網站每日訪問量達到某個上限,單個伺服器遠遠不能符合我們日常需求,這時候我們首先會想到分散式部署。通過部署多臺伺服器來解決訪問人數限制的問題,然後我們功能其實大部分都是通過Nginx反向代理來實現的。我們可以看下圖:
反向代理的特點
我們可以清楚的看到,多個客戶端給伺服器傳送的請求,Nginx伺服器接收到請求以後,按照一定的規則轉發到不同的伺服器進行業務邏輯處理。此時請求來源於哪個客戶端是確定的,但是請求由哪臺伺服器處理的並不明確,Nginx扮演的就是一個反向代理角色。可以這樣來理解,反向代理對外都是透明的,訪問者並不知道自己訪問的是一個代理。反向代理代理的是服務端,主要用於伺服器叢集分散式部署的情況下,反向代理隱藏了伺服器的資訊。
反向代理的使用:
- 保證內網的安全,通常將反向代理作為公網訪問地址,Web伺服器是內網
- 負載均衡,通過反向代理伺服器來優化網站的負載
正向代理與反向代理區別
- 在正向代理中,隱藏了請求來源的客戶端資訊;
- 在反向代理中,隱藏了請求具體處理的服務端資訊;
服務端中我們最常使用的反向代理的工具就是Nginx。
二、基本架構
Nginx在啟動後以daemon的方式在後臺執行,會有一個master程式和多個worker程式:
- Nginx 在啟動後,會有一個 master 程式和多個相互獨立的 worker 程式。
- 接收來自外界的訊號,向各worker程式傳送訊號,每個程式都有可能來處理這個連線。
- master 程式能監控 worker 程式的執行狀態,當 worker 程式退出後(異常情況下),會自動啟動新的 worker 程式。
master程式:主要用來管理worker程式,包含:
- 接收來自外界的訊號
- 向各worker程式傳送訊號
- 監控worker程式的執行狀態
- 當worker程式異常退出後,會自動重新啟動新的worker程式。
worker程式:處理基本的網路事件了。多個worker程式之間是對等的,他們同等競爭來自客戶端的請求,各程式互相之間是獨立的。一個請求只能在一個worker程式中處理,一個worker程式,不可能處理其它程式的請求。worker程式的個數是可以設定的,一般我們會設定與機器cpu核數一致,或者直接設定引數worker_processes auto;
Nginx基本架構如下:
我們可以輸入nginx -s reload來重啟Nginx,nginx -s stop來停止Nginx的執行,執行這些命令時其實會啟動一個新的Nginx程式,而新的Nginx程式在解析到reload引數後,其實就可以知道使用者執行這個命令是控制Nginx重新載入配置檔案,於是向master程式傳送訊號。master程式接到訊號會先重新載入配置檔案,然後啟動新的worker程式並向所有舊worker程式傳送訊號提示老程式可以停止執行了。新的worker啟動成功後就開始接收新的請求,而舊worker在收到來自master的訊號後停止接收新的請求,在未處理完的請求處理完成後程式就會退出。所以說使用nginx -s reload命令重啟Nginx的時候服務是不中斷的。
三、Nginx處理客戶端請求方式
剛才有講到過每個worker程式都是從master程式分支的,所以在master程式裡面需要先建立好需要監聽的socket然後再分支出多個worker程式。所有worker程式listenfd事件會在新連線時變成可讀,為保證只有一個程式處理該連線,所以需要設定互斥鎖,所有worker程式需要搶互斥鎖,搶到互斥鎖的work程式註冊listenfd讀事件,在listenfd讀事件裡呼叫accept接受該連線。當Nginx監聽80埠時,一個客戶端的連線請求過來的時候,每個worker程式都會去搶互斥鎖註冊listenfd讀事件。當一個worker程式在accept這個連線之後,就開始處理請求獲取資料,再將資料返回給客戶端,然後斷開連線,到這裡一個請求結束。
一個請求,完全由worker程式來處理,而且只在一個worker程式中處理。
我下面貼一個簡單的配置:
server {
listen 80;
server_name aaa.com www.aaa.com;
}
server {
listen 80;
server_name aaa.cn www.aaa.cn;
}
server {
listen 80;
server_name aaa.org www.aaa.org;
}
當接收到客戶端http請求,Nginx根據請求頭的Host欄位決定請求應該由哪一臺伺服器處理,如果Host欄位的值沒有匹配的伺服器或者請求中沒有Host欄位,Nginx會將請求路由至這個埠的預設伺服器。沒有顯示配置預設伺服器,則預設伺服器則為第一個配置。當然我們還可以使用default_server引數指定預設伺服器。
server {listen 80 default_server;server_name aaa.com www.aaa.com;}
這裡需要注意一下:配置預設伺服器是監聽埠號,而不是伺服器名稱。
四、Nginx實現高併發
Nginx內部採用了非同步非阻塞的方式處理請求,使用了epoll和大量的底層程式碼優化。可以同時處理成千上萬個請求的。
非同步非阻塞:每進來一個request,會有一個worker程式去處理。但不是全程的處理,處理到什麼程度呢?處理到可能發生阻塞的地方,比如向後端伺服器轉發request,並等待請求返回。這個處理的worke會在傳送完請求後註冊一個事件:“如果upstream返回了,再進行執行接下來的工作”。此時,如果再有request 進來,他就可以很快再按這種方式處理。而一旦後端伺服器返回了,就會觸發這個事件,worker程式會來接手request接著往下執行。
而Nginx採用一個master程式,多個woker程式的模式。master程式主要負責收集、分發請求。每當一個請求過來時,master就拉起一個worker程式負責處理這個請求。同時master程式也負責監控woker的狀態,保證高可靠性,woker程式一般設定為跟cpu核心數一致。Nginx的woker程式在同一時間可以處理的請求數只受記憶體限制,可以處理多個請求。Nginx 的非同步非阻塞工作方式可以把當中的程式空閒等待時間利用起來,因此表現為少數幾個程式就解決了大量的併發問題。
Nginx中以epoll為例子,當事件沒準備好時,放到epoll裡面,事件準備好了,Nginx就去讀寫,當讀寫返回EAGAIN時,就將它再次加入到epoll裡面。這樣,只要有事件準備好了,Nginx就可以去處理它,只有當所有事件都沒準備好時,才在epoll裡面等著。這樣便實現了所謂的併發處理請求,但是執行緒只有一個,所以同時能處理的請求當然只有一個了,只是在請求間進行不斷地切換而已。
Nginx單執行緒機制與多執行緒相比優勢:
- 在於不需要建立執行緒。
- 每個請求佔用的記憶體也很少。
- 沒有上下文切換。
- 事件處理非常的輕量級。
- 併發數再多也不會導致無謂的資源浪費。
五、Nginx負載均衡的演算法及引數
- weight輪詢(預設):接收到的請求按照請求順序逐一分配到不同的後端伺服器,如果在使用過程中,某一臺伺服器當機,Nginx會自動將該伺服器剔除出佇列,請求受理情況不會受到任何影響。這種方式下,可以給不同的後端伺服器設定一個權重值,權重資料越大,伺服器被分配到請求的機率越大。
- ip_hash:每個請求按照發起客戶端的ip的hash結果進行匹配,這樣的演算法下一個固定ip地址的客戶端總會訪問到同一個後端伺服器。
- fair:智慧調整排程演算法,動態的根據後端伺服器的請求響應時間進行均衡分配,響應時間短處理效率高的伺服器分配到請求的概率高,響應時間長處理效率低的伺服器分配到的請求少。
- url_hash:按照訪問的url的hash結果分配請求,每個請求的url會指向後端固定的某個伺服器,可以在Nginx作為靜態伺服器的情況下提高快取效率。
上面是最基本的4種演算法,我們還可以通過改變引數來自行配置負載均衡:
upstream localhost{
ip_hash;
server 127.0.0.1:9090 down;
server 127.0.0.1:8080 weight=2;
server 127.0.0.1:6060;
server 127.0.0.1:7070 backup;
}
- down表示當前的伺服器停止參與負載。
- weight預設為1,weight越大,負載的權重就越大。
- backup表示其它所有的非backup機器down或者忙的時候,請求backup機器。所以這臺機器壓力會最輕。
歡迎關注我的個人公眾號:程式猿周先森