介紹
隨著微服務的流行,服務和服務之間的穩定性變得越來越重要。Sentinel 是面向分散式、多語言異構化服務架構的流量治理元件,主要以流量為切入點,從流量路由、流量控制、流量整形、熔斷降級、系統自適應過載保護、熱點流量防護等多個維度來幫助開發者保障微服務的穩定性。
歷史
2012 年,Sentinel 誕生,主要功能為入口流量控制。
2013-2017 年,Sentinel 在阿里巴巴集團內部迅速發展,成為基礎技術模組,覆蓋了所有的核心場景。Sentinel 也因此積累了大量的流量歸整場景以及生產實踐。
2018 年,Sentinel 開源,並持續演進。
2019 年,Sentinel 朝著多語言擴充套件的方向不斷探索,推出 C++ 原生版本,同時針對 Service Mesh 場景也推出了 Envoy 叢集流量控制支援,以解決 Service Mesh 架構下多語言限流的問題。
2020 年,推出 Sentinel Go 版本,繼續朝著雲原生方向演進。
2021 年,Sentinel 正在朝著 2.0 雲原生高可用決策中心元件進行演進;同時推出了 Sentinel Rust 原生版本。同時我們也在 Rust 社群進行了 Envoy WASM extension 及 eBPF extension 等場景探索。
2022 年,Sentinel 品牌升級為流量治理,領域涵蓋流量路由/排程、流量染色、流控降級、過載保護/例項摘除等;同時社群將流量治理相關標準抽出到 OpenSergo 標準中,Sentinel 作為流量治理標準實現。
基本概念
資源
資源是 Sentinel 的關鍵概念。它可以是 Java 應用程式中的任何內容,例如,由應用程式提供的服務,或由應用程式呼叫的其它應用提供的服務,甚至可以是一段程式碼。在接下來的文件中,我們都會用資源來描述程式碼塊。
只要透過 Sentinel API 定義的程式碼,就是資源,能夠被 Sentinel 保護起來。大部分情況下,可以使用方法簽名,URL,甚至服務名稱作為資源名來標示資源。
規則
圍繞資源的實時狀態設定的規則,可以包括流量控制規則、熔斷降級規則以及系統保護規則。所有規則可以動態實時調整。
Sentinel 功能和設計理念
流量控制
流量控制在網路傳輸中是一個常用的概念,它用於調整網路包的傳送資料。然而,從系統穩定性角度考慮,在處理請求的速度上,也有非常多的講究。任意時間到來的請求往往是隨機不可控的,而系統的處理能力是有限的。我們需要根據系統的處理能力對流量進行控制。Sentinel 作為一個調配器,可以根據需要把隨機的請求調整成合適的形狀,如下圖所示:
流量控制有以下幾個角度:
- 資源的呼叫關係,例如資源的呼叫鏈路,資源和資源之間的關係;
- 執行指標,例如 QPS、執行緒池、系統負載等;
- 控制的效果,例如直接限流、冷啟動、排隊等。
Sentinel 的設計理念是讓您自由選擇控制的角度,並進行靈活組合,從而達到想要的效果。
熔斷降級
什麼是熔斷降級
除了流量控制以外,降低呼叫鏈路中的不穩定資源也是 Sentinel 的使命之一。由於呼叫關係的複雜性,如果呼叫鏈路中的某個資源出現了不穩定,最終會導致請求發生堆積。這個問題和 Hystrix 裡面描述的問題是一樣的。
Sentinel 和 Hystrix 的原則是一致的: 當呼叫鏈路中某個資源出現不穩定,例如,表現為 timeout,異常比例升高的時候,則對這個資源的呼叫進行限制,並讓請求快速失敗,避免影響到其它的資源,最終產生雪崩的效果。
熔斷降級設計理念
在限制的手段上,Sentinel 和 Hystrix 採取了完全不一樣的方法。
Hystrix 透過執行緒池的方式,來對依賴(在我們的概念中對應資源)進行了隔離。這樣做的好處是資源和資源之間做到了最徹底的隔離。缺點是除了增加了執行緒切換的成本,還需要預先給各個資源做執行緒池大小的分配。
Sentinel 對這個問題採取了兩種手段:
- 透過併發執行緒數進行限制
和資源池隔離的方法不同,Sentinel 透過限制資源併發執行緒的數量,來減少不穩定資源對其它資源的影響。這樣不但沒有執行緒切換的損耗,也不需要您預先分配執行緒池的大小。當某個資源出現不穩定的情況下,例如響應時間變長,對資源的直接影響就是會造成執行緒數的逐步堆積。當執行緒數在特定資源上堆積到一定的數量之後,對該資源的新請求就會被拒絕。堆積的執行緒完成任務後才開始繼續接收請求。 - 透過響應時間對資源進行降級
除了對併發執行緒數進行控制以外,Sentinel 還可以透過響應時間來快速降級不穩定的資源。當依賴的資源出現響應時間過長後,所有對該資源的訪問都會被直接拒絕,直到過了指定的時間視窗之後才重新恢復。
系統負載保護
Sentinel 同時提供系統維度的自適應保護能力。防止雪崩,是系統防護中重要的一環。當系統負載較高的時候,如果還持續讓請求進入,可能會導致系統崩潰,無法響應。在叢集環境下,網路負載均衡會把本應這臺機器承載的流量轉發到其它的機器上去。如果這個時候其它的機器也處在一個邊緣狀態的時候,這個增加的流量就會導致這臺機器也崩潰,最後導致整個叢集不可用。
針對這個情況,Sentinel 提供了對應的保護機制,讓系統的入口流量和系統的負載達到一個平衡,保證系統在能力範圍之內處理最多的請求。
如何工作的
Sentinel 的主要工作機制如下:
- 對主流框架提供適配或者顯示的 API,來定義需要保護的資源,並提供設施對資源進行實時統計和呼叫鏈路分析。
- 根據預設的規則,結合對資源的實時統計資訊,對流量進行控制。同時,Sentinel 提供開放的介面,方便您定義及改變規則。
- Sentinel 提供實時的監控系統,方便您快速瞭解目前系統的狀態。
流控降級與容錯標準
Sentinel 社群正在將流量治理相關標準抽出到 OpenSergo 標準中,Sentinel 作為流量治理標準實現。有關 Sentinel 流控降級與容錯 spec 的最新進展,請參考 opensergo-specification,也歡迎社群一起來完善標準與實現。