我只是下了個訂單,鬼知道我在微服務裡經歷了什麼

陳於喆發表於2019-05-18

www.icoco.tech/使用者在電商網站中購買成…

題目:使用者在電商網站中購買成功了,那麼它在微服務中經歷了什麼?

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼

當我傻啊,使用者在電商網站購買成功,還在微服務中,那肯定就是有一套微服務架構的電商系統。

設計一套電商系統還不簡單

簡單想象一下,既然是一個電商系統,有使用者去購買,就肯定得有一個使用者模組,購買什麼東西總不是西北風吧,購買肯定是商品吧,省掉購物車,就得有商品模塊吧,商品總得有庫存吧,庫存就暫時跟商品放一起吧,什麼倉儲物流先別管,就當作是虛擬商品好了,反正題目也沒說不能是虛擬商品^_^,購買成功了,那就必須有訂單吧,加個訂單模組,下完單總得支付吧,不付錢人家憑什麼把東西給你,那就得有個支付模組

簡單粗暴,四個模組

使用者模組,商品模組(庫存),訂單模組,支付模組

image

好,幾個模組搞定,外加下單流程圖

image

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,貌似題目說是微服務,既然是微服務就涉及到拆分服務的問題

DDD 領域驅動設計

剛剛確實是梳理了一下模組,既然是微服務,就得進行服務的拆分,服務怎麼進行拆分呢,貌似按照剛次梳理模組來劃分也是可以,不過這樣好像顯得我很不是專業,聽說現在很多人都要使用DDD(領域驅動設計)來指導微服務的拆分。

參考DDD的設計,DDD官方的架構草圖,總體架構分為四層,Infrastructure(基礎實施層),Domain(領域層),Application(應用層),Interfaces(表示層,也叫使用者介面層或是介面層)

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
微服務結合DDD

不過對於領域設計而言程式碼層其實不是最重要,最要的是如何去劃分領域,劃分好邊界。而對於微服務而言,非常適合從業務上去劃分各個Modules,劃分好各個業務板塊,微服務 + DDD,個人覺得首先從微服務的角度考慮去劃分大的業務模組,每個微服務都應該是一個可以獨立部署,各司其職的模組。簡單的說,在微服務實際的開發中,結合DDD的思想去劃分所有屬於自己的領域。

實施DDD的關鍵

第一點是使用通過的語言建立所有的聚合,實體,值物件。

第二點也就是最關鍵的“建模”

  • 劃分“戰略建模”,從一個種巨集觀的角度去稽核整個專案,劃分出“界限上下文”,形成具有上帝視角的“上下文對映圖”

  • 還有一個建模“戰術建模”,在我們的“戰略建模”劃分出來的“界限上下文”種進行“聚合”,“實體”,“值物件”,並按照模組分組。

構建我們電商系統的上下文對映圖

先來確定我們的戰略核心的領域是什麼,我們的目的是什麼,作為一個電商系統,我們的核心肯定是賣出更多的商品,獲取更多訂單更多的利潤,那麼銷售可以作為我們的一個核心的領域。這個作為一個明確核心域確立下來。

image
確定完核心子域後,根據對這個領域的理解劃分出各個上下文,然後根據上下文再確定其他的相關領域。

image
初步我們可以看出圍繞銷售核心域的包含的幾大塊內容,價格,銷售方式,購買的方式,已經購買。 然後我們對支撐著核心域的子域也做了劃分,支撐著核心域的有商品域,使用者域,通用域有訂單域,物流域,支付域。

回到我們的主題,我們這次沒有購物車,也沒有各個會員銷售價格,把一些上下文拿掉,並建立對映。

image

領域驅動設計看似簡單,其實很難實施,因為在各個環節中都需要對應的領域專家的參加或指導,這樣才能設計出最符合實際的上下文對映圖,而且我們花費的精力可能相比以後的資料驅動開發模式更多,但在整體對專案的把控效能上說,領域比資料驅動更加抽象,更加的頂層設計,在對應網際網路的多變情況看得更遠。

我們將微服務拆分為5個領域,分別是銷售域,商品域,使用者域,訂單域,支付域。

完美,接下來就可以開始開發了 ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,兵馬未動,糧草先行;程式碼未動,圖先行,先把時序圖畫出來

時序圖

一個簡單的下單流程,涵蓋了幾個領域

image

完美,接下來就可以開發微服務了^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,微服務的技術棧還未選型

微服務技術棧選型

服務拆分完了,時序圖也畫完了,可以開始我們的微服務之旅了,目前主流的微服務有阿里大名鼎鼎的dubbo和Spring-Cloud全家桶,還有新浪的Motan。比較熟悉的還是dubbo和spring-cloud,也都使用過,究竟應該選用哪一個呢?

因為之前都使用過,做點簡單,粗暴的總結。dubbo在很早之前就開始使用,當時的微服務還沒有現在這麼火,很多理論體系也未完善,dubbo更像是一套rpc整合框架,spring-cloud則更傾向微服務架構的生態。相比Dubbo,springCloud可以說是微服務一整套的解決方案,在功能上是dubbo的一個超級。 Dubbo和SpringCloud比喻,Dubbo架構的微服務就像組裝電腦,各個環節自由度很高。springCloud更像品牌機。

基於不折騰,簡單快捷,更傾向選擇spring-cloud,ok,就定下來技術棧使用spring-cloud,愉快的決定。

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,就這麼草率就決定用spring-cloud做為微服務,難道不需要把微服務的利弊先弄清楚嗎?

微服務 : 利和弊

既然選擇了微服務,就得知道微服務的利和弊,特別是弊,引入了微服務,就等於引入了一套複雜的體系,一套複雜的體系帶來的各種挑戰必須事先了解清楚。

image

利:

1.強模組化邊界

我們知道做軟體架構,軟體設計,模組化是非常重要的一點,一開始我們寫程式做軟體,我們採用類的方式來做模組化,後面開始採用元件或類庫的方式做模組化,可以做到工程上的重用和分享給其他團隊來使用。微服務在元件的層次上面又高了一層,以服務的方式來做模組化,每個團隊獨立開始和維護自己的服務,有明顯的一個邊界,開發完一個服務其他團隊可以直接呼叫這個服務,不需要像元件通過jar或原始碼的方式去進行分享,所以微服務的邊界是比較清晰的。

2.可獨立部署
3.技術多樣性

弊(或者說挑戰):

1.分散式複雜性

在原來單塊應用就是一個應用,一個對單塊應用的架構比較熟悉的人可以對整個單塊應用有一個很好的把控。但是到了分散式系統,微服務化了以後可能涉及到的服務有好幾十個,一些大公司可能涉及到的服務上百個,服務與服務之間是通過相互溝通來實現業務,那麼這個時候整個系統就變成非常複雜,一般的開發人員或一個團隊都無法理解整個系統是如何工作的,這個就是分散式帶來的複雜性。

2.最終一致性

微服務的資料是分散式治理的,每個團隊都有自己的資料來源和資料拷貝,比方說團隊A有訂單資料,B團隊也有訂單資料,團隊A修改了訂單資料是否應該同步給團隊B的資料呢,這裡就涉及到資料一致性問題,如果沒有很好的解決一致性問題,就可能造成資料的不一致,這個在業務上是不可以接受的。

3.運維複雜性

以往的運維需要管理的是機器+單塊的應用,分散式系統和單塊應用不一樣的是,分散式系統需要很多的服務,服務與服務之間相互協同,那麼對分散式系統的資源,容量規劃,對監控,對整個系統的可靠性穩定性都非常具備挑戰的。

只有在清楚瞭解微服務帶來的挑戰,明知道山有虎偏向虎山行,才能夠真正的勝任挑戰,最重要的是,要清楚明瞭裡面有什麼坑,這麼避免踩坑。

完美,已經瞭解微服務帶來的好處和挑戰,接下來就可以開始開發了 ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,微服務還沒有做邏輯分層

微服務怎麼做邏輯分層

目前我們的微服務裡面有幾個服務,分別是訂單,商品,使用者,如果客戶端向檢視 “我的訂單” 這麼一個介面, 如果客戶端假定是pc端,就需要請求三次介面,分別對接訂單,商品,使用者三個服務,分別拿完三次呼叫資料,再將三次呼叫資料進行整合輸出展示。要知道pc呼叫後端服務是走外網,這無疑大大增加了網路的開銷,而且讓pc端變成更為複雜。假定在中間加多一個層為聚合服務層,即對網路開銷進行減少,因為微服務內部是通過內網進行資料傳輸,也讓pc端的業務變得比較簡單。

image

圖中的 “pc聚合服務” 也是一個微服務,只不過它是屬於聚合服務中間層,我們將為微服務進行邏輯劃分,分為2個層:

image

微服務基礎服務層

基礎服務一般屬於網際網路平臺基礎性的支撐服務,比方說,電商網站的基礎服務有訂單服務,商品服務,使用者服務等,這些都屬於比較基礎和原子性,下沉一個公司的基礎設施的低層,向下承接儲存,向上提供業務能力,有些公司叫(基礎服務,中間層服務,公共服務),netflix成為中間層服務。我們暫且統稱為基礎服務。

微服務聚合服務層

已經有了基礎服務能提供業務能力,為什麼還需要聚合服務,因為我們有不同的接入端,如app和H5,pc等等,它們看似呼叫大致相同的資料,但其實存在很多差異,例如PC需要展示更多資訊,APP需要做資訊裁剪等等。一般低層服務都是比較通用的,基礎服務應該對外輸出相對統一的服務,在抽象上做得比較好。但是對不同的外界app和pc的接入,我們需要作出不同的適配,這個時候需要有一個層去做出聚合裁剪的工作。例如一個商品詳情在pc端展示和app端的展示,pc可能會展示更多的資訊,而app則需要對資訊作出一些裁剪,如果基礎服務直接開放介面給到pc和app,那麼基礎服務也需要去做成各種設配,這個很不利於基礎服務的抽象,所以我們在基礎層之上加入聚合服務層,這個層可以針對pc和app做成適當的設配進行相應的裁剪。

那麼我們的微服務中,又增加了一個服務,屬於聚合服務

image

好了,接下來可以愉快的coding...

image

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,貌似不對,如果是單塊應用加上事務應該沒問題,這裡是分散式,恐怕得考慮加分散式事務

分散式事務

我們來理一理建立訂單和扣件庫存模組之間的關係

image

可以發現,因為微服務的原因,我們把服務進行了分散式,隨著各個資料庫也隨著變成分散式每個資料庫不一定存在相同的物理機中,那麼這個時候單個資料庫的ACID已經不能適應這種情況,而在這種叢集中想去保證叢集的ACID幾乎很難達到,或者即使能達到那麼效率和效能會大幅下降,最為關鍵的是再很難擴充套件新的分割槽了,這個時候如果再追求叢集的ACID會導致我們的系統變得很差,這時我們就需要引入一個新的理論原則來適應這種叢集的情況,就是 CAP

CAP定理

CAP 必須滿足一下的3個屬性:

  • 一致性(C):在分散式系統中的所有資料備份,在同一時刻是否同樣的值。(等同於所有節點訪問同一份最新的資料副本)
  • 可用性(A):在叢集中一部分節點故障後,叢集整體是否還能響應客戶端的讀寫請求。(對資料更新具備高可用性)
  • 分割槽容錯性(P):以實際效果而言,分割槽相當於對通訊的時限要求。系統如果不能在時限內達成資料一致性,就意味著發生了分割槽的情況,必須就當前操作在C和A之間做出選擇。

簡單的來說,在一個分散式系統中,最多能支援上面的兩種屬性。但顯然既然是分散式註定我們是必然要進行分割槽,既然分割槽,我們就無法百分百避免分割槽的錯誤。因此,我們只能在一致性和可用性去作出選擇。

在分散式系統中,我們往往追求的是可用性,它的重要性比一致性要高,那麼如何實現高可用,這裡又有一個理論,就是BASE理論,它給CAP理論做了進一步的擴充。

BASE理論

BASE指出:

  • Basically Available(基本可用)
  • Soft state(軟狀態)
  • Eventually consistent(最終一致性)

BASE理論是對CAP中的一致性和可用性進行一個權衡的結果,理論的核心思想就是:我們無法做到強一致,但每個應用都可以根據自身的業務特點,採用適當的方式來使系統達到最終一致性

好了,說了一大頓理論,程式設計師們都等急了,趕快來看看分散式事務的解決方案有哪些,可以進行接下去的coding...

來吧,討論技術方案:

image

幾個方案拿出來了,因為我們不是專門來講解分散式事務的機制和原理,主要還是來做分散式事務的技術選型。

先排除掉我們應該不會選擇的方案,一個是XA兩階段提交,這個在很多傳統型公司會被使用,但不適合網際網路微服務的分散式系統,鎖定資源時間長,效能影響大,排除。

另一個是ali的GTS並沒有開源,目前已經開源了fescar,不過目前善缺少調研,可能在下個階段研究後會使用,目前先排除。

剩下的是TCC和MQ訊息事務兩種

MQ訊息事務-RocketMQ

先說說MQ的分散式事務,RocketMq在4.3版本已經正式宣佈支援分散式事務,在選擇Rokcetmq做分散式事務請務必選擇4.3以上的版本。

事務訊息作為一種非同步確保型事務, 將兩個事務分支通過 MQ 進行非同步解耦,RocketMQ 事務訊息的設計流程同樣借鑑了兩階段提交理論,整體互動流程如下圖所示:

image

這個時候我們基本可以認為,只有MQ傳送方自己的本地事務執行完畢,那麼MQ的訂閱方必定百分百能夠接收到訊息,我們再對下單減庫存的步驟進行改造:

這裡涉及到一個非同步化的改造,我們理一下如果是同步流程中的各個步驟

  1. 檢視商品詳情(或購物車)
  2. 計算商品價格和目前商品存在庫存(生成訂單詳情)
  3. 商品扣庫存(呼叫商品庫存服務)
  4. 訂單確認(生成有效訂單)

訂單建立完成後,釋出一個事件“orderCreate” 到訊息佇列中,然後由MQ轉發給訂閱該訊息的服務,因為是基於訊息事務,我們可以認為訂閱該訊息的商品模組是百分百能收到這個訊息的。

image

image

商品服務接受到orderCreate訊息後就執行扣減庫存的操作,注意⚠️,這裡可能會有一些不可抗的因素導致扣減庫存失敗,無論成功或失敗,商品服務都將傳送一個扣減庫存結果的訊息“stroeReduce”到訊息佇列中,訂單服務會訂閱扣減庫存的結果。

訂單服務收到訊息後有兩種可能:

  1. 如果扣減庫存成功,將訂單狀態改為 “確認訂單” ,下單成功
  2. 如果扣減庫存失敗,將訂單狀態改為 “失效訂單” ,下單失敗

image

這種模式將確認訂單的流程變成非同步化,非常適合在高併發的使用,但是,切記了,這個需要前端使用者體驗的一些改變,要配合產品來涉及流程。

  • 完美,使用MQ分散式事務就可以解決調一致性問題
我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,MQ訊息事務方案的風險瞭解一下

上面使用MQ的方式確實是可以完成A和B操作,但是A和B並不是嚴格一致性,而是最終一致性,我們犧牲掉嚴格一致性,換來效能的提升,這種很適合在大促高併發場景總使用,但是如果B一直執行不成功,那麼一致性也會被破壞,後續應該考慮到更多的兜底方案,方案越細系統就將越複雜。

TCC方案

TCC是服務化的二階段變成模型,每個業務服務都必須實現 try,confirm,calcel三個方法,這三個方式可以對應到SQL事務中Lock,Commit,Rollback。

1). try階段 try只是一個初步的操作,進行初步的確認,它的主要職責是完成所有業務的檢查,預留業務資源

2). confirm階段 confirm是在try階段檢查執行完畢後,繼續執行的確認操作,必須滿足冪等性操作,如果confirm中執行失敗,會有事務協調器觸發不斷的執行,直到滿足為止

3). cancel是取消執行,在try沒通過並釋放掉try階段預留的資源,也必須滿足冪等性,跟confirm一樣有可能被不斷執行

接下來看看,我們的下單扣減庫存的流程怎麼加入TCC

image

在try的時候,會讓庫存服務預留n個庫存給這個訂單使用,讓訂單服務產生一個“未確認”訂單,同時產生這兩個預留的資源, 在confirm的時候,會使用在try預留的資源,在TCC事務機制中認為,如果在try階段能正常預留的資源,那麼在confirm一定能完整的提交

image

在try的時候,有任務一方為執行失敗,則會執行cancel的介面操作,將在try階段預留的資源進行釋放。

完美,可以把我們的系統引入TCC ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,有同學提問

  • 有同學可能會問了,如果在confirm或cancel中,有一方的操作失敗了,可能出現異常等情況該怎麼解決,這個就涉及TCC的事務協調器了,事務協調器就confirm或cancel沒有得到返回的時候,會啟用定時器不斷的進行confirm或cancel的重試,這個也就是我們強調,confirm,cancel介面必須是冪等性的一個原因了

  • 還有同學會問了,為什麼事務協調器知道confirm,或cancel沒有完成,這個就涉及到了TCC也做了一張本地訊息表,會記錄一次事務,包括主事務,子事務,事務的完成情況都會記錄在這種表中(當然未必是表,可能是zk,redis等等介質),然後啟用一個定時器去檢查這種表。

  • 還有同學會問,事務怎麼傳遞,這個就涉及使用的TCC的框架了,一般來說用的都是隱式傳參的方式。在主事務建立的時候用隱式傳參呼叫子事務,子事務包含try,confirm,cancel都會記錄到事務表裡面。

這裡推薦TCC的開源框架使用mengyun的TCC,然後也可以其他的,無所謂。

完美,下單的流程開發完畢了,可以讓QA接入 ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,微服務的保護措施做了嗎

熔斷限流隔離降級

微服務分散式依賴關係錯綜複雜,比方說前端的一個請求,這來到後端會被轉為為很多個請求,個時候後臺的服務出現不穩定或者延遲,如果沒有好的限流熔斷措施,可能會造成使用者體驗的下降,嚴重的時候會出現雪崩效應,把整個網站給搞垮,如果向阿里巴巴在雙11等活動中,如果沒有一套好的限流熔斷措施,這是不可想象的,可能是根本無法支撐那麼大的併發容量。

netflix在2012年前也沒有設計好的限流容錯,當時也是飽受著系統穩定性的困擾,好幾次網站因為沒有好的熔斷措施把網站搞垮,在2012年netflix啟動了彈性工程專案,其中有一個產品叫hystrix,這個產品主要用來解決微服務的可靠性,有了這個系統之後,netflix在系統穩定性上上了一個大的臺階,在此之後就沒有出現過大規模的雪崩事故

下面使用hystrix也例子來講解一下限流熔斷

幾個概念:

熔斷,隔離,限流,降級,這幾個概念是分散式容錯最重要的概念和模式。

熔斷

如果說房子裡面安裝了電路熔斷器,當你使用超大功率的電路時,有熔斷設配幫你保護不至於出問題的時候把問題擴大化。

隔離

我們知道計算資源都是有限的,cpu,記憶體,佇列,執行緒池都是資源,他們都是限定的資源數,如果不進行隔離,一個服務的呼叫可能要消耗很多的執行緒資源,把其他服務的資源都給佔用了,那麼可能出現應為一個服務的問題連帶效應造成其他服務不能進行訪問。

限流

讓大流量的訪問衝進去我們的服務時,我們需要一定的限流措施,比方說我們規則一定時間內只允許一定的訪問數從我們的資源過,如果再大的化系統會出現問題,那麼就需要限流保護。

降級

如果說系統後題無法提供足夠的支撐能力,那麼需要一個降級能力,保護系統不會被進一步惡化,而且可以對使用者提供比較友好的柔性方案,例如告知使用者暫時無法訪問,請在一段時候後重試等等。

hystrix

hystrix就把上面說的 熔斷,隔離,限流,降級封裝在這麼一個元件裡面 下圖是hystrix內部設計和呼叫流程

image

  • 大致的工作流如下:
  1. 構建一個HystrixCommand物件,用於封裝請求,並在構造方法配置請求被執行需要的引數
  2. 執行命令,Hystrix提供了幾種執行命令的方法,比較常用到的是synchrous和asynchrous
  3. 判斷電路是否被開啟,如果被開啟,直接進入fallback方法
  4. 判斷執行緒池/佇列/訊號量是否已經滿,如果滿了,直接進入fallback方法
  5. 執行run方法,一般是HystrixCommand.run(),進入實際的業務呼叫,執行超時或者執行失敗丟擲未提前預計的異常時,直接進入fallback方法
  6. 無論中間走到哪一步都會進行上報metrics,統計出熔斷器的監控指標
  7. fallback方法也分實現和備用的環節
  8. 最後是返回請求響應

完美,把hystrix加入我們系統吧,這樣突然有洪峰流量也不至於我們的系統一下就沖垮 ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,hystrix的限流數值,錯誤數熔斷,超時熔斷,嘗試恢復比率這些需要我們配置的數值應該怎麼定呢?

這個就取決你的系統壓測的指標和你部署的規模了,這裡還涉及到一個容量設計的問題,一會我們將系統部署上線的時候再來詳細說道。

剛剛提到一個問題,就是這些限流數值,錯誤數熔斷這些數字,我們現在都寫在配置檔案裡面,例如說寫在properties,yml裡面,當有一天突然需要把限流數下調(可能是系統遭受到什麼壓力打擊),那我們只能把程式碼拉下來,巴拉巴拉改了,然後重新上傳打包,釋出重啟,一個流程下來,不說個把小時吧,十來分鐘總少不了吧。

想辦法我們把這些配置項放到一個集中式配置中心

集中式配置中心

自己寫配種中心還挺麻煩的,去菜市場逛逛吧,菜市場裡面有,springcloud-Config,百度的disconf,阿里的diamond,還有攜程的apollo

基本上他們的原理都差不多,配置中心可以簡單的理解為一個服務模組,開發人員或運維人員可以通過介面對配種中心進行配置,下面相關的微服務連線到配置中心上面就可以實時連線獲取到配置中心上面修改的引數。更新的方式一般有兩種

  • pull模式,服務定時去拉取配置中心的資料
  • push模式,服務一直連線到配置中心上,一旦配置有變成,配種中心將把變更的引數推送到對應的微服務上

image

pull 和 push 兩種模式其實各有優缺點。

  • pull一般使用定時器拉取,就算某一個網路抖動沒有pull成功,在下一次定時器的時候,終將能保證獲取最新的配置。

  • push可以避免pull定時器存在的延時,基本可以做到實時獲取資料,但也有問題就是網路抖動的時候可能會丟失更新。

攜程的apollo

image

攜程的apollo比較有特色的是融合了pull和push兩種模式,把兩者的優點進行了結合,開發或運維人員在配置中心進行修改,配置中心服務將實時將修改推送push到apollo的客戶端,但考慮到可能由於某些網路抖動沒有推送成功,客戶端還具備了定時向apollo服務端拉取pull資料的功能,就算推送沒成功,但是隻要一定時間週期,客戶端還是會主動去拉取同步資料,保證能把最終配置同步到服務中。這個也是apollo在高可用方面上非常有特色的設計。

apollp在高可用上也做了保證,客戶端獲取到資料會把資料快取在記憶體,還會sync到本地磁碟,就算apollo伺服器掛掉了,就算客戶端服務重啟了,也可以從本地磁碟中拉取回來資料,繼續提供對外服務,從這點來看apollo的配置中心在高可用上考慮還是比較周到的。

把配置中心配置上去後,我們就可以把hystrix還有mysql的使用者密碼,還有一些業務開關等等的配置引數放上去了。

完美,開發基本完工了,其實就幾個模組,一個簡單的下單購物流程,當我們把系統交付給運維,運維喊道,日誌呢,做微服務怎麼可以沒有呼叫鏈日誌呢?

呼叫鏈監控&日誌

確實,微服務是一個分散式非常複雜系統,如果沒有一套呼叫鏈監控,如果服務之間依賴出現問題就很難進行定位。

下圖是ali在鷹眼系統給出的微服務之“熵”

image

目前個大主流網際網路公司中,ali有非常出現的鷹眼系統,點評也有一套很出名的呼叫鏈監控系統CAT。呼叫鏈監控其實最早是google提出來的,2010年google發表了一篇呼叫鏈的論文,論文以它內部的呼叫鏈系統dapper命名,這個論文中講解呼叫鏈在google使用的經驗和原理,大致的原理如下圖:

image

這裡可以採用ELK的方式去記錄和展示呼叫鏈監控日誌,當我們一條呼叫為一行記錄儲存下來

image

通過traceId 和 parentSpanId 就可以串聯起來為一個整體的鏈路,並可以從這個鏈路去分析錯誤或者呼叫延時和呼叫次數等等

image

目前市面主流的呼叫鏈選型有 zipkin,pinpoint,cat,skywalking,他們之間各有一些偏重點,值得一說的是skywalking國人出品的一款新的呼叫鏈工具,採用開源的基於位元組碼注入的呼叫鏈分析,接入段無程式碼入侵,而且開源支援多種外掛,UI在幾款工具來說比較功能比較強大,而且ui也比較賞心悅目,目前已經加入了apache孵化器。

採用了skywalking作為呼叫鏈工具

為何會採用skywaling,在低層原理的實現,這幾款產品都差不多,但在實現和使用的細節相別還是很大。

  • 首先在實現方式上,skywalking基本對於程式碼做到了無入侵,採用java探針和位元組碼增強的方式,而在cat還採用了程式碼埋點,而zipkin採用了攔截請求,pinpoint也是使用java探針和位元組碼增強。
  • 其次在分析的顆粒度上,skywaling是方法級,而zipkin是介面級,其他兩款也是方法級。
  • 在資料儲存上,skywalking可以採用日誌體系中比較出名的ES,其他幾款,zipkin也可以使用ES,pinpoint使用Hbase,cat使用mysql或HDFS,相對複雜,由於目前公司對ES熟悉的人才比較有保證,選擇熟悉儲存方案也是考慮技術選型的重點。
  • 還有就是效能影響,根據網上的一些效能報告,雖然未必百分百準備,但也具備參考價值,skywalking的探針對吞吐量的影響在4者中間是最效的,經過對skywalking的一些壓測也大致證明。

完美,把微服務的包打好,上傳到伺服器就可以執行了 ^ _ ^

我只是下了個訂單,鬼知道我在微服務裡經歷了什麼
  • 等等,微服務包都打好了,剩下就是jar包或war包一個一個上傳到伺服器上,然後用個指令碼start,在以前單塊應用還好,現在微服務幾十幾百個應用,請問,運營人員怕不怕?

聽說,docker + kubernetes和微服務更配喔

docker + kubernetes

就幾個服務,先不用容器化部署了...乍一看,沒玩沒了,還有CICD,灰度釋出...容器編排...

下次再講把,先把服務部署上去吧

部署到生產,預估容量

該把服務部署上線了,一個服務上線肯定得評估下或者預估下訪問量有多少使用者,有多少訪問,這個涉及到該配置多少的機器資源,這應該怎麼去估算呢,反正程式設計師在家裡怎麼算都算不出來。

評估訪問量
  1. 問運營,如果是一個已經上線的產品,肯定存在已有的使用者數和訪問資料,就算存在偏差,也是可控的範圍。
  2. 問產品,確定一個什麼樣形態的產品,例如是拼團,例如是秒殺,各種處理方式都不同
評估平均訪問量qps

一天86400秒,一般認為請求大部分發生在白天,就按照40000計算,日平均訪問量=日總訪問量/40000

評估高峰qps

可以把之前每日的訪問曲線圖拉出來看看,峰值是根據業務不同而定的,例如,有些業務是白天早上10點的流量偏多,有些業務是晚上人家休閒類的流量偏多,總之,根據業務去估算出日均的峰值,類似於電商類的服務,一般峰值是日均流量的5倍左右。還有例如一些大促活動可能會更高,這個都要跟運營人員提前溝通好的,還有一些活動例如,秒殺,這個就不是靠預估出來,秒殺是另一種的考慮情況,採取的應對策略跟普通訂單是完全不同。

評估系統,單機極限qps

在上線之前需要跟測試人員一起做壓力測試,針對每個服務每臺機器去做,一般來說,會把一個服務一臺機器壓到極限,在逐步的進行優化。 思考一個問題,假定單臺機器最大的qps是1000,我們峰值是5000,那需要用多少臺機器去抗?答案是大於等於6臺,最少的容錯不得少於1臺。


貌似一個非常簡單的微服務就差不多,不過貌似還是差了很多,數一下:

  1. 監控系統哪去了:(基礎設施監控,系統監控,應用監控,業務監控)
  2. 閘道器哪裡去了
  3. 統一的異常處理哪裡去了
  4. API文件哪裡去了
  5. 容器化哪裡去了
  6. 服務編排哪裡去了
  7. ...
我只是下了個訂單,鬼知道我在微服務裡經歷了什麼

相關文章