高併發下秒殺商品,必須知道的9個細節

雨點的名字發表於2021-11-22

高併發下如何設計秒殺系統?這是一個高頻面試題。這個問題看似簡單,但是裡面的水很深,它考查的是高併發場景下,從前端到後端多方面的知識。

秒殺一般出現在商城的促銷活動中,指定了一定數量(比如:10個)的商品(比如:手機),以極低的價格(比如:0.1元),讓大量使用者參與活動,但只有極少數使用者能夠購買成功。這類活動商家絕大部分是不賺錢的,說白了是找個噱頭宣傳自己。

雖說秒殺只是一個促銷活動,但對技術要求不低。下面給大家總結一下設計秒殺系統需要注意的9個細節。

高併發下秒殺商品,必須知道的9個細節

一、瞬時高併發

一般在秒殺時間點(比如:12點)前幾分鐘,使用者併發量才真正突增,達到秒殺時間點時,併發量會達到頂峰。

但由於這類活動是大量使用者搶少量商品的場景,必定會出現狼多肉少的情況,所以其實絕大部分使用者秒殺會失敗,只有極少部分使用者能夠成功。

正常情況下,大部分使用者會收到商品已經搶完的提醒,收到該提醒後,他們大概率不會在那個活動頁面停留了,如此一來,使用者併發量又會急劇下降。所以這個峰值持續的時間其實是非常短的,這樣就會出現瞬時高併發的情況,下面用一張圖直觀的感受一下流量的變化:

高併發下秒殺商品,必須知道的9個細節

像這種瞬時高併發的場景,傳統的系統很難應對,我們需要設計一套全新的系統。可以從以下幾個方面入手:

  • 頁面靜態化
  • CDN加速
  • 快取
  • mq非同步處理
  • 限流
  • 分散式鎖

二、頁面靜態化

活動頁面是使用者流量的第一入口,所以是併發量最大的地方。

如果這些流量都能直接訪問服務端,恐怕服務端會因為承受不住這麼大的壓力,而直接掛掉。

高併發下秒殺商品,必須知道的9個細節

活動頁面絕大多數內容是固定的,比如:商品名稱、商品描述、圖片等。為了減少不必要的服務端請求,通常情況下,會對活動頁面做靜態化處理。使用者瀏覽商品等常規操作,並不會請求到服務端。只有到了秒殺時間點,並且使用者主動點了秒殺按鈕才允許訪問服務端。

高併發下秒殺商品,必須知道的9個細節

這樣能過濾大部分無效請求。

但只做頁面靜態化還不夠,因為使用者分佈在全國各地,有些人在北京,有些人在成都,有些人在深圳,地域相差很遠,網速各不相同。

如何才能讓使用者最快訪問到活動頁面呢?

這就需要使用CDN,它的全稱是Content Delivery Network,即內容分發網路。

高併發下秒殺商品,必須知道的9個細節

使使用者就近獲取所需內容,降低網路擁塞,提高使用者訪問響應速度和命中率。


三、秒殺按鈕

1、秒殺按鈕設計

大部分使用者怕錯過秒殺時間點,一般會提前進入活動頁面。此時看到的秒殺按鈕是置灰,不可點選的。只有到了秒殺時間點那一時刻,秒殺按鈕才會自動點亮,變成可點選的。

但此時很多使用者已經迫不及待了,通過不停重新整理頁面,爭取在第一時間看到秒殺按鈕的點亮。

從前面得知,該活動頁面是靜態的。那麼我們在靜態頁面中如何控制秒殺按鈕,只在秒殺時間點時才點亮呢?

沒錯,使用js檔案控制。

為了效能考慮,一般會將css、js和圖片等靜態資原始檔提前快取到CDN上,讓使用者能夠就近訪問秒殺頁面。

看到這裡,有些聰明的小夥伴,可能會問:CDN上的js檔案是如何更新的?

秒殺開始之前,js標誌為false,還有另外一個隨機引數。

高併發下秒殺商品,必須知道的9個細節

當秒殺開始的時候系統會生成一個新的js檔案,此時標誌為true,並且隨機引數生成一個新值,然後同步給CDN。由於有了這個隨機引數,CDN不會快取資料,每次都能從CDN中獲取最新的js程式碼。

高併發下秒殺商品,必須知道的9個細節

此外,前端還可以加一個定時器,控制比如:10秒之內,只允許發起一次請求。如果使用者點選了一次秒殺按鈕,則在10秒之內建灰,不允許再次點選,等到過了時間限制,又允許重新點選該按鈕。


四、讀多寫少

在秒殺的過程中,系統一般會先查一下庫存是否足夠,如果足夠才允許下單,寫資料庫。如果不夠,則直接返回該商品已經搶完。

由於大量使用者搶少量商品,只有極少部分使用者能夠搶成功,所以絕大部分使用者在秒殺時,庫存其實是不足的,系統會直接返回該商品已經搶完。

這是非常典型的:讀多寫少 的場景。

高併發下秒殺商品,必須知道的9個細節

如果有數十萬的請求過來,同時通過資料庫查快取是否足夠,此時資料庫可能會掛掉。因為資料庫的連線資源非常有限,比如:mysql,無法同時支援這麼多的連線。

而應該改用快取,比如:redis。

即便用了redis,也需要部署多個節點。

高併發下秒殺商品,必須知道的9個細節

五、快取問題

通常情況下,我們需要在redis中儲存商品資訊,裡面包含:商品id、商品名稱、規格屬性、庫存等資訊,同時資料庫中也要有相關資訊,畢竟快取並不完全可靠。

使用者在點選秒殺按鈕,請求秒殺介面的過程中,需要傳入的商品id引數,然後服務端需要校驗該商品是否合法。

大致流程如下圖所示:

高併發下秒殺商品,必須知道的9個細節

根據商品id,先從快取中查詢商品,如果商品存在,則參與秒殺。如果不存在,則需要從資料庫中查詢商品,如果存在,則將商品資訊放入快取,然後參與秒殺。如果商品不存在,則直接提示失敗。

這個過程表面上看起來是OK的,但是如果深入分析一下會發現一些問題。

1、快取擊穿

比如商品A第一次秒殺時,快取中是沒有資料的,但資料庫中有。雖說上面有如果從資料庫中查到資料,則放入快取的邏輯。

然而,在高併發下,同一時刻會有大量的請求,都在秒殺同一件商品,這些請求同時去查快取中沒有資料,然後又同時訪問資料庫。結果悲劇了,資料庫可能扛不住壓力,直接掛掉。

如何解決這個問題呢?

這就需要加鎖,最好使用分散式鎖。

高併發下秒殺商品,必須知道的9個細節

當然,針對這種情況,最好在專案啟動之前,先把快取進行預熱。即事先把所有的商品,同步到快取中,這樣商品基本都能直接從快取中獲取到,就不會出現快取擊穿的問題了。

是不是上面加鎖這一步可以不需要了?

表面上看起來,確實可以不需要。但如果快取中設定的過期時間不對,快取提前過期了,或者快取被不小心刪除了,如果不加速同樣可能出現快取擊穿。

其實這裡加鎖,相當於買了一份保險。

2、快取穿透

如果有大量的請求傳入的商品id,在快取中和資料庫中都不存在,這些請求不就每次都會穿透過快取,而直接訪問資料庫了。

由於前面已經加了鎖,所以即使這裡的併發量很大,也不會導致資料庫直接掛掉。

但很顯然這些請求的處理效能並不好,有沒有更好的解決方案?

這時可以想到布隆過濾器

高併發下秒殺商品,必須知道的9個細節

系統根據商品id,先從布隆過濾器中查詢該id是否存在,如果存在則允許從快取中查詢資料,如果不存在,則直接返回失敗。

雖說該方案可以解決快取穿透問題,但是又會引出另外一個問題:布隆過濾器中的資料如何更快取中的資料保持一致?

這就要求,如果快取中資料有更新,則要及時同步到布隆過濾器中。如果資料同步失敗了,還需要增加重試機制,而且跨資料來源,能保證資料的實時一致性嗎?

顯然是不行的。

所以布隆過濾器絕大部分使用在快取資料更新很少的場景中。

如果快取資料更新非常頻繁,又該如何處理呢?

這時,就需要把不存在的商品id也快取起來。

高併發下秒殺商品,必須知道的9個細節

下次,再有該商品id的請求過來,則也能從快取中查到資料,只不過該資料比較特殊,表示商品不存在。需要特別注意的是,這種特殊快取設定的超時時間應該儘量短一點。


六、庫存問題

1、預扣庫存

對於庫存問題看似簡單,實則裡面還是有些東西。

真正的秒殺商品的場景,不是說扣完庫存,就完事了,如果使用者在一段時間內,還沒完成支付,扣減的庫存是要加回去的。

所以,在這裡引出了一個預扣庫存的概念,預扣庫存的主要流程如下:

高併發下秒殺商品,必須知道的9個細節

扣減庫存中除了上面說到的預扣庫存回退庫存之外,還需要特別注意的是庫存不足和庫存超賣問題。

2、資料庫扣減庫存

使用資料庫扣減庫存,是最簡單的實現方案了,假設扣減庫存的sql如下:

update product set stock=stock-1 where id=123;

這種寫法對於扣減庫存是沒有問題的,但如何控制庫存不足的情況下,不讓使用者操作呢?

這就需要在update之前,先查一下庫存是否足夠了。

虛擬碼如下:

int stock = mapper.getStockById(123);
if(stock > 0) {
  int count = mapper.updateStock(123);
  if(count > 0) {
    addOrder(123);
  }
}

大家有沒有發現這段程式碼的問題?

沒錯,查詢操作和更新操作不是原子性的,會導致在併發的場景下,出現庫存超賣的情況。

有人可能會說,這樣好辦,加把鎖,不就搞定了,比如使用synchronized關鍵字。

確實,可以,但是效能不夠好。

還有更優雅的處理方案,即基於資料庫的樂觀鎖,這樣會少一次資料庫查詢,而且能夠天然的保證資料操作的原子性。

只需將上面的sql稍微調整一下:

update product set stock=stock-1 where id=product and stock > 0;

在sql最後加上:stock > 0,就能保證不會出現超賣的情況。

但需要頻繁訪問資料庫,我們都知道資料庫連線是非常昂貴的資源。在高併發的場景下,可能會造成系統雪崩。而且,容易出現多個請求,同時競爭行鎖的情況,造成相互等待,從而出現死鎖的問題。

3、redis扣減庫存

redis的incr方法是原子性的,可以用該方法扣減庫存。虛擬碼如下:

boolean exist = redisClient.query(productId,userId);
  if(exist) {
    return -1;
  }
  int stock = redisClient.queryStock(productId);
  if(stock <=0) {
    return 0;
  }
  redisClient.incrby(productId, -1);
  redisClient.add(productId,userId);
return 1;

程式碼流程如下:

  • 1)先判斷該使用者有沒有秒殺過該商品,如果已經秒殺過,則直接返回-1。
  • 2)查詢庫存,如果庫存小於等於0,則直接返回0,表示庫存不足。
  • 3)如果庫存充足,則扣減庫存,然後將本次秒殺記錄儲存起來。然後返回1,表示成功。

估計很多小夥伴,一開始都會按這樣的思路寫程式碼。但如果仔細想想會發現,這段程式碼有問題。

有什麼問題呢?

如果在高併發下,有多個請求同時查詢庫存,當時都大於0。由於查詢庫存和更新庫存非原則操作,則會出現庫存為負數的情況,即庫存超賣

當然有人可能會說,加個synchronized不就解決問題?

調整後程式碼如下:

   boolean exist = redisClient.query(productId,userId);
   if(exist) {
    return -1;
   }
   synchronized(this) {
       int stock = redisClient.queryStock(productId);
       if(stock <=0) {
         return 0;
       }
       redisClient.incrby(productId, -1);
       redisClient.add(productId,userId);
   }

return 1;

synchronized確實能解決庫存為負數問題,但是這樣會導致介面效能急劇下降,每次查詢都需要競爭同一把鎖,顯然不太合理。

為了解決上面的問題,程式碼優化如下:

boolean exist = redisClient.query(productId,userId);
if(exist) {
  return -1;
}
if(redisClient.incrby(productId, -1)<0) {
  return 0;
}
redisClient.add(productId,userId);
return 1;

該程式碼主要流程如下:

    1. 先判斷該使用者有沒有秒殺過該商品,如果已經秒殺過,則直接返回-1。
    1. 扣減庫存,判斷返回值是否小於0,如果小於0,則直接返回0,表示庫存不足。
    1. 如果扣減庫存後,返回值大於或等於0,則將本次秒殺記錄儲存起來。然後返回1,表示成功。

該方案咋一看,好像沒問題。

但如果在高併發場景中,有多個請求同時扣減庫存,大多數請求的incrby操作之後,結果都會小於0。

雖說,庫存出現負數,不會出現超賣的問題。但由於這裡是預減庫存,如果負數值負的太多的話,後面萬一要回退庫存時,就會導致庫存不準。

那麼,有沒有更好的方案呢?

4、 lua指令碼扣減庫存

我們都知道lua指令碼,是能夠保證原子性的,它跟redis一起配合使用,能夠完美解決上面的問題。

lua指令碼有段非常經典的程式碼:

該程式碼的主要流程如下:

  • 1)先判斷商品id是否存在,如果不存在則直接返回。
  • 2)獲取該商品id的庫存,判斷庫存如果是-1,則直接返回,表示不限制庫存。
  • 3)如果庫存大於0,則扣減庫存。
  • 4)如果庫存等於0,是直接返回,表示庫存不足。

七、分散式鎖

之前我提到過,在秒殺的時候,需要先從快取中查商品是否存在,如果不存在,則會從資料庫中查商品。如果資料庫中,則將該商品放入快取中,然後返回。如果資料庫中沒有,則直接返回失敗。

大家試想一下,如果在高併發下,有大量的請求都去查一個快取中不存在的商品,這些請求都會直接打到資料庫。資料庫由於承受不住壓力,而直接掛掉。

那麼如何解決這個問題呢?

這就需要用redis分散式鎖了。

有關redis分散式鎖之前有寫過,具體可以參考文章

Redisson分散式鎖-原理篇(4)


八、mq非同步處理

我們都知道在真實的秒殺場景中,有三個核心流程:

高併發下秒殺商品,必須知道的9個細節

而這三個核心流程中,真正併發量大的是秒殺功能,下單和支付功能實際併發量很小。所以,我們在設計秒殺系統時,有必要把下單和支付功能從秒殺的主流程中拆分出來,特別是下單功能要做成mq非同步處理的。而支付功能,比如支付寶支付,是業務場景本身保證的非同步。

於是,秒殺後下單的流程變成如下:

高併發下秒殺商品,必須知道的9個細節

如果使用mq,需要關注以下幾個問題:

1、訊息丟失問題

秒殺成功了,往mq傳送下單訊息的時候,有可能會失敗。原因有很多,比如:網路問題、broker掛了、mq服務端磁碟問題等。這些情況,都可能會造成訊息丟失。

那麼,如何防止訊息丟失呢?

答:加一張訊息傳送表。

高併發下秒殺商品,必須知道的9個細節

在生產者傳送mq訊息之前,先把該條訊息寫入訊息傳送表,初始狀態是待處理,然後再傳送mq訊息。消費者消費訊息時,處理完業務邏輯之後,再回撥生產者的一個介面,修改訊息狀態為已處理。

如果生產者把訊息寫入訊息傳送表之後,再傳送mq訊息到mq服務端的過程中失敗了,造成了訊息丟失。

這時候,要如何處理呢?

答:使用job,增加重試機制。

高併發下秒殺商品,必須知道的9個細節

用job每隔一段時間去查詢訊息傳送表中狀態為待處理的資料,然後重新傳送mq訊息。

2、重複消費問題

本來消費者消費訊息時,在ack應答的時候,如果網路超時,本身就可能會消費重複的訊息。但由於訊息傳送者增加了重試機制,會導致消費者重複訊息的概率增大。

那麼,如何解決重複訊息問題呢?

答:加一張訊息處理表。

高併發下秒殺商品,必須知道的9個細節

消費者讀到訊息之後,先判斷一下訊息處理表,是否存在該訊息,如果存在,表示是重複消費,則直接返回。如果不存在,則進行下單操作,接著將該訊息寫入訊息處理表中,再返回。

有個比較關鍵的點是:下單和寫訊息處理表,要放在同一個事務中,保證原子操作

3、垃圾訊息問題

這套方案表面上看起來沒有問題,但如果出現了訊息消費失敗的情況。比如:由於某些原因,訊息消費者下單一直失敗,一直不能回撥狀態變更介面,這樣job會不停的重試發訊息。最後,會產生大量的垃圾訊息。

那麼,如何解決這個問題呢?

高併發下秒殺商品,必須知道的9個細節

每次在job重試時,需要先判斷一下訊息傳送表中該訊息的傳送次數是否達到最大限制,如果達到了,則直接返回。如果沒有達到,則將次數加1,然後傳送訊息。

這樣如果出現異常,只會產生少量的垃圾訊息,不會影響到正常的業務。

4、延遲消費問題

通常情況下,如果使用者秒殺成功了,下單之後,在15分鐘之內還未完成支付的話,該訂單會被自動取消,回退庫存。

那麼,在15分鐘內未完成支付,訂單被自動取消的功能,要如何實現呢?

我們首先想到的可能是job,因為它比較簡單。

但job有個問題,需要每隔一段時間處理一次,實時性不太好。

還有更好的方案?

答:使用延遲佇列。

我們都知道rocketmq,自帶了延遲佇列的功能。

高併發下秒殺商品,必須知道的9個細節

下單時訊息生產者會先生成訂單,此時狀態為待支付,然後會向延遲佇列中發一條訊息。達到了延遲時間,訊息消費者讀取訊息之後,會查詢該訂單的狀態是否為待支付。如果是待支付狀態,則會更新訂單狀態為取消狀態。如果不是待支付狀態,說明該訂單已經支付過了,則直接返回。

還有個關鍵點,使用者完成支付之後,會修改訂單狀態為已支付。

高併發下秒殺商品,必須知道的9個細節

九、如何限流

通過秒殺活動,如果我們運氣爆棚,可能會用非常低的價格買到不錯的商品(這種概率堪比買福利彩票中大獎)。

但有些高手,並不會像我們一樣老老實實,通過秒殺頁面點選秒殺按鈕,搶購商品。他們可能在自己的伺服器上,模擬正常使用者登入系統,跳過秒殺頁面,直接呼叫秒殺介面。

如果是我們手動操作,一般情況下,一秒鐘只能點選一次秒殺按鈕。

高併發下秒殺商品,必須知道的9個細節

但是如果是伺服器,一秒鐘可以請求成上千介面。

高併發下秒殺商品,必須知道的9個細節

這種差距實在太明顯了,如果不做任何限制,絕大部分商品可能是被機器搶到,而非正常的使用者,有點不太公平。

所以,我們有必要識別這些非法請求,做一些限制。那麼,我們該如何現在這些非法請求呢?

目前有兩種常用的限流方式:

  • 基於nginx限流
  • 基於redis限流

1、對同一使用者限流

為了防止某個使用者,請求介面次數過於頻繁,可以只針對該使用者做限制。

高併發下秒殺商品,必須知道的9個細節

限制同一個使用者id,比如每分鐘只能請求5次介面。

2、對同一ip限流

有時候只對某個使用者限流是不夠的,有些高手可以模擬多個使用者請求,這種nginx就沒法識別了。

這時需要加同一ip限流功能。

高併發下秒殺商品,必須知道的9個細節

限制同一個ip,比如每分鐘只能請求5次介面。

但這種限流方式可能會有誤殺的情況,比如同一個公司或網咖的出口ip是相同的,如果裡面有多個正常使用者同時發起請求,有些使用者可能會被限制住。

3、對介面限流

別以為限制了使用者和ip就萬事大吉,有些高手甚至可以使用代理,每次都請求都換一個ip。

這時可以限制請求的介面總次數。

高併發下秒殺商品,必須知道的9個細節

在高併發場景下,這種限制對於系統的穩定性是非常有必要的。但可能由於有些非法請求次數太多,達到了該介面的請求上限,而影響其他的正常使用者訪問該介面。看起來有點得不償失。

4、加驗證碼

相對於上面三種方式,加驗證碼的方式可能更精準一些,同樣能限制使用者的訪問頻次,但好處是不會存在誤殺的情況。

高併發下秒殺商品,必須知道的9個細節

通常情況下,使用者在請求之前,需要先輸入驗證碼。使用者發起請求之後,服務端會去校驗該驗證碼是否正確。只有正確才允許進行下一步操作,否則直接返回,並且提示驗證碼錯誤。

此外,驗證碼一般是一次性的,同一個驗證碼只允許使用一次,不允許重複使用。

普通驗證碼,由於生成的數字或者圖案比較簡單,可能會被破解。優點是生成速度比較快,缺點是有安全隱患。

還有一個驗證碼叫做:移動滑塊,它生成速度比較慢,但比較安全,是目前各大網際網路公司的首選。

5、提高業務門檻

上面說的加驗證碼雖然可以限制非法使用者請求,但是有些影響使用者體驗。使用者點選秒殺按鈕前,還要先輸入驗證碼,流程顯得有點繁瑣,秒殺功能的流程不是應該越簡單越好嗎?

其實,有時候達到某個目的,不一定非要通過技術手段,通過業務手段也一樣。

12306剛開始的時候,全國人民都在同一時刻搶火車票,由於併發量太大,系統經常掛。後來,重構優化之後,將購買週期放長了,可以提前20天購買火車票,並且可以在9點、10、11點、12點等整點購買火車票。調整業務之後(當然技術也有很多調整),將之前集中的請求,分散開了,一下子降低了使用者併發量。

回到這裡,我們通過提高業務門檻,比如只有會員才能參與秒殺活動,普通註冊使用者沒有許可權。或者,只有等級到達3級以上的普通使用者,才有資格參加該活動。

這樣簡單的提高一點門檻,即使是黃牛黨也束手無策,他們總不可能為了參加一次秒殺活動,還另外花錢充值會員吧?


參考

1、公眾號 蘇三說技術 的一篇文章 非常感謝。



相關文章