當前,隨著電商節日的增多(6.18、雙十一、雙十二)、平臺拉新趨於頻繁,大促活動也越來越普遍。作為一個電商平臺,每年都會有一次,甚至幾次的流量“大考”。資料庫作為系統的重要節點,其穩定性和效能格外重要,資料庫的全力保障是一個大的挑戰。電商大促,這場沒有硝煙的戰爭很多人已有體會,在此不再贅述。現在,我們直接切入主題--資料庫如何 積極應對,全力保障 大促活動。這個題目分解為三個部分進行講解: 第一部分,準備工作;第二部分,大促進行時;第三部分,大促後覆盤。
“功夫在詩外”,同樣,大促活動下資料庫穩定、順暢的執行,主要工作在大促前的準備上,所以,準備工作是重點。
一.大促前準備工作
1.對大促活動應該儘可能地去了解,去熟悉。包括業務模式、業務流程以及大促可能產生的訂單量、預估峰值、預估的波峰時間、是否有爆款商品等。此外,還應對參與本次大促活動的參與方有所瞭解,特別是IT部的主要參與人員,保證跨部門協同精準、順暢。
2.梳理大促活動用到的系統鏈路,對鏈路上的系統和應用有個較為清晰的瞭解,製作大促活動全鏈路的資料庫流程圖。
3.梳理鏈路上的資料庫資源。梳理完善成一個Excel,包括資料庫的名字、資料型別、資料庫版本、用途、支援的主要系統、DBkey、物理IP、虛擬IP等、資料庫Size、磁碟空間和可用空間、記憶體、最大連線限制。
4.對鏈路資料庫故障恢復能力檢查。主要是完整備份、日誌備份 Job的檢查,和備份檔案可用性檢查。
5.檢查鏈路上資料庫的可用性檢查。主要是確定資料庫採用的高可用架構、節點數、從節點配置、可用性監控、狀態監控、同步監控等。
6.瞭解資料庫從節點的使用情況,注意平時和預估大促期間主從延遲問題,以及延遲可能造成的影響;有無優化方案;以及大促期間出現較長的延遲時,有無替代方案(例如,是否可以將從節點上的虛擬IP漂移到主節點上)。
7.定製大促期間資料庫監控大屏,主要實現通過一個監控介面基本實現對全鏈路上所有的資料庫主要指標的監控。(本公司資料庫的監控主要是通過Zabbix實現)
8.進行鏈路壓測。壓測過程中應特別留意以下指標:TPS、事務響應時間、成功事務數、各伺服器的CPU、記憶體以及磁碟使用情況等。針對資料庫而言,壓測可以發現瓶頸點,優化更有針對性。此外,壓測還有一個功能就是評估出系統的最大效能。針對最大效能,在前端做一個流量限制,特別是在商品展示、購物車、支付等功能上。流量限制,既保證了使用者體驗,也防止過去的資料請求將Cache、DB拖累至當機。
9.通過監控工具(例如:Zabbix)觀察每一個資料庫伺服器資源消耗情況。建議觀察最近一週的執行情況,例如CPU、記憶體的波動情況、峰谷、連線數、是否合理等。
10.通過監控工具、慢查詢日誌等對消耗資源較多的SQL語句進行梳理,針對性優化。常規的優化手段主要有:新建索引、調整索引、資料歸檔、有無大欄位、表結構更新、資料歸檔、SQL語句優化等。
11.鏈路資料延時監控。延時的主要原因可能是請求佇列過長或受網路延時影響,此時要特別注意跨機房(跨IDC)的應用請求和資料同步。
12.評估大促期間應用部署變更可能對資料庫造成的影響。比如,為應對大促活動的系統請求,SA可能會增加應用的部署。
13.大促期間資料庫效能閾值預估。合理的閾值是準確衡量大促情況下資料庫健康程度的溫度計。
14.梳理可降級的應用。例如,將資料歸檔的Job暫停、BI抽取資料的Task延後等。
15.應急預案的準備。應急預案應該儘可能詳細,做到心裡有譜,手中有尺。預案應包括:備用物理資源有哪些,常見需要DBA參與的業務資料更新需求有哪些,用於修復故障可能用到的操作命令,變更及異常處理的審批流程,虛擬IP漂移的操作命令。備用物理資源清單需細化到伺服器型別、作業系統、資源規格、預裝系統、IP等情況。
16.DBA值班計劃編制。
二.大促進行時
1.注意對資料庫監控系統及時監控。
2.鏈路資料延時監控。
3.對主要資料庫節點及伺服器進行巡檢。
4.及時瞭解大促進展情況,特別是訂單量。
5.需求變更應特別謹慎。
6.記錄大促過程中出現的主要異常。
三.大促後覆盤
1.完善補充大促使用的鏈路圖,完善沒有想到的節點。
2.收集彙總大促期間出現的問題點。
3.對大促期間出現的問題逐一覆盤,找到解決方案,優化並持續跟蹤。
4.大促活動結束後,需要及時恢復降級的服務。
本文版權歸作者所有,未經作者同意不得轉載,謝謝配合!!!
本文版權歸作者所有,未經作者同意不得轉載,謝謝配合!!!
本文版權歸作者所有,未經作者同意不得轉載,謝謝配合!!!