SQL Server記憶體遭遇作業系統程式壓榨案例

發表於2014-03-11

場景：

最近一臺DB伺服器偶爾出現CPU報警，我的郵件報警閾（請讀yù）值設定的是15%，開始時沒當回事，以為是有什麼統計類的查詢，後來越來越頻繁。

探索：

我決定來查一下，究竟是什麼在作怪，我排查的順序如下：

1、首先開啟Cacti監控，發現最近CPU均值在某天之後驟然上升，並且可以看到System\Processor Queue Length 和 sqlservr\%ProcessorTime 也在顯著的變化。

2、從最容易入手的低效SQL開始，考慮是不是最近業務做了什麼修改？連線到該SQL例項，開啟活動監視器，展開“最近耗費大量資源的查詢”，並CPU時間倒序，在這裡並未發現有即時的耗費資源的查詢。據個人經驗，這裡的值如果是4位數，分鐘內執行次數3位數，一般的伺服器CPU大概就10%以上，如果cpu時間那裡是5位數，且分鐘內執行次數也很高，幾百次以上，那CPU一般就會不淡定了。圖片僅為演示

3、沒有耗資源的SQL，這是DBA最不願意看到的結果，因為也許，SQL Server受到了來自內部或者外部的壓力，使得自己花費了過多的時間去處理與作業系統的溝通去了。SQL Server常見的非查詢低效類的效能問題，絕大多數都來自於記憶體或者硬碟，而這兩者有的時候需要同時研究對比基線，才能確定誰是因，誰是果。在這裡，我們首先檢視SQL Server記憶體使用情況，當開啟效能計數器時，我和我的小夥伴們都驚呆了……安裝了64G記憶體的資料庫，SQL Server的TargetMemory僅有500多兆！這其中StolenPage還佔用了200多兆，資料庫DataPage僅有200多兆的記憶體可供使用，Oh，Shit！雖然我很不想用“去哪了”這三個字，但是“我的記憶體去哪了“？同時我們也注意到PageLifeExpectancy值只有26（一個記憶體充足的伺服器，這個值至少應該是上W的），而很早之前我們津津樂道的”Cache Hit Ration”卻仍然保持一個比較高的水準98! 這個案例告訴我們，快取命中率這個效能計數器很多時候說明不了什麼問題。

4、OK，既然這樣，是誰佔用了本該屬於我親愛的SQL Server的記憶體呢？我們繼續，開啟Wiindows任務管理，選定程式選項卡，點選顯示所有使用者程式，發現svchost.exe佔用了絕大多數的60G記憶體！

5、那svchost.exe又是個什麼東西呢？我們下面就用到ProcessMonitor這個工具了，開啟後自動載入所有Wiindows程式，按記憶體排序後，滑鼠移至svchost.exe程式上，顯示為Remote Registry服務。

6、查到這裡，事情已經有了一定的眉目，這個多半是windows記憶體洩露Bug，遂google關鍵詞: windows server 2008 r2 remote registry memory leak

找到如下連結：http://support.microsoft.com/kb/2699780/en-us

果然：Assume that you query performance counters on a remote computer by using an application on a computer that is running Windows 7 or Windows Server 2008 R2. In this situation, the memory usage of the Remote 　　　　Registry service on the local computer increases until the available memory is exhausted.

解決方法：

1、重啟伺服器，安裝hotfix

2、因為重啟伺服器會影響到業務，所以我在想重啟RemoteRegistry服務，應該也能暫時解決問題，這個bug應該是在某種固定情景下發生的。

隨後，在合適的時間，我重啟了這個服務，SQL Server的TargetMemory重新恢復到60多G，CPU也正常了，目前為止該問題未再發生。

後續跟進：

DBA的工作，說難也難，說容易也容易，發現問題，解決問題還不夠，我們還要意識到自己的欠缺，在本案例中，我之前並沒有建立起SQL Server記憶體的監控，所以沒有在第一時間就發現病情的嚴重性，好在該伺服器並未承擔重要業務，否則後果不堪設想，說不定早就崩潰過了，後怕之處在於，如果崩潰了，自然要重啟伺服器，到那個時候，我們連第一現場都沒有，當leader問起來，我又該使勁撓頭了。

該事件之後，我建立起了SQL Server記憶體的監控，1天后，我從新的監控資料中，又發現了一臺伺服器出現相同的問題！我很慶幸，不是慶幸伺服器沒當機，而是慶幸我做對了。

附一張記憶體監控圖，可以看到服務重啟之後，SQL Server的Total Pages一直在上升，並逐漸穩定,Page life expectancy也在變得越來越大，CPU也能指示病症已消除，我很欣慰。

總結：

伺服器在出現效能問題前，大部分是提前有一些徵兆的，尤其是記憶體洩露，因為記憶體是一點點被壓榨掉的，最後到達一個極限時，SQL Server就會突然Crash掉，然後只留給你一個dump，微軟就笑了。有經驗的大夫應該從日常的腰痠背痛中看出一些端倪，然後進一步分析，提前預知重大疾病的發生，這就是DBA的價值。這個案例，告訴我，重視伺服器異常的細節變化，才能做到防患於未然。

作業系統-記憶體管理
2020-07-26
作業系統記憶體
作業系統——記憶體管理
2020-10-12
作業系統記憶體
【作業系統】記憶體管理概述
2024-05-26
作業系統記憶體
作業系統-記憶體、檔案管理
2024-08-18
作業系統記憶體
Linux作業系統記憶體淺析
2021-09-09
Linux作業系統記憶體
MySQL記憶體管理，記憶體分配器和作業系統
2020-10-14
MySql記憶體作業系統
作業系統——記憶體管理學習筆記
2020-09-11
作業系統記憶體筆記
計算機作業系統——虛擬記憶體與實體記憶體
2021-09-20
計算機作業系統記憶體
作業系統的記憶體管理你知道嗎
2023-03-30
作業系統記憶體
作業系統（八） -- 記憶體的分段與分頁
2018-10-20
作業系統記憶體
作業系統——記憶體連續分配管理方式
2020-10-17
作業系統記憶體
作業系統HugePage配置導致記憶體驟降探究
2024-02-20
作業系統記憶體
記憶體瘋狂換頁！CPU怒批作業系統
2020-07-03
記憶體作業系統
作業系統思考第六章記憶體管理
2019-05-09
作業系統記憶體
linux查詢作業系統資訊（CPU、記憶體、硬碟）
2020-12-22
Linux作業系統記憶體硬碟
SQL Server為什麼這麼耗記憶體
2021-09-09
SQLServer記憶體
讀懂作業系統之虛擬記憶體頁表（五）
2020-06-29
作業系統記憶體
作業系統：x86下記憶體分頁機制 (1)
2020-09-30
作業系統記憶體
《作業系統真象還原》核心記憶體分佈與載入
2024-10-23
作業系統記憶體
ucore作業系統學習筆記(二) ucore lab2實體記憶體管理分析
2020-10-15
作業系統筆記記憶體
作業系統（十） -- 段頁結合的實際記憶體管理模型
2018-10-23
作業系統記憶體模型
清華大學-作業系統學習筆記（五）--- 虛擬記憶體技術
2020-11-17
作業系統筆記記憶體
華納雲：Linux作業系統的記憶體管理方法是什麼
2023-09-14
Linux作業系統記憶體
SQL Server 備份出現作業系統錯誤 5(拒絕訪問。)
2018-07-02
SQLServer作業系統
作業系統筆記
2024-07-14
作業系統筆記
Linux記憶體子系統——Locking Pages(記憶體鎖定)
2020-09-16
Linux記憶體
Linux系統程式設計—共享記憶體之mmap
2018-11-28
Linux程式設計記憶體
Redis 記憶體壓縮原理
2020-08-02
Redis記憶體
讀懂作業系統之虛擬記憶體地址翻譯原理分析篇（二）
2020-06-02
作業系統記憶體
ucore作業系統學習(三) ucore lab3虛擬記憶體管理分析
2020-10-22
作業系統記憶體
作業系統筆記（八）程式同步附加篇
2018-03-13
作業系統筆記
軟體作業系統
2024-05-02
作業系統
作業系統-程式管理
2020-12-13
作業系統
如何檢視linux系統中空閒記憶體/實體記憶體使用/剩餘記憶體
2018-09-20
Linux記憶體
虛擬記憶體系統——瞭解記憶體的工作原理
2020-10-22
記憶體
Sieve—Android 記憶體分析系統
2018-08-29
Android記憶體
作業系統記憶體管理：頁、頁表項和頁框之間的關係
2024-09-08
作業系統記憶體
作業系統體系結構
2024-03-31
作業系統
Linux記憶體洩露案例分析和記憶體管理分享
2024-10-24
Linux記憶體洩露

SQL Server記憶體遭遇作業系統程式壓榨案例

場景：

探索：

解決方法：

後續跟進：

總結：

相關文章