MongoDB例項重啟失敗探究（大事務Redo導致）

東山絮柳仔發表於2021-08-18

1.例項重啟背景

收到監控組同學反饋，連線某一個MongoDB例項的應用耗時異常，並且出現了超時。檢視資料庫監控平臺，發現此例項伺服器的IO異常飆升，而檢視副本集狀態(rs.status()),主從是壞掉的，從節點不可達。

登入從節點，檢視mongodb服務狀態，是stop的。

檢視伺服器的log，發現出現了OOM，Mongodb被關閉了。需要手動重啟。

Jan 17 12:02:48 qqorderdb02 kernel: Out of memory: Kill process 83717 (mongod) score 919 or sacrifice child
Jan 17 12:02:48 qqorderdb02 kernel: Killed process 83717 (mongod), UID 1001, total-vm:21256876kB, anon-rss:15529572kB, file-rss:0kB, shmem-rss:0kB
Jan 17 12:42:42 qqorderdb02 systemd[1]: mongodbqq.service: main process exited, code=killed, status=9/KILL
Jan 17 12:42:42 qqorderdb02 systemd[1]: Unit mongodbqq.service entered failed state.
Jan 17 12:42:42 qqorderdb02 systemd[1]: mongodbqq.service failed.

事後分析，主節點的記憶體比從節點的記憶體大，建立索引，主節點正常執行了，而從節點出席那了OOM（12:02），KIll後，服務自啟動也失敗了（12:42）。

2.重啟服務

重啟，檢視mongodblog，我們會看到redo未提交的建立索引的事務

2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'.
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] **        We suggest setting it to 'never'
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten]
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/defrag is 'always'.
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] **        We suggest setting it to 'never'
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten]
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] ** WARNING: Running wiredTiger with the --nojournal option in a replica set
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten] **          is deprecated and subject to be removed in a future version.
2019-01-17T19:38:11.529+0800 I CONTROL  [initandlisten]
2019-01-17T19:38:11.592+0800 I INDEX    [initandlisten] found 1 index(es) that wasn't finished before shutdown
2019-01-17T19:38:11.595+0800 I FTDC     [initandlisten] Initializing full-time diagnostic data capture with directory '/var/mongodbqq/db/diagnostic.data'
2019-01-17T19:38:11.596+0800 I INDEX    [initandlisten] found 1 interrupted index build(s) on qqorderdb.weixinordersn
2019-01-17T19:38:11.596+0800 I INDEX    [initandlisten] note: restart the server with --noIndexBuildRetry to skip index rebuilds

但執行一會後，重啟失敗，退出。檢視server log，報錯資訊如下：

Jan 17 19:41:10 qqorderdb02 systemd[1]: mongodbqq.service stop-final-sigterm timed out. Killing.
Jan 17 19:41:10 qqorderdb02 systemd[1]: Failed to start mongodbqq_service.
Jan 17 19:41:10 qqorderdb02 systemd[1]: Unit mongodbqq.service entered failed state.
Jan 17 19:41:10 qqorderdb02 systemd[1]: mongodbqq.service failed.

檢視mongodb的log，最新的資訊如下:

2019-01-17T19:41:00.001+0800 I -        [initandlisten]   Index Build: 55387600/192576426 28%
2019-01-17T19:41:03.002+0800 I -        [initandlisten]   Index Build: 57463100/192576426 29%
2019-01-17T19:41:06.002+0800 I -        [initandlisten]   Index Build: 59385700/192576426 30%
2019-01-17T19:41:09.001+0800 I -        [initandlisten]   Index Build: 61549000/192576426 31%

通過檢視Server log 和 Mongodb log ,我們可以判斷：啟動時需要重建關閉時未完成的index，但是重建這個大集合（本案例為weixinordersn，5億資料量，102Gsize）的索引耗時較長，超過了啟動服務允許的時間。服務超時後會被killed。

3.解決方案

設定systemd的service超時時間，在mongodb服務中，指明TimeoutSec引數。

TimeoutSec：定義 Systemd 停止當前服務之前等待的秒數。單位是秒，設定為0是不限制.

例如mongodbtest.service的編寫，增加 TimeoutSec=1800

[Unit]
 
Description=mongodbtest
After=network.target remote-fs.target nss-lookup.target
[Service]
User=mongouser
Group=mongouser
# (open files)
LimitNOFILE=64000
Type=forking
ExecStart=/data/mongodb/mongobin404/bin/mongod --config /data/mongodb/mongobin404/bin/mongodbtest.conf
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/data/mongodb/mongobin404/bin/mongod --shutdown --config /data/mongodb/mongobin404/bin/mongodbtest.conf
PrivateTmp=true
TimeoutSec=1800
 
[Install]
WantedBy=multi-user.target

4.效能下降的分析

結合應用超時和資料庫監控的IO飆升的時間關聯，效能下降主要分別是建立索引和主從斷掉導致oplog.rs 插入、查詢、更新變慢導致。

5.參考文獻

1.https://cloudblue.freshdesk.com/support/solutions/articles/44001881778

2.https://www.cnblogs.com/f-society/p/13177614.html

本文版權歸作者所有，未經作者同意不得轉載,謝謝配合！！！

insert變數太多導致例項重啟ORA-00600、ORA-01006
2024-01-09
變數
sock鎖檔案導致的MySQL啟動失敗
2022-02-24
MySql
mongodb啟動失敗問題解決
2024-04-17
MongoDB
開啟 Keep-Alive 可能會導致http 請求偶發失敗
2024-04-03
Keep-AliveHTTP
springboot衝突導致的發版失敗
2018-08-20
Spring Boot
api-server-pod-重啟失敗
2024-11-06
APIServer
Docker 導致阿里雲 ECS 內網互通失敗
2022-07-02
Docker阿里內網
故障分析 | DDL 導致的 Xtrabackup 備份失敗
2022-06-02
大事務導致資料庫恢復時間長
2023-10-23
資料庫
解決一次gitlab因異常關機導致啟動失敗
2021-11-11
Gitlab
testng擴充套件失敗的用例重跑
2018-09-28
套件
LightDB/Postgresql 記錄客戶端啟動版本問題導致啟動失敗問題
2022-05-26
SQL客戶端
迴圈引用導致的json序列化失敗
2018-09-23
JSON
sqlserver服務啟動失敗-1067
2019-12-24
SQLServer
yum安裝mongodb啟動失敗怎麼解決
2021-09-11
MongoDB
rman備份的時候讀取v$session_longops失敗導致備份失敗
2019-07-14
SessionGo
rac二節點例項redo故障無法啟動修復
2024-02-05
Windows使用者組（探究失敗
2024-12-09
Windows
微軟披露細節：重複進入UEFI導致英特爾SSD升Windows 10失敗
2018-05-11
微軟Windows
IP packet reassembles failed導致例項被驅逐
2022-04-15
AI
企業使用ERP系統導致失敗的因素所在
2021-09-14
win10更新失敗重啟迴圈怎麼辦_win10更新失敗無限重啟修復方法
2020-06-09
Win10
Linux使用Ambari啟動服務啟動失敗
2024-07-18
Linux
Debian 網路卡重啟失敗修復記錄
2024-12-07
selenium-java被檢測導致滑塊驗證失敗
2020-11-26
Java
Redis CVE-2020-14147導致例項異常退出
2022-11-28
Redis
儲存互斥失敗導致資料丟失的資料恢復成功案例
2019-07-05
資料恢復
記一次 Kafka 重啟失敗問題排查
2020-03-16
Kafka
關於沒有熔斷降級導致服務重啟問題
2024-05-19
TestNg 失敗用例重試自動被 ignored 怎麼辦？
2024-03-08
記一次ORA-01102導致資料庫例項無法啟動案例
2019-01-21
資料庫
匿名內部類方式構建物件導致序列化失敗
2018-07-11
物件
ORACLE 分割槽索引UNUSABLE導致的DML操作失敗引起的血案
2018-08-24
Oracle索引
wait_type SOS_WORKER導致資料庫連線失敗
2020-02-17
AI資料庫
FORTRAN動態陣列分配失敗導致執行時Access Violation
2024-12-02
陣列
sqlplus啟動失敗
2019-03-19
SQL
tomcat 啟動失敗
2024-05-22
Tomcat
docker啟動失敗
2024-09-11
Docker