Oracle資料庫由dataguard備庫引起的log file sync等待

gegeman發表於2020-11-26

原文網址 : https://www.cnblogs.com/lijiaman/p/14044031.html

導讀：
最近資料庫經常出現會話阻塞的報警，過一會又會自動消失，昨天晚上恰好發生了一次，於是趕緊進行了檢視，不看不知道，一看嚇一跳，發現是由dataguard引起的log file sync等待。我們知道，通常log file sync等待都是由頻繁寫日誌造成的，這次居然是由DG環境引起的。

（一）問題描述

資料庫：Oracle 11.2.0.4，單機版，有Dataguard環境

作業系統：centos 7.4

通過zabbix監控到的會話阻塞資訊如下圖，這裡是自定義的監控，解釋如下：

使用者usera,其session id為2663，session serial為27727，該會話未在執行SQL語句，但是卻一直處於非空閒等待，等待的事件為log file sync，一共等待了548s

（二）分析

檢視報警期間的歷史會話資訊：

select  sample_time, session_id,session_serial#,session_type,user_id,sql_id,sql_plan_operation,event,
        blocking_session,blocking_session_serial#,PROGRAM,MACHINE    
from    v$active_session_history a
where   a.sample_time > to_date('2020-11-25 20:40:00','yyyy-mm-dd hh24:mi:ss')
and     a.sample_time < to_date('2020-11-25 20:59:00','yyyy-mm-dd hh24:mi:ss')
and     blocking_session is not null
order by a.sample_time;

可以看到，會話1333，2191，2663均被會話1331阻塞了，等待事件是log file sync，它們在等待的會話為1311。

查詢1331會話資訊，發現是日誌寫程式LGWR，1311會話不再被其它會話阻塞，可以判定該會話為阻塞源頭，1331會話的等待事件是LGWR-LNS wait on channel。

select  sample_time, session_id,session_serial#,session_type,user_id,sql_id,event,
        blocking_session_status,blocking_session,PROGRAM,MACHINE    
from    v$active_session_history a
where   a.sample_time > to_date('2020-11-25 20:40:00','yyyy-mm-dd hh24:mi:ss')
and     a.sample_time < to_date('2020-11-25 20:59:00','yyyy-mm-dd hh24:mi:ss')
and     a.session_id = 1331
order by a.sample_time;

在本案例中，一共出現了2種型別的非空閒等待事件：

log file sync
LGWR-LNS wait on channel（阻塞源頭）

什麼是log file sync：當使用者提交一個事務之後就開始等待log file sync，直到LGWR程式完成了對SCN的傳播和對應重做日誌的寫入操作。所以log file sync的等待時間是由重做日誌I/O時間和SCN傳播時間兩部分構成的，如果還使用了DataGuard，且日誌傳送時使用了同步+確認(SYNC+AFFRIM)選項時，那麼LGWR還需在使用者提交事務之後將重做日誌資訊傳遞到遠端備庫節點。總結一下，log file sync的計算公式如下：

使用者程式log file sync等待時間 = LGWR執行重做日誌I/O時間 + SCN傳播時間 + LGWR傳送重做日誌到備庫的時間。

在資料庫例項中，log file sync的等待步驟如下：

步驟①和②時所經歷的時間就是log file sync所經歷的時間。a1~a4是LGWR傳送重做日誌到備庫的過程，b1~b4是LGWR傳播SCN的過程，c1~c2是LGWR將重做日誌寫入到重做日誌檔案的過程。

a1~a4代表LGWR傳送重做日誌到DataGuard備庫，過程如下：

a1：LGWR將事務對應的重做資訊傳送給本地節點的LNS(network server)程式

a2：LNS程式通過網路將重做資訊傳送給備庫的RFS(remote file server)程式

a3：RFS程式將重做日誌資訊寫入到備庫的備用重做日誌檔案(Standby redo log)，返回訊息給主庫的LNS程式

a4：主庫的LNS程式通知LGWR程式重做資訊已經寫入到備庫的備用重做日誌檔案

b1~b4代表LGWR傳播SCN，SCN是資料庫內部的時鐘，不重複，單項增長，SCN是針對資料庫的，不是針對例項的，也就是說，對於RAC資料庫，雖然有多個例項，這些例項會使用相同的SCN，但是每個例項都可以進行各自的任務，這就意味著例項之間需要傳播SCN。對於分散式資料庫（例如，使用了DB Link），也同樣存在著同步SCN的概念。同步SCN的過程如下：

b1：LGWR程式將事務提交的SCN傳送給本地的一個LMS程式

b2：本地節點的LMS程式將包含了SCN的訊息傳送給所有遠端節點的LMS程式

b3：所有遠端節點的LMS程式接受到了SCN訊息並反饋給本地節點的LMS程式

b4：本地節點的LMS程式通知LGWR，所有遠端節點都受到了事務的SCN

c1~c2代表LGWR執行重做日誌寫I/O。過程如下：

c1：LGWR程式將redo buffer cache中的日誌寫入到online redo log

c2：寫完之後LGWR會收到通知已完成

在分析完log file sync等待事件的過程之後，基本上可以知道其形成原因了。然而，新的問題又來了，log file sync等待由3部分原因構成，在我的環境中，到底是LGWR執行重做日誌比較慢，還是SCN傳播時間存在異常等待，還是LGWR傳送重做日誌到備庫存在效能瓶頸，這個時候我們就需要確認log file sync的並發現象了，我們繼續分析。

（1）由LGWR執行重做日誌I/O引起的log file sync

如果是由於LGWR將日誌寫入到online redo log引起的I/O問題，往往會伴隨著log file parallel write等待事件出現，也就是說，如果log file sync和log file parallel write一起出現，那麼往往是存放線上日誌檔案的磁碟I/O出問題了，有可能是磁碟吞吐量較差，也有可能是頻繁的小I/O操作，磁碟I/O問題的主要解決方案如下：

優化了redo日誌的I/O效能，儘量使用快速磁碟，不要把redo log file存放在raid 5的磁碟上；
加大日誌緩衝區(log buffer)；
使用批量提交，減少提交的次數；

（2）由SCN傳播引起的log file sync

由SCN傳播引起的log file sync等待事件幾乎沒有見過，個人覺得SCN傳播引起log file sync的概率較小，可以忽略

SQL> SELECT NAME FROM v$event_name a WHERE a.name LIKE '%SCN%' OR a.name LIKE '%LMS%';

NAME
----------------------------------------------------------------
retry contact SCN lock master
ges master to get established for SCN op

（3）由LGWR傳送重做日誌到備庫引起的log file sync

需要特別注意的是，只有在LOG_ARCHIVE_DEST_n引數中使用了"SYNC，AFFIRM"屬性時，log file sync等待事件才會與LGWR傳送日誌有關，如果使用了其它屬性，不用考慮。

LNS程式DataGuard環境中主庫用來傳送日誌到備庫的程式，檢視所有與之相關的等待事件。

SQL> SELECT NAME FROM v$event_name a WHERE a.name LIKE '%LNS%';

NAME
----------------------------------------------------------------
LNS wait on ATTACH
LNS wait on SENDREQ
LNS wait on DETACH
LNS wait on LGWR
LGWR wait on LNS
LNS ASYNC archive log
LNS ASYNC dest activation
LNS ASYNC end of log
LNS simulation latency wait
LGWR-LNS wait on channel

回過頭，再次檢視我們的生產環境的問題，是log file sync伴隨著LGWR-LNS wait on channel出現，再次確認資料庫的引數資訊，發現資料庫執行在最大可用模式，備庫採用了同步(sync)方式傳送資料。

SQL> select name,open_mode,database_role,protection_mode,protection_level from v$database;

NAME      OPEN_MODE            DATABASE_ROLE    PROTECTION_MODE      PROTECTION_LEVEL    
--------- -------------------- ---------------- -------------------- --------------------
ORCL2     READ WRITE           PRIMARY          MAXIMUM AVAILABILITY MAXIMUM AVAILABILITY


SQL> show parameter log
NAME                          TYPE    VALUE                                                                                                
----------------------------- ------- ---------------------------------------------------------------------------------------------------- 
log_archive_dest_2            string  SERVICE=adg_orcl LGWR SYNC VALID_FOR=(ONLINE_LOGFILES,PRIMARY_ROLE)                                
                                      DB_UNIQUE_NAME=adg_orcl

再進一步分析"LGWR-LNS wait on channel"等待事件：

什麼是LGWR-LNS wait on channel：這個等待事件監視LGWR或LNS程式等待在KSR通道上接收訊息所花費的時間（This wait event monitors the amount of time spent by the log writer (LGWR) process or the network server processes waiting to receive messages on KSR channels. Data Guard Wait Events (Doc ID 233491.1) ）。

KSR通道的解釋:https://docs.oracle.com/en/database/oracle/oracle-database/12.2/refrn/DBA_HIST_CHANNEL_WAITS.html#GUID-682C58F4-5787-4C8E-844C-9DFE04612BDD。

可以斷定，資料庫的異常等待是由於主庫的LNS程式同步傳送線上日誌資訊給DG環境引起的，且引起的瓶頸在備庫端。想到我們的主庫是高配的物理伺服器，備庫是低配的雲主機(虛擬機器)，出現這種問題也就不足為奇了。

（三）解決方案

使用非同步方式傳送日誌資訊，修改日誌傳送方式為非同步(async)傳送

SQL> alter system set log_archive_dest_2= SERVICE="adg_orcl" LGWR ASYNC VALID_FOR=(all_logfiles, primary_role) DB_UNIQUE_NAME="adg_orcl" scope=both;

-- 重新啟用通道
SQL> alter system set log_archive_dest_state_2= defer;
SQL> alter system set log_archive_dest_state_2= enable;

【完】

【TUNE_ORACLE】等待事件之日誌等待“log file sync”
2021-07-16
Oracle事件
log file sync等待事件
2018-11-06
事件
【等待事件】log file sync
2021-01-01
事件
【WAIT】 log file sync等待事件說明
2021-12-09
AI事件
log file sync等待事件處理思路
2022-10-11
事件
[20201204]關於等待事件Log File Sync.txt
2020-12-04
事件
一個os thread startup、log file sync等待的故障回顧
2018-10-31
thread
【DATAGUARD】Oracle Dataguard物理備庫切換最佳實踐(sqlplus)
2021-09-26
OracleSQL
Oracle資料庫（DataGuard）遷移方案(上)
2023-04-19
Oracle資料庫
Oracle資料庫（DataGuard）遷移方案（中）
2023-04-19
Oracle資料庫
Oracle資料庫（DataGuard）遷移方案（下）
2023-04-19
Oracle資料庫
【TUNE_ORACLE】等待事件之日誌等待“log file parallel write”
2021-07-28
Oracle事件Parallel
Oracle 修復由於主庫NOLOGGING引起的備庫ORA-01578和ORA-26040錯誤
2020-05-29
Oracle
oracle 備份資料庫，匯出資料庫
2018-06-27
Oracle資料庫
innodb 庫的備份注意點（由phpmyadmin引起的解決方案）
2021-09-09
PHP
「Oracle」Oracle 資料庫備份還原
2021-12-06
Oracle資料庫
【ASK_ORACLE】Linux從6升級到7導致Oracle產生大量Log file sync等待事件處理辦法
2022-07-21
OracleLinux事件
LOG FILE SYNC概述（第五篇）
2018-04-23
LOG FILE SYNC概述（第四篇）
2018-04-22
oracle資料庫備份之exp增量備份
2019-03-28
Oracle資料庫
Oracle資料庫冷備和恢復
2018-11-22
Oracle資料庫
每天自動備份Oracle資料庫
2020-01-06
Oracle資料庫
oracle uncatalog資料庫備份檔案
2021-02-21
Oracle資料庫
修復由於主庫NOLOGGING操作引起的備庫ORA-01578和ORA-26040錯誤
2018-07-19
Oracle ADG 備庫新增備庫
2022-02-18
Oracle
LOG FILE SYNC概述（第一篇）
2018-04-17
Oracle資料庫的邏輯備份工具-expdp資料泵
2020-02-26
Oracle資料庫
oracle資料庫使用rman備份指令碼
2018-12-27
Oracle資料庫指令碼
Oracle資料庫-----資料庫的基本概念
2018-12-21
Oracle資料庫
透過等待看資料庫
2023-03-14
資料庫
故障分析 | 血的教訓-由慢查詢引發的備份等待導致資料庫連線打滿
2022-05-13
資料庫
【LOG】Oracle資料庫清理日誌、跟蹤檔案利器
2021-12-13
Oracle資料庫
Oracle資料庫備份、災備的23個常見問題
2019-07-26
Oracle資料庫
Script to Collect Log File Sync Diagnostic Information (lfsdiag.sql)
2020-01-20
ORMSQL
資料庫的災備
2020-08-03
資料庫
Golang 中由零值和 gob 庫的特性引起的 BUG
2021-12-04
Golang
Oracle資料庫備份還原詳解XKUS
2022-03-01
Oracle資料庫
由OGG引發的資料庫故障
2020-03-07
資料庫

Oracle資料庫由dataguard備庫引起的log file sync等待

相關文章