金融行業現場故障處理實錄
金融行業現場故障處理實錄
n KL 銀行現場服務記錄 —HA 故障
服務時間
2019 年9 月10 日星期二 14 :40 到2019 年9 月11 日星期三 0 :30
服務內容
ü 排查redhat RHEL 6.4 一個節點cman 啟動故障。
(1 )、檢視系統日誌;
(2 )、檢視ha 日誌,/etc/cluster 下各日誌檔案;
(3 )、clustat 檢視叢集狀態,提示cman 未執行;
(4 )、檢視叢集配置檔案/etc/cluster.conf;
(5 )、對比另一個正常執行節點的狀態及日誌輸出;
(6 )、執行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟蹤檔案;
由於當前不能執行cman 啟動操作,故障暫時不能排除。
ü 新的華為伺服器,由於使用了UEFI 代替老舊的bios 進行引導管理,客戶在安裝redhat RHEL6.4 時進行 不下去,順便協助他正確完成安裝。
ü Ha 掛接的共享盤報“no clean ”, 預判檔案系統存在問題,準備服務停止後,解除安裝掛接,然後修復(fsck )。
n MS 銀行(順義)現場服務記錄 --
問題描述
某Redhat RHEL 6.X 系統部署應用以後,執行一段時間,可能會出現系統掛起現象,掛起時間不確定。相關人員懷疑是應用所引起的,為了弄清事實真相,需要在系統掛起前匯出core 檔案。
系統已經配置好kdump ,但在啟動kdump 服務時,無法成功。因此現場服務的主要任務時排查kdump 啟動故障。
排查過程
ü 檢查相關的軟體包是否正確安裝:rpm-qa|grep kexec-tool ,已經被正確的安裝。
ü 檢查kdump.conf 配置檔案, 為發現異常;
ü 檢查系統日誌/var/log/messages, 未發現有價值資訊;
ü 試著啟動服務 service kdump start ,輸出提示” 找不到核心檔案 kernel-15…” 。初步判斷問題出現在這裡。這個數字15 是哪裡來的呢?
ü 開啟檔案/etc/sysconfig/kdump ,發現其有效行的第一行有異常
透過對比其他正常系統的配置,其值預設為空,不為“15 ”。在徵得同意以後,對其修改,並啟動kdump 服務。
處理結果
故障排除,完成服務。
n TK 保險伺服器重啟排查記錄
主要現象
近期以來,每隔2 天左右會自動重啟,並且重啟時間不固定。
主要資訊收集
ü 硬體資訊:4 顆物理cpu ,總核數96 ,匯流排程數192 ;記憶體1T; 磁碟多路徑連線,劃分多個邏輯卷。
ü 作業系統為redhat RHEL 7.4 ,核心版本3.10.0-693. 未進行過版本更新。
ü 應用為db2 資料庫。
排查過程
ü 檢視系統日誌,dmesg 及開啟檔案/var/log/messages ,並用關鍵字error 、fatal 、warning 等進行過濾。
egrep –i “error|fatal|warning” /var/log/messages |
未發現有價值資訊。
ü 檢視系統使用者,存在多個普通使用者,並擁有shell (bash )。
ü 檢視使用者授權,主要是/etc/suders ,使用的命令 visudo 。雖然授權指令較多,但未發現有reboot 指令的許可權授予。
ü 排查使用者的計劃任務,因為使用者較多,使用如下指令碼進行查詢。
for u in `cat /etc/passwd | cut -d ":" -f1`; do sudo crontab -l -u $u ; done |
發現db2 資料庫啟動賬號有個重啟指令碼,設定的時間是每天早上8 點。搜尋此指令碼及所在路徑,不存在, 建議註釋掉此條。
ü 使用者反饋,說二線技術支援曾經遠端配置了kdump ,模擬系統崩潰能生成vmcore 檔案,但昨天早上(6 :00 多鍾)系統崩潰發生重啟,卻沒有生成轉儲檔案。檢視檔案/etc/default/grub 及/boot/grub2/grub.cfg ,其中 crashkernel=786M@0M 。鑑於此,把crashkernel 的值改成786M ,去掉了後邊的偏移量。再修改檔案/etc/kdump.conf ,啟用壓縮功能。
core_collector makedumpfile - c -- message - level 1 - d 31 |
增加一個選項“-c ”,表示啟用壓縮。
grub 2-mkconfig -o /boot/grub2/grub .cfg |
重新生成grub 配置,需要重啟才能生效。
ü 檢視系統引數kernel.sysrq ,其值為16, 手動方式修改檔案 /etc/sysctl.conf ,顯示指定
Kernel.sysrq=1 |
修改完執行 sysctl –p 使其生效。
ü 執行下列指令,模擬故障發生。
echo c > /proc/sysrq-trigger |
重啟完成後,在目錄/var/crash 確實生成了大檔案,大小為4G 。
服務建議
等下一次重啟,如果生成了vmcore 檔案,把此檔案傳到case 附件裡邊,有後臺技術對其進行分析。
n TK 人壽系統修復操作記錄
問題及成因
一虛擬機器系統, 不能正常引導,但還能進入單使用者模式。此虛擬機器沒有對映象進行備份,因此無法還原。系統中有使用者的資料,因此不能透過重新安裝系統來進行有效恢復。
透過溝通,瞭解到是使用者自己在遠端執行一個ssh 指令碼,此指令碼有一行”chmod –R 777” 的指令,本意是共享一個nfs 服務目錄,但因為為對目錄是否存在進行判斷,因此一執行完指令碼,所有的目錄檔案的許可權都變成777 了。
處理過程
找一臺執行正常的,版本一致的系統,對比/etc 目錄裡各種許可權與驗證有關的目錄和許可權,如 passwd 、shadow 、ssh 等。用chmod 指令逐一進行修改,修改一些許可權以後,重啟系統,直到能正常執行,並且能用ssh 遠端登入。
處理結果及建議
交付給使用者,然後建議重灌系統。但使用者自己認為沒啥問題,以後再說。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/632405/viewspace-3006684/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- hillstone現場故障處理指導手冊
- 【故障處理】一次RAC故障處理過程
- MongoDB故障處理MongoDB
- 現場採訪錄-IBM行業部IBM行業
- 故障分析 | Greenplum Segment 故障處理
- GPON網路故障如何處理?GPON網路故障處理流程
- 【故障處理】ORA-600:[13013],[5001]故障處理
- 【故障處理】ORA- 2730*,status 12故障分析與處理
- linux故障處理Linux
- ora-故障處理
- 線上故障處理手冊
- MySQL show processlist故障處理MySql
- 微服務的故障處理微服務
- teams登入故障處理
- Oracle更新Opatch故障處理Oracle
- 如何快速處理線上故障
- Mysql故障處理2則MySql
- dataguard故障處理一則
- AIX系統故障處理AI
- 【Linux】 nfs 故障處理LinuxNFS
- Bumblebee之負載、限流和故障處理實踐負載
- 雲安為金融行業帶來的好處行業
- 【故障處理】CRS-1153錯誤處理
- 【故障處理】ORA-19809錯誤處理
- 【故障處理】如何避免在執行impdp後出現ORA-00001錯誤
- Java多執行緒並行處理任務的實現Java執行緒並行
- undo表空間故障處理
- flash_recovery_area故障處理
- 一次dataguard故障處理
- 分散式事務故障處理分散式
- 【實驗】【VNC】手工kill掉VNC程式的故障處理VNCC程式
- 企業雲盤如何為金融行業開拓藍海市場行業
- 如何運用結構化思維進行故障處理
- Spark 叢集執行任務失敗的故障處理Spark
- 金融科技行業 OKR 實用案例行業OKR
- 【故障處理】ORA-12162 錯誤的處理
- 資料庫映象期間可能出現的故障處理資料庫
- 金融行業如何利用資料來源實現精準營銷?行業