DBA:這有一份對接NBU備份故障排除指南,請查收!
摘要:當前DWS支援NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。
本文分享自華為雲社群《》,作者: 唐伯虎點蚊香。
NetBackup是Veritas公司軟體產品,為各種平臺提供完整而靈活的資料保護解決方案。這些平臺包括Microsoft Windows、UNIX、Linux 等系統。利用NetBackup可以備份、歸檔和還原計算機上的檔案、資料夾或目錄以及卷或分割槽。當前DWS支援NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。
部署方式
假如已有3節點DWS叢集,Roach(DWS備份工具)將本節點的叢集資料透過TCP傳送到遠端NBU Media Server機器。每臺NBU Media Server上面同時安裝NBU Client,並部署Roach client元件,後者接收叢集內Roach程式發來的備份資料,不落盤方式透過XBSA介面轉發給本機的NBU Client,完成NBU備份。恢復流程也類似,只是資料流相反。
在DWS備份過程中,一般故障主要出自以下三處:
- Roach agent: 即叢集節點內,直接檢視叢集備份日誌($GAUSSLOG/roach/)即可
- Roach client: 此外掛主要負責資料收發,日誌路徑啟動時透過-l引數指定,進入該路徑查詢即可
- NBU軟體端: 可透過下文定位方式排查故障
環境校驗
當進行NBU非侵入式備份時,考慮到叢集備份過於重量,可以先透過指定小檔案測試環境連通性,保證NBU配置
gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000
注:
--media-destination為NBU策略名稱
--backup-key為任一指定時間戳即可
--media-server為任意一臺部署了roach client外掛的ip地址
--client-port為roach client開放的埠
--metadata-destination為上傳指定檔案路徑,其中將測試上傳檔案重名名為metadata.tar.gz,並放置在/home/Ruby目錄下,並非/home/Ruby/meta目錄下
如果能備份成功,則說明所連線的media server配置無問題,如果存在失敗,則NBU端配置有問題,需要按照後續說明尋求原因。
故障定義
故障排除的第一步是定義問題。在NBU系統的安裝、配置、執行過程中,出現了與正確預期不同的結果,即可認為是出現了故障;有時候,這要求我們知道正確的情況應該是什麼樣的。
在NBU的交付和使用中常見的故障主要分為種:
一是軟體安裝和配置階段,比如軟體安裝不成功、對接不成功、某模組功能不可用等等,這一階段的錯誤一般沒有具體的錯誤碼,需要結合交付人員的經驗和系統日誌進行排錯,這種故障屬於一次性的故障,在排除之後再次出現的可能性很小;
二是在系統部署完成後,資料備份業務上線、備份和恢復任務執行時報錯,比如接入client失敗、儲存單元寫入資料失敗、找不到client伺服器等等;這種故障console會提供錯誤碼(error code),維護人員可以根據錯誤進行初步的定位,這種故障屬於日常性的故障,和環境中多種因素有關,備份系統自身之外的業務環境發生細微的變化都有可能導致故障的出現。
故障排除過程
要排除問題,必須知道發生了什麼錯誤。
錯誤訊息通常是指出哪裡出現故障的手段。所以,我們要做的第一件事就是查詢錯誤訊息。如果在介面上沒有看到錯誤訊息,但仍懷疑有問題,請檢查報告和日誌。NetBackup 提供了廣泛的報告和日誌記錄工具,這些工具可提供錯誤訊息,直接指出解決方案。日誌還可顯示什麼執行良好以及當發生問題時 NetBackup 正在執行什麼操作。
綜上,NBU備份與恢復故障排除過程如下:
1、確認伺服器和client執行的是受支援的作業系統或應用版本;具體資訊參看NBU相容性列表;
2、復現故障,獲取故障資訊;獲取資訊的渠道有錯誤碼、Job Details、日誌等;
3、根據獲取的資訊進行故障定位和排除;
故障排除方法
使用狀態碼
每一個備份和恢復任務都是一個activity,在activity monitor一欄中可以監控到它們。由任務監視看出該任務的ID、執行何種操作、狀態、返回值、Server和Client是誰、透過哪一個Policy和Schedule去執行的。
具體可顯示多長時間的任務,要看NetBackup全域性屬性中的設定。每個任務有以下幾個狀態:
- Queued 任務正在排隊
- Active 任務正在執行
- Done 任務執行完畢
在activity的執行過程中,每一個任務結果都對應著一個狀態程式碼,0代表成功,非0代表故障。返回值是一個非常有用的引數,透過返回值,可以透過錯誤程式碼查詢手冊中建議的相關調整建議,這對於問題檢查和效能調整是非常有用的。頁面中獲取位置如下:
以下連結提供了NBU備份任務status code list:
根據獲取到的status code可以初步定位錯誤原因
使用Job details
與狀態碼類似,Job details與activity也是一對一;不同的是,Job details比狀態碼提供的資訊更多,對於常見的故障,使用Job details可以完成故障的原因定位和排除。
雙擊一個activity,選擇detailed status,在status一欄即可獲取更多的細節資訊。找到關鍵錯誤資訊(通常是紅色字型或紅色字型的上下文),提煉出關鍵字,在google上搜尋,網際網路上有大量的相同錯誤場景和解決辦法。
使用日誌
以上使用狀態碼和Job details進行故障排除的辦法停留在初級階段,通常只對簡單故障有效;對於複雜問題,如果解決不了則需要蒐集日誌進行分析。
在NBU系統中,日誌級別共分為6級,分別為0-5,以下為日誌級別對應的要記錄的資訊:
0:非常重要的少量診斷訊息和除錯訊息
1:該級別增加詳細的診斷訊息和除錯訊息
2:增加進度訊息
3:增加提示性轉儲訊息
4:增加功能進入和退出訊息
5:最詳細的資訊:記錄所有資訊
日誌等級調整方式如下:
1、console介面調整
2、vi /usr/openv/netbackup/bp.conf, 在末尾調加如下配置
VERBOSE = 5
NBU系統針對每一個程式都有一個獨立的目錄來存放,但是在預設情況下不建立,所有如果想要蒐集這些日誌,工程師需要手動建立這些目錄。目錄格式為/usr/openv/netbackup/logs/程式名;以bpcd程式為例,執行以下命令建立子目錄:
mkdir /usr/openv/netbackup/logs/bpcd
或者使用NBU提供的批次建立指令碼,一鍵建立所有日誌目錄,執行以下命令:
sh /usr/openv/netbackup/logs/mklogdir
在蒐集日誌時,NBU針對性地為每個程式建立一個日誌子目錄,來實現程式級別的日誌分析,那麼我們需要先知道NBU常用的程式有哪些:
admin:管理命令。
bpbrm:NetBackup 備份和還原管理器。
bpcd:NetBackup client後臺駐留程式或管理器。
bpdm:NetBackup 磁碟管理器。
bpdbm:NetBackup 資料庫管理器。此程式僅在主伺服器上執行。
bprd:NetBackup 請求管理器,對客戶機和備份、恢復、歸檔等管理請求作出響應。
vnetd:Veritas 網路後臺駐留程式。
bpbackup:在UNIX client上,當使用者啟動備份時,此程式與主伺服器上的bprd通訊。
在獲取了日誌之後,在各個檔案中搜尋fail、error、can not、freeze等關鍵字,進行故障原因定位
NBU常用維護命令
用命令列啟動netbackup服務程式
/usr/openv/netbackup/bin/bp.start_all
用命令列停止netbackup服務程式
/usr/openv/netbackup/bin/bp.kill_all
用命令列清除host快取
/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 清除快取
cd /usr/openv/var/host_cache/ # 清除臨時檔案
rm –rf tmp
mkdir tmp
mv * tmp
用命令列檢測master和client連通性
/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname
若可以連通,返回結果類似如下:
NBU master server與NBU client 通訊問題
在client和master server上互相telnet對方的備份管理平面IP的1556、1372、13782三個埠,確認client伺服器與master server通訊正常
netstat –an | grep 1556
netstat –an | grep 1372
netstat –an | grep 13782
檢查NBU服務及程式
/usr/openv/netbackup/bin/./bpps -x
Media server不是認證的主機
此為client上對media server的信任配置問題。在console上點選host properties>client,找到故障客戶端,雙擊client,在彈出介面點選servers一欄,在additional server配置中新增media server的主機名
儲存單元不可用
出現“儲存單元不可用”故障資訊可能有以下幾種情況:
1、儲存單元已滿
2、此儲存單元上處於排隊狀態的備份任務過多
3、client與儲存單元歸屬的media server無法通訊
想了解GuassDB(DWS)更多資訊,歡迎微信搜尋“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技,後臺還可獲取眾多學習資料哦~
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4662/viewspace-2795936/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Ding!您有一份ChunJun實用指南,請查收
- 叮!您有一份參會指南,請注意查收
- 這有一份網路相關的訊息,請查收
- 關於 CentOS 遷移龍蜥作業系統,這裡有一份詳細指南,請查收!CentOS作業系統
- 一份關於網站的國慶重保指南,請查收網站
- 一份遊戲公司防騙/回款指南拍拍拍拍了你,請查收遊戲
- Linux 硬體故障排除指南Linux
- 怎樣用CDN防篡改、抗攻擊、控內容?一份CDN安全指南請查收
- 這是一份來自聯想Filez的2022年終總結報告!請注意查收
- 👋嗨,你有一份微信好友報告待查收~
- 請查收這份開發者轉型AI指南 AI頂尖公司分分鐘pick你AI
- Kubernetes故障排除的直觀指南 - Daniele Polencic
- 從小白到大師,這裡有一份Pandas入門指南
- 國慶放假前請先查收這份安全攻略
- 掌握 Kubernetes 故障排除技巧:kubectl命令的基本指南
- OpenHarmony創新賽 | 您有一份創新激勵獎待領取 請查收!
- 1000篇影評總結梳理,整理出了一份影評模板,請查收!
- 4.這是一份Flutter常用Widget指南Flutter
- 您有一份阿里云云原生直播攻略待查收阿里
- Longhorn 雲原生容器分散式儲存 - 故障排除指南分散式
- 您有一份ML.NET 速查手冊待查收!
- 用機器學習覆盤世界盃?這裡有一份實用指南機器學習
- 攻防演練 | 無懼無檔案釣魚,這裡有一份硬核指南
- 乾貨!這裡有一份神經網路入門指導,請收下!神經網路
- NBU 8.0客戶端安裝和備份配置客戶端
- SqlServer NBU備份出現錯誤程式碼2SQLServer
- CS 就業寒冬?這裡有一份面試必備基礎知識就業面試
- 一份簡歷修改指南
- 製造企業如何構建智慧工廠?這裡有一份轉型指南
- Hi Developer,您有一份來自華為雲學院的微服務開發攻略請查收Developer微服務
- 如何守護資料安全? 這裡有一份RDS災備方案為你支招
- 你有一份Rx程式設計秘籍請簽收程式設計
- 故障排除指南:MySQL執行記憶體不足怎麼辦?MySql記憶體
- Android RxJava:這是一份RxJava使用入門學習指南AndroidRxJava
- 真實場景是最好的架構師:請查收這份來自 TiDB 社群的資料庫選型指南!架構TiDB資料庫
- 企業該如何做大資料的分析挖掘?這裡有一份參考指南大資料
- 如何把自己包裝成程式設計師大佬?這裡有一份「裝X指南」程式設計師
- 從DeepNet到HRNet,這有一份深度學習“人體姿勢估計”全指南深度學習