經歷了兩天不懈努力,終於恢復了一次誤操作刪除的生產伺服器資料。對本次事故過程和解決辦法記錄在此,警醒自己,也提示別人莫犯此錯。也希望遇到問題的朋友能找到一絲靈感解決問題。
安排一個妹子在一臺生產伺服器上安裝 Oracle,妹子邊研究邊安裝,感覺裝的不對,準備解除安裝重新安裝。
從網上找到解除安裝方法,其中要執行一行命令刪除 Oracle 的安裝目錄,命令如下:
如果 ORACLE_BASE 這個變數沒有賦值,那命令就變成了:
等等,妹子使用的可是 Root 賬戶啊。就這樣,把整個盤的檔案全部刪除了,包括應用 Tomcat、MySQL 資料庫 and so on......
MySQL 資料庫不是在執行嗎?Linux 能刪除正在執行的檔案?反正是徹底刪除了,最後還剩一個 Tomcat 的 Log 檔案,估計是檔案過大,一時沒有刪除成功。
看著妹子自責的眼神,又是因為這事是我安排她做的,也沒有跟她講清厲害關係,沒有任何培訓,責任只能一個人背了,況且怎麼能讓美女揹負這個責任呢?
打電話到機房,將盤掛到另一臺伺服器上,SSH 上去檢視檔案全部被清,這臺伺服器執行的可是一個客戶的生產系統啊,已經執行大半年了,得儘快恢復啊。
於是找來離線備份的資料庫,發現備份檔案只有 1KB,裡面只有幾行熟悉的 mysqldump 註釋(難道是 Crontab 執行的備份指令碼有問題),最接近的備份也是 2013 年 12 月份的了,真是屋漏偏逢連夜雨啊。
想起來一位領導說過的案例:當一個生產系統掛掉以後,發現所有備份都有問題,燒錄的光碟也有劃痕,磁帶機也壞了(一個業界前輩,估計以前還用光碟做備份了),沒想到今天真的應驗到我的身上了,怎麼辦?
部門領導知道情況後,已經做了最壞的 B 計劃:領導親自帶隊和產品 AA 週日趕到客戶所在的地市,星期一去領導層溝通;BB 和 CC 去客戶管理員那邊想辦法說服客戶......
趕快到網上去查資料進行誤刪資料恢復,還真找到一款 ext3grep 能夠恢復透過 rm -rf 刪除的檔案,我們磁碟也是 ext3 格式,且網上有不少的成功案例。
於是燃起了一絲希望,趕快對盤 umount,防止重新寫入補刪檔案扇區。下載 ext3grep,安裝(編譯安裝過程艱辛暫且不表)。
先執行掃描檔名命令:
ext3grep /dev/vgdata/LogVol00 --dump-names
列印出了所有被刪除檔案及路徑,心中狂喜,不用執行 B 計劃了,檔案都在呢。
這款軟體不能按目錄恢復檔案,只能執行恢復全部命令:
ext3grep /dev/vgdata/LogVol00 --restore-all
結果當前盤空間不足,沒辦法只能恢復檔案,嘗試了幾個檔案,居然部分成功部分失敗:
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD
心裡不禁一涼,難道是刪除磁碟上被寫過檔案了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要資料檔案剛好在能恢復的 MYD 檔案中。
於是先將所有檔名重定向到一個檔案檔案中:
ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt
過濾出來所有 MySQL 資料庫的檔名存成 mysqltbname.txt。
編寫指令碼恢復檔案:
while read LINE
do
echo "begin to restore file " $LINE
ext3grep /dev/vgdata/LogVol00 --restore-file $LINE
if [ $? != 0 ]
then
echo "restore failed, exit"
fi
done < ./mysqltbname.txt
執行,大概執行了 20 分鐘,恢復了 40 多個檔案,但不夠啊,我們將近 100 張表,每張表 frm,myd,myi 三個檔案,怎麼說也有 300 多個左右啊!
將找回來的檔案附到現有資料庫上,更要檔案許可權為 777 後,重啟 MySQL,也算是找回一部分資料了,但客戶重要的考勤簽到資料、手機端上報資料(據說客戶按這些資料做員工績效的)還沒找回來啊。
咋辦?中間又試了另一款工具 extundelete,跟 ext3grep 語法基本一致,原理應該也一樣了,但是據說能按目錄恢復。
好吧,試一試:
extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh
果然不出所料,恢復不出來!!!!!!!!那些檔案已被破壞了。跟領導彙報,執行 B 計劃吧......無奈之下下班回家。(週末了,回去休息一下,想想辦法吧)
第二天早晨一早就醒了(心裡有事啊),背上電腦,去公司(這個週末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什麼週末啊)。
依舊執行 ext3grep,extundelete,也就那幾招啊,把系統架到測試伺服器上,看看資料能不能想辦法補一補吧。
在測試伺服器上進行 mysqldump,恢復檔案,覆蓋恢復回來的檔案,給檔案加許可權,重啟 MySQL。
Wait,Wait,不是有 Binlog 嗎?我們服務都要求開啟 Binlog,說不定能透過 Binlog 裡恢復資料呢?
於是從 Dump 出來的檔名裡找到 Binlog 的檔案,一共三個:
mysql-binlog0001
mysql-bin.000009
mysql-bin.000010
恢復一下 0001:
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001
居然失敗了......再看另兩個檔案,mysql-bin.000010 大概幾百 MB,應該靠譜一點,執行還原命令,居然成功了!
趕快 SCP 到測試伺服器。執行 Binlog 還原:
mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p
輸入密碼,卡住了(好現象),經過漫長的等待,終於結束了。開啟應用,哦,感謝 CCTV,MTV,資料回來了!
經過此次事故,雖然資料很幸運找回來了,但是過程卻是驚心動魄。也為自己的錯誤所帶來的後果,給同事和領導帶來的連帶責任而後怕。
也希望謹記此次事故,以後不再犯同樣的錯誤。事故反思如下:
本次安排 MM 進行伺服器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個線上的生產系統,任何一個改動一定要先謀而後動。
自動備份出現問題,沒有任何人檢查。離線備份人員每次從伺服器上下載 1K 的檔案卻從未重視。需要明確大家在工作崗位上的責任。
事故發生後,沒有及時發現,造成部分資料寫入磁碟,造成不可恢復問題。需要編寫應用監控程式,服務一旦有異常,簡訊告警相關責任人。
根據評論提醒,再加一條:不能使用 Root 使用者來操作。應該在伺服器上開設不同許可權級別的使用者。
透過本次事故,幾位跟這個專案和事故沒有任何關係的同事,主動前來幫忙,查資料,幫測試,有一位同事還幫忙到晚上 1 點多鐘進行資料恢復測試。
同時產品經理在想到面向客戶的巨大壓力的情況下,沒有慌亂而責怪開發人員和具體操作人,而讓大家能靜下心來想解決方案。
部門領導也積極主動的幫忙想辦法,陪我們加班測試,實時跟蹤事情程式。透過大家的共同努力,終於事情相對圓滿結束,接下來,週一上午進行集體反思,總結經驗教訓,這類事故一定盡最大努力進行避免。
本文所用到的工具連結:
①ext3grep:
編譯安裝依賴包比較多,可以到網上搜尋如何安裝。可惜的是作者給出的 howto 被牆了,我 FQ 將 howto 的 pdf 文件下載下來了,讀完後你將會對 Linux 的檔案系統有進一步的認識。
這個工具有一個 Bug,出錯後不會向下執行:
ext3grep: init_directories.cc:534: void init_directories(): Assertion `lost_plus_found_directory_iter != all_directories.end()
從而造成恢復失敗,作者放出了一個補丁,下載地址:補丁下載。不明白為什麼作者新版沒有把這個補丁加進去。
②extundelete:
功能跟 ext3grep 差不多,原理應該也差不多。只是號稱可以還原目錄,我這裡沒有試驗成功。
您是否也有誤刪檔案的經歷呢?又是如何處理解決的呢?歡迎留言分享您的妙招。
作者:zhouyu
出處:https://www.cnblogs.com/zhouyu629/p/3734494.html