經歷了兩天不懈努力,終於恢復了一次誤操作刪除的生產伺服器資料。對本次事故過程和解決辦法記錄在此,警醒自己,也提示別人莫犯此錯。也希望遇到問題的朋友能找到一絲靈感解決問題。
事故背景
1 |
rm -rf $ORACLE_BASE/* |
如果ORACLE_BASE這個變數沒有賦值,那命令就變成了
1 |
rm -rf /* |
==||,妹子使用的可是root賬戶啊。就這樣,把整個盤的檔案全部刪除了,包括應用Tomcat、MySQL資料庫 and so on……
(mysql資料庫不是在執行嗎?linux 能刪除正在執行的檔案?反正是徹底刪除了,最後還剩一個tomcat的log檔案,估計是檔案過大,一時沒有刪除成功)
看著妹子自責的眼神,又是因為這事是我安排她做的,也沒有跟她講清厲害關係,沒有任何培訓,責任只能一個人背了,況且怎麼能讓美女揹負這個責任呢?
打電話到機房,將盤掛到另一臺伺服器上,ssh上去檢視檔案全部被清,這臺伺服器執行的可是一個客戶的生產系統啊,已經執行大半年了,得儘快恢復啊。於是找來離線備份的資料庫,發現備份檔案只有1kb,裡面只有幾行熟悉的mysqldump註釋(難道是crontab執行的備份指令碼有問題),最接盡的備份也是2013年12月份的了,真是屋漏偏逢連夜雨啊。
想起來一位領導說過的案例:當一個生產系統掛掉以後,發現所有備份都有問題,燒錄的光碟也有劃痕,磁帶機也壞了(一個業界前輩,估計以前還用光碟做備份了),沒想到今天真的應驗到我的身上了,怎麼辦??
部門領導知道情況後,已經做了最壞的B計劃:領導親自帶隊和產品AA週日趕到客戶所在的地市,星期一去領導層溝通;BB和CC去客戶管理員那邊想辦法說服客戶……
救命稻草–ext3grep
趕快到網上去查資料進行誤刪資料恢復,還真找到一款ext3grep能夠恢復通過 rm -rf 刪除的檔案,我們磁碟也是ext3格式,且網上有不少的成功案例。於是燃起了一絲希望,趕快對盤umount,防止重新寫入補刪檔案扇區。下載ext3grep,安裝(編譯安裝過程艱辛暫且不表)。
先執行掃描檔名命令:
1 |
ext3grep /dev/vgdata/LogVol00 --dump-names |
列印出了所有被刪除檔案及路徑,心中狂喜,不用執行B計劃了,檔案都在呢。
這款軟體不能按目錄恢復檔案,只能執行恢復全部命令:
1 |
ext3grep /dev/vgdata/LogVol00 --restore-all |
結果當前盤空間不足,沒辦法只能恢復檔案,嘗試了幾個檔案,居然部分成功部分失敗
1 |
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD |
心裡不禁一涼,難道是刪除磁碟上被寫過檔案了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要資料檔案剛好在能恢復的MYD檔案中。於是先將所有檔名重定向到一個檔案檔案中
1 |
ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt |
過濾出來所有mysql資料庫的檔名存成,mysqltbname.txt
編寫指令碼恢復檔案:
1 2 3 4 5 6 7 8 9 10 |
while read LINE do echo "begin to restore file " $LINE ext3grep /dev/vgdata/LogVol00 --restore-file $LINE if [ $? != 0 ] then echo "restore failed, exit" # exit 1 fi done < ./mysqltbname.txt |
執行,大概執行了20分鐘,恢復了40多個檔案,但不夠啊,我們將近100張表,每張表frm,myd,myi三個檔案,怎麼說也有300多個左右啊!!將找回來的檔案附到現有資料庫上,更要檔案許可權為777後,重啟mysql,也算是找回一部分資料了,但客戶重要的考勤簽到資料、手機端上報資料(據說客戶按這些資料做員工績效的)還沒找回來啊。
咋 辦?中間又試了另一款工具extundelete,跟ext3grep語法基本一致,原理應該也一樣了,但是據說能按目錄恢復,好吧試一試。
1 |
extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh |
果然不出所料,恢復不出來!!!!!!!!那些檔案已被破壞了。跟領導彙報,執行B計劃吧。。。無奈之下下班回家(週末了,回去休息一下,想想辦法吧)
靈機一動:binlog
第二天早晨一早就醒了(心裡有事啊),背上電腦,去公司(這個週末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什麼週末啊)。
依舊執行ext3grep,extundelete,也就那幾招啊,把系統架到測試伺服器上,看看資料能不能想辦法補一補吧。在測試伺服器上進行mysqldump,恢復檔案,覆蓋恢復回來的檔案,給檔案加許可權,重啟mysql。
wait,wait,不是有binlog嗎?我們服務都要求開啟binlog,說不定能通過binlog裡恢復資料呢?
於是從dump出來的檔名裡找到binlog的檔案,一共三個,mysql-binlog0001,mysql-bin.000009,mysql-bin.000010,恢復一下0001
1 |
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001 |
居然失敗了。。。。。。
再看另兩個檔案,mysql-bin.000010大概幾百MB,應該靠譜一點,執行還原命令,居然成功了!!!!!!!!!!!!!
趕快scp到測試伺服器。執行binlog還原。
1 |
mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p |
輸入密碼,卡住了(好現象),經過漫長的等待,終於結束了。開啟應用,哦,感謝cctv,mtv,資料回來了!!!
後記
經過此次事故,雖然資料很幸運能找回來了,但是過程卻是驚心動迫。也為自己的錯誤所帶來的後果,給同事和領導帶來的連帶責任而後怕。也希望謹記此次事故,以後不再犯同樣的錯誤。事故反思如下:
1.本次安排MM進行伺服器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個線上的生產系統,任何一個改動一定要先謀而後動。
2.自動備份出現問題,沒有任何人檢查。離線備份人員每次從伺服器上下載1k的檔案卻從未重視。需要明確大家在工作崗位上的責任。
3.事故發生後,沒有及時發現,造成部分資料寫入磁碟,造成不可恢復問題。需要編寫應用監控程式,服務一旦有異常,簡訊告警相關責任人。
根據評論提醒,再加一條:
4.不能使用root使用者來操作。應該在伺服器上開設不同許可權級別的使用者。
通過本次事故,幾位跟這個專案和事故沒有任何關係的同事,主動前來幫忙,查資料,幫測試,有一位同事還幫忙到晚上1點多鐘進行資料恢復測試。同時產品經理在想到面向客戶的巨大壓力的情況下,沒有慌亂而責怪開發人員和具體操作人,而讓大家能靜下心來想解決方案。部門領導也積極主動的幫忙想辦法,陪我們加班測試,實時跟蹤事情程式。
通過大家的共同努力,終於事情相對圓滿結束,接下來,週一上午進行集體反思,總結經驗教訓,這類事故一定儘量大努力進行避免。
/**************************************傳送門************************************************/
本文所用到的工具連結:
1.ext3grep:https://code.google.com/p/ext3grep/
編譯安裝依賴包比較多,可以到網上搜尋如何安裝。可惜的是作者給出的howto被牆了,我FQ將how to 的pdf文件下載下來了,讀完後你將會對linux的檔案系統有進一步的認識。下載howto。
這個工具有一個bug,出錯後不會向下執行ext3grep: init_directories.cc:534: void init_directories(): Assertion `lost_plus_found_directory_iter != all_directories.end()’ failed.,從而造成恢復失敗,作者放出了一個補丁,下載地址:補丁下載。不明白為什麼作者新版沒有把這個補丁加進去。
2.extundelete:http://extundelete.sourceforge.net/
功能跟ext3grep差不多,原理應該也差不多。只是號稱可以還原目錄,我這裡沒有試驗成功。
【伯小樂補充網友評論】:
這篇文章在「資料庫開發」(微訊號:DBDevs)和「Linux愛好者」(微訊號:LinuxHub)推送後,評論非常激烈。下面摘錄一些:
Alex Zheng:
反思還是沒有抓住關鍵問題!這種練手就應該在pc上裝一個虛擬機器隨便折騰,用production server練手以後還得出事!另外ORACLE的安裝絕不容易也絕不是用root來安裝的,一般都是新建一個oracle使用者,組群為dba和oinstall,oracle目錄結構要滿足OFA標準,設定好環境變數後,run OUI, NETCA , DBCA,其中character set和block size要格外小心設定,所以,新手在linux上裝oracle,沒人指導沒有看書,那幾乎百分百會出問題!fairychild:
我體驗過解除安裝iptables忘加nodeps宣:
不是刪除正在執行的檔案,而是加了flag同時記數減一,等到所有對這個檔案的ref為0才真正幹掉鉅額:
還邊研究邊安裝 用生產環境 用root閆軍輝:
誇大了單個binlog檔案的作用 單純的恢復一個binlog日誌檔案就可以恢復整庫資料? 或許只有一個解釋說得通 該業務寫入量極少 從上線到故障只產生了一個binlog張學彪:
很奇怪,既然是這麼重要的生產環境,竟然還能讓新人來練手,竟然還是root安民:
客戶的生產系統,廠家工程師居然有root密碼,也是醉了振豪:
兩個月前某省部門也發生過類似事情,一個某廠商新手把某伺服器的內容都刪除了,還涉及不同廠商的業務系統的資料,當時我沒法理解為什麼會刪掉其它業務系統資料,現在明白了二十四橋明月夜:
在生產環境試安裝oracle,你們就沒有個測試環境麼,可見你們公司多麼不規範,領導有多傻yi??:
能寫出來警示他人,點贊,這個還是嚴格規範起來吧,做得專業牛逼對得起團隊成員的不指責視線相接:
誤刪過,那一瞬間心涼的感覺,感同身受輝哥:
rm -rf /刪過一次,還好是測試機,直接重灌了,這命令每次用的嚇人半畝荷塘:
一直要求 rm 檔名 確認 yes盎力:
生產伺服器還敢一邊查資料,一邊摸索著弄。真是太大意了,建議安裝內網虛擬伺服器,這樣保證生產安全!mo-呲牙 不過做一次經驗教訓,也學到了不少東西~還有你們領導和團隊真的很棒mo-強mo-強mo-OK藍鷹:
我想說:rf -rm的正確使用方法是“rf 檔名 -rm”,在確認需要刪除的檔案後輸入-rm,然後敲回車,就會避免誤刪除,這個方法值得推廣!馬強:
所以 刪除時候路徑從來不用變數… 還有。指令碼CD到目錄 然後刪除…也要注意,一定要判斷是否進入目錄。東蟲夏草:
上次在生產和測試資料庫之間切換 誤以為在測試環境 刪除表資料直接用了truncate命令 直接把生產oracle中幾張清算表清空了 裡面記錄著商戶賬戶資金資料 當時腦子真是一片空白 後面幸虧運維同事從oracle檔案中恢復過來 從那次後 刪資料都是看好幾遍 不敢大意Leno:
只說一句,直接讓一個不熟悉的人在生產上做操作,不專業,作死!小安靜:
我昨天線上測試,主要看日誌記錄的內容,關鍵操作部分要進行註釋,結果我少註釋了一行程式碼,就導致線上資料庫一天多了一千多條廢資料,心情真的是想哭到爆,雖然昨天真的也哭了。。。警告,所有程式設計師在進行開發的時候,不要思考任何以前的感情相關!!!離宗:
你讓新手去弄生產伺服器,無監管,還給root許可權,就是作死。這是最大的問題雷:
有一次,把伺服器的配置檔案對比成了測試的,當時正式的配置還沒有版本控制,結果,當時就一身冷汗,嚇死寶寶了Orclcast:
兩件事:生產環境怎麼能隨便root許可權給別人呢!還有每次備份都需要監控的,最近的備份資料居然是3年之前的,真不造你這sa怎麼做的!