每日英語,每天進步一點點(偷笑):
前言
臨近五一節,想到有 5 天假期,小林開始飄了。
寫個簡單的 Bash
指令碼都不上心了,寫完連檢查都不檢查,直接拖到到實體伺服器跑。
結果一跑起來,發生不對勁,怎麼一個簡單指令碼跑了 10 秒還沒結束,於是立馬直接 ctrl + c
一頓操作停掉了執行中指令碼。
接著,習慣性的輸入了 ls
,結果 what? 找不到 ls
命令?
瞬間背後一涼,慌慌張張開啟了指令碼。
發現問題了,小林我寫了個巨蠢的 Bug,間接執行了 rm -fr /*
,這不意味著我刪庫了?
這臺是公司的授權伺服器呀,被小林這麼一整,公司歷史的授權記錄和其他重要資訊不就丟了?
心裡慌的一批的小林,跟我的朋友們說了這件事,朋友建議我先第一時間上報給 leader,不要把刪庫的事情瞞著。
於是,小林就向 leader 說了我刪庫事情,本以為會被痛批一頓。
結果 leader 笑著說:“沒事,你先看看重要的檔案還在不在。不過你這麼一整,我突然想起編譯伺服器半年沒備份,我先備份一下我的編譯伺服器,防止哪天也被你們刪庫了。”
我:“????”
吃瓜的小夥伴,是不是覺得小林要刪庫跑路了?哈哈哈,小林沒跑路,反而是恢復了回來,所以接下來說說小林是如何「從刪庫到恢復」的。
正文
初探案發現場
來看看小林寫的垃圾程式碼,是如何引發這次的刪庫。
既然發生了 rm -fr /*
的現象,那必然 new_lic_dir
這個變數是空的。
所以導致執行 rm -fr $new_lic_dir/*
這條語句的時候,變成了 rm -fr /*
刪庫語句。很好,凶器找到了。
那為什麼
new_lic_dir
會是空的呢?
細心的小夥伴肯定察覺出來了,是因為給 new_lic_dir
變數賦值的時使用了反引號。
沒錯,就是反引號的原因。
反引號在 Linux Shell 命令列中有特殊的含義:反引號間的內容,會被 Shell 先執行。其輸出被放入主命令後,主命令再被執行。
也就是說, new_lic_dir
的值是 ${lic_path}/new_license
這條命令執行的結果,問題這哪是命令啊,所以肯定返回空值給 new_lic_dir
變數。
小林寫的那麼溫柔的程式碼,竟然變成了窮凶極惡的刪庫程式碼。
這下原因是找到了,反引號應該改成雙引號才對。
小林你真菜呀,那麼簡單的賦值命令都寫錯。
哈哈哈,確實菜,都說了嘛,快五一了,小林是飄著寫這份程式碼的。
所以習慣性開啟程式設計師內容的第一大武功:crtl+c
和 crtl+v
。
把第一條賦值 lic_path=`pwd` 語句,複製貼上了,然後只改了變數名,沒注意反引號要修改成雙引號,所以造成了刪庫的悲劇。
保留案發現場
既然發生了刪庫的事情,千萬不要重啟伺服器,也不要關閉 ssh 連線的會話,而是要保留案發現場,接著查查還剩什麼。
小林,這不是吹大炮嘛?
ls
都沒了,還怎麼查?
還好這次是比較幸運,因為在執行指令碼的時候,第一時間發現不對勁,立馬掐斷了還在執行的指令碼,所以並非 Linux 所有檔案都被刪除了。
只要我掐的快,rm -fr /* 就幹不死我。
雖然 ls
被刪了,但所幸發現 cd
命令還能用。
只要 cd
用的好,它也能用出的 ls
效果。很簡單,只需 cd + Tab
鍵就會自動出現指定目錄下的所有檔案。
有了 cd + Tab
鍵,我們就可以檢視每個目錄下的檔案,於是就可以一步一步來確認哪些系統檔案被刪了。
通過一番的確認和對比後,發現主要被刪除的有四個目錄分別是
/bin
、/boot
、/dev
這三個目錄整個都被刪除了/lib
目錄裡的動態庫部分被刪除
來複習下上面這四個目錄主要是存放了什麼:
/bin
存放常用系統命令,ls、cp、rm、chmod
等常用命令都在此目錄;/boot
系統啟動目錄,儲存與系統啟動相關的檔案,如核心檔案和啟動載入程式;/dev
裝置檔案儲存位置;/lib
存放程式所需的動態庫和靜態庫檔案;
/boot
都被刪除了,還好小林沒有重啟伺服器,要是重啟了伺服器,就完犢子了,系統肯定起不來了。
cd
命令是在 /sin
目錄下,/sin
還健全,所以 cd
是可以正常使用。
所幸重要的資料庫資訊和檔案都還沒刪除,所以小林首要的目標是要恢復 /bin、/boot、/dev
、/lib
這四個目錄。
還原檔案
由於 /bin
目錄 和 /lib
部分動態檔案被刪除,常用的傳遞檔案的方式是無法使用的,如 ftp、scp、mount 等。
小林摸索了很久,竟然發現 wget
可以使用,wget
命令是在 /usr/bin
目錄,所幸 /usr/bin
還健全。
於是,用了取巧的方法,先另一臺正常的伺服器,把 /bin
目錄放到了 Web
伺服器的 Web
目錄,接著通過 wget
進行下載。
有戲,看到了成功的曙光。
但是新的問題就來了,我下載過來的命令檔案,是沒有執行許可權的。
而 chmod
命令是在 /bin
目錄的,它同樣也被刪除了,無法使用它來給予檔案許可權。
還在,在網上搜到了一個偉大命令 perl
,可以通過它來給予檔案許可權:
perl -e "chmod 777, 'ls'"
真是個神奇的命令。
好了,這下賦值許可權問題也解決了,成功在望了。
wget
是無法直接把 /bin
目錄下載下來的,只能下載一個檔案。
但是小林我不可能一個一個去下載來進行恢復,這得要何年何月才能完成。。。
小林就想到了一個方法:
- 先通過
wget
的方式下載tar
命令,並通過perl
給予tar
命令許可權 - 接著把另一臺伺服器把
/bin
目錄打包成壓縮檔案,然後通過wget
下載bin
目錄的壓縮包檔案 - 最後通過
tar
命令把bin
壓縮包解壓出來
/bin
就這樣恢復回來啦,剩餘的其他目錄 也是通過同樣的操作恢復了回來。
小林的笑容漸漸恢復了回來,哈哈哈哈哈哈哈哈哈哈哈哈
遇到 rm -fr /* 刪庫事件發生,一定要沉住氣,穩住心態
本次刪庫事件,之所以小林能幸運的恢復回來,有非常關鍵兩點:
- 小林發現指令碼執行不正常,果斷立馬的掐斷它,沒有造成重要的資料庫資訊被刪除,如果掐斷的時候再晚一點,可能就真沒了。
- 小林發現常用命令無法使用的時候,沒有重啟伺服器,不然伺服器就起不來了,也沒有關閉 ssh 會話,不然無法在重新連線 ssh 會話了,也就無法進行操作了。
如果以上兩點都沒做好,伺服器恢復的難度就加大了很多,更嚴重的是五一節就沒的過了。
預防誤執行 rm -fr /*
既然 rm -fr /*
是殘忍的凶器,那麼預防它是很有必要的,接下來跟大家討論討論預防它的幾種方案。
方案一:rm -rf 刪除目錄時要判斷目錄
#!/bin/bash
work_path=`pwd`
#如果目錄不為空,才執行刪除操作
if [ ${work_path} != "" ];then
rm -fr ${work_path}/*
fi
在執行刪除目錄操作前,先判斷要刪除的目錄是否為空,不為空才執行刪除操作。
方案二:Shell 指令碼指定 set -u
執行指令碼的時候,如果遇到不存在的變數,Bash 預設忽略它。
#!/bin/bash
echo $a
echo hello
上面程式碼中,$a
是一個不存在的變數,執行結果如下。
$ bash test.sh
hello
可以發現,echo $a
輸出了一個空行,Bash
忽略了不存在的 $a
,然後繼續執行 echo hello
。
最好是遇到變數不存在,指令碼應該報錯,而不是一聲不響地往下執行。
set -u
就用來改變這種行為,在指令碼加上它,遇到不存在的變數就會報錯,並停止執行。
#!/bin/bash
set -u
rm -fr $a/*
echo hello
執行結果如下:
$ bash test.sh
test.sh: line 4: a: unbound variable
可以看到,因為 a
是未定義變數,指令碼報錯了,並且不再執行後面的語句。
方案三:safe-rm 替換 rm
safe-rm
是一個開源軟體工具,這名字聽起來就很安全嘛,所以它是用來替代不太安全的 rm
。
它可以在 /etc/safe-rm.conf
中配置路徑黑名單,定義哪些不能被 safe-rm
刪除。
我們可以將 safe-rm
更名為 rm
,假設定義了 /etc/
無能被刪除,那麼刪除 /etc
時就會報錯:
$ rm -rf /etc/
safe-rm: skipping /etc/
方案四:建立回收站機制
Windows 是有回收站的,即使誤刪了,也可以在回收站恢復。
所以,我們也可以在 Linux 實現回收站的機制。
實現思路:
刪除檔案時,它並不真正執行刪除操作,而是將檔案移動到一個特定目錄,可以設定定時清楚回收站,或者在回收站裡面的檔案大小達到一定容量時(或者用時間做判斷)執行刪除操作以騰出空間。
可以寫個 Shell 指令碼替換 rm
命令,或者在需要刪除檔案的時候使用 mv
命令將檔案移動到回收站。
① 建立回收站目錄
mkdir /home/.trash
② 編寫 remove.sh
指令碼,內容如下
③ 修改 ~/.bashrc
, 用我們自建的 remove.sh
替代 rm
命令
alias rm="sh /home/remove.sh"
④ 設定 crontab
,定期清空垃圾箱,如每天 0 點清空垃圾箱:
0 0 * * * rm -rf /home/.trash/*
⑤ 最後,執行以下命令,使之生效
source ~/.bashrc
方案五:根檔案掛載成只讀
在 /etc/fstab
檔案,把 /
檔案系統掛載成只讀的方式。
其中 remount,ro
,就表示只讀的方式掛載。
只讀的方式掛載後,進行刪除操作是無法成功的:
事後反思
涉及到 rm -fr
命令的程式碼,要留個心眼,要反覆檢查,要做好預防誤執行 rm -fr /*
,並在測試機驗證完後,再拖到實體機上跑,千萬不可大意。
就算的發生了 rm -fr /*
,要第一時間停掉它,並且要做到三不要:
- 不要慌,不要心跳爆炸(穩住穩住)
- 不要隱瞞刪庫事件(不丟人)
- 不要重啟伺服器或斷開 ssh 會話(保留現場)
只要立馬掐斷 rm -fr /*
,它是幹不死我們的。
利用當下環境剩有的命令,冷靜分析,是有機會恢復的。
小林現在是一個刪過庫沒跑路的男人了,Goodbye, 我們下次見。