我的第一個系統管理員錯誤

Jim Hall發表於2018-07-17

如何在崩潰的局面中集中精力尋找解決方案。

我的第一個系統管理員錯誤

如果你在 IT 領域工作,你知道事情永遠不會像你想象的那樣完好。在某些時候,你會遇到錯誤或出現問題,你最終必須解決問題。這就是系統管理員的工作。

作為人類,我們都會犯錯誤。我們不是已經犯錯,就是即將犯錯。結果,我們最終還必須解決自己的錯誤。總是這樣。我們都會失誤、敲錯字母或犯錯。

作為一名年輕的系統管理員,我艱難地學到了這一課。我犯了一個大錯。但是多虧了上級的指導,我學會了不去糾纏於我的錯誤,而是制定一個“錯誤策略”來做正確的事情。從錯誤中吸取教訓。克服它,繼續前進。

我的第一份工作是一家小公司的 Unix 系統管理員。真的,我是一名生嫩的系統管理員,但我大部分時間都獨自工作。我們是一個小型 IT 團隊,只有我們三個人。我是 20 或 30 臺 Unix 工作站和伺服器的唯一系統管理員。另外兩個支援 Windows 伺服器和桌面。

任何閱讀這篇文章的系統管理員都不會對此感到意外,作為一個不成熟的初級系統管理員,我最終在錯誤的目錄中執行了 rm 命令——作為 root 使用者。我以為我正在為我們的某個程式刪除一些陳舊的快取檔案。相反,我錯誤地清除了 /etc 目錄中的所有檔案。糟糕。

我意識到犯了錯誤是看到了一條錯誤訊息,“rm 無法刪除某些子目錄”。但快取目錄應該只包含檔案!我立即停止了 rm 命令,看看我做了什麼。然後我驚慌失措。一下子,無數個想法湧入了我的腦中。我剛剛銷燬了一臺重要的伺服器嗎?系統會怎麼樣?我會被解僱嗎?

幸運的是,我執行的是 rm * 而不是 rm -rf *,因此我只刪除了檔案。子目錄仍在那裡。但這並沒有讓我感覺更好。

我立刻去找我的主管告訴她我做了什麼。她看到我對自己的錯誤感到愚蠢,但這是我犯的。儘管緊迫,她花了幾分鐘時間跟我做了一些指導。 她說:“你不是第一個這樣做的人,在你這種情況下,別人會怎麼做?”這幫助我平靜下來並專注。我開始更少考慮我剛剛做的愚蠢事情,而更多地考慮我接下來要做的事情。

我做了一個簡單的策略:不要重啟伺服器。使用相同的系統作為模板,並重建 /etc 目錄。

制定了行動計劃後,剩下的就很容易了。只需執行正確的命令即可從另一臺伺服器複製 /etc 檔案並編輯配置,使其與系統匹配。多虧了我對所有東西都做記錄的習慣,我使用已有的文件進行最後的調整。我避免了完全恢復伺服器,這意味著一個巨大的當機事件。

可以肯定的是,我從這個錯誤中吸取了教訓。在接下來作為系統管理員的日子中,我總是在執行任何命令之前確認我所在的目錄。

我還學習了構建“錯誤策略”的價值。當事情出錯時,恐慌並思考接下來可能發生的所有壞事是很自然的。這是人性。但是制定一個“錯誤策略”可以幫助我不再擔心出了什麼問題,而是專注於讓事情變得更好。我仍然會想一下,但是知道我接下來的步驟可以讓我“克服它”。


via: https://opensource.com/article/18/7/my-first-sysadmin-mistake

作者:Jim Hall 選題:lujun9972 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出

相關文章