系統管理員應該知道的 20 條 Linux 命令

發表於2017-08-02

203755_92u8_2918182

在這個全新的工具和多樣化的開發環境井噴的大環境下,任何開發者和工程師都有必要學習一些基本的系統管理命令。特定的命令和工具包可幫助開發者組織、排查故障並優化他們的應用程式,而且當出現錯誤時,也可以為運維人員和系統管理員提供有價值的分類資訊。

無論你是新手開發者還是希望管理自己的應用程式,下面 20 條基本的系統管理命令都可以幫助您更好地瞭解您的應用程式。它們還可以幫助解決為什麼應用程式可在本地正常工作但不能在遠端主機上工作這類的系統故障。這些命令適用於 Linux 開發環境、容器和虛擬機器。

1. curl

curl 用於傳輸一個 URL。可以使用這條命令用於測試應用程式的端點或與上游服務端點的連線。curl 還可用於檢查你的應用程式是否能連線到其他服務,例如資料庫,或檢查您的服務是否處於健康的狀態。

舉個例子,假如你的應用程式丟擲一個 HTTP 500 錯誤,表示無法訪問 MongoDB 資料庫:

-I 選項用於顯示頭資訊,-s 選項表示使用靜默模式,不顯示錯誤和進度。檢查資料庫的端點是否正確:

那麼可能是什麼問題呢? 檢查您的應用程式是否可以訪問資料庫以外的其他位置:

看起來這沒問題,現在嘗試訪問資料庫。您的應用程式正在使用資料庫的主機名,因此請先嚐試:

這表示您的應用程式無法解析資料庫,因為資料庫的 URL 不可用或主機(容器或VM)沒有可用於解析主機名的域名伺服器。

2. python -m json.tool / jq

使用 curl 後,API 呼叫的輸出可讀性可能較差。有時候,你希望將生成的 JSON 資料格式化輸出以查詢特定的條目。Python 有一個內建的庫可幫助您實現這個需求。可以使用 python -m json.tool 來縮排和組織 JSON。要使用 Python 的 JSON 模組,需要使用管道機制,將 JSON 檔案的輸出作為輸入,寫入到 python -m json.tool 命令列。

要使用 Python 庫,使用 -m (module) 選項將輸出內容和 Python 庫組合成管道。

對於更高階的 JSON 解析,可以安裝 jq。j提供了一些從 JSON 輸入中提取特定值的選項。要像上面的 Python 模組一樣將 JSON 輸出格式化,只需將 jq 應用到輸出即可。

3. ls

ls 用於列出目錄中的檔案,系統管理員和開發者會經常使用這個命令。在容器空間中,這條命令可以幫助確定容器映象中的目錄和檔案。除了查詢檔案,ls 還可以用於檢查許可權。下面的示例中,由於許可權問題,你不能執行 myapp。當你使用 ls -l 檢查許可權時,你會發現它的許可權在 -rw-r–r– 中沒有”x”,只有讀寫的許可權。

4. tail

tail 顯示檔案的最後一部分內容。通常情況下,你不需要瀏覽每行日誌以進行故障排除。而是需要檢查日誌中對應用程式的最新請求的說明。例如,當你向 Apache HTTP 伺服器發起請求時,可以使用 tail 來檢查日誌中發生的情況。

205506_GAYc_2918182

使用 tail -f 來跟蹤日誌檔案並在發起請求時檢視它們。

-f 選項表示跟隨的意思,它可在日誌被寫入檔案時輸出它們。下面的示例具有每隔幾秒訪問端點的後臺指令碼,日誌會記錄請求。除了實時跟蹤日誌,還可以使用 tail 帶上 -n 選項來檢視檔案的最後 100 行。

5. cat

cat 主要用於檢視檔案內容和合並檔案。你可能會使用 cat 來檢查依賴項檔案的內容,或確認已在本地構建的應用程式的版本。

上面的示例檢查您的 Python Flask 應用程式是否已將 Flask 列為依賴項。

6. grep

grep 能使用特定模式匹配(包括正規表示式)搜尋文字。如果你在另一條命令的輸出中尋找特定的模式,grep 會高亮顯示相關的行。可使用這條命令來搜尋日誌檔案以及特定的程式等。如果想檢視 Apache Tomcat 是否啟動,你可能會命令列的數量給淹沒。但講輸出的內容和 grep 命令組合成管道,可以將表示伺服器已啟動的行獨立出來。

7. ps

ps 用於檢視程式的各種狀態資訊。使用該命令可確定正在執行的應用程式或確認預期的程式。例如,如果要檢查正在執行的 Tomcat Web 伺服器,可使用帶有選項的 ps 來獲取 Tomcat 的程式 ID。

為了更好的易讀性,可使用 grep ps 組合成管道。

8. env

env 用於列出所有環境變數及為其賦值。在故障排除期間,你可能會發現需要檢查是否有錯誤的環境變數來阻止應用程式啟動。在下面的示例中,該命令用於檢查程式主機上設定的環境變數。

請注意,該應用程式正在使用 Python 3,並具有連線到 MongoDB 資料庫的環境變數。

9. top

top 用於顯示系統中各個程式的資訊和資源佔用狀況,類似於 Windows 的工作管理員。使用該命令可確定哪些程式正在執行,以及它們消耗了多少的記憶體和 CPU。一種常見的情況是當你執行一個應用程式時,它在一分鐘後掛掉。這時,你首先檢查應用程式的返回錯誤,發現是一個記憶體錯誤。

你的應用是否真的記憶體不足?要確認這個問題,可使用 top 來檢視應用程式消耗多少 CPU 和記憶體。當使用 top 命令後,您注意到一個 Python 應用程式使用了大部分的 CPU,其記憶體使用量也迅速攀升。當它執行時,如果程式是你的應用程式,則按”C”鍵來檢視完整命令並進行逆向工程。發現原來是你的記憶體密集型應用程式(memeater.py)。當你的應用程式已經用盡記憶體,系統會殺掉它並返回一個記憶體不足(OOM)的錯誤。

205506_GAYc_2918182

應用程式的記憶體和 CPU 使用量增加,最終因為記憶體不足而被殺掉。

205506_GAYc_2918182

通過按下”C”鍵,可以看到啟動該應用程式的完整命令

除了檢查應用程式,還可以使用 top 來除錯其他使用 CPU 或記憶體的程式。

10. netstat

netstat 用於顯示網路狀態資訊。該命令可顯示正在使用的網路埠及其傳入連線。但是,netstat 在 Linux 中不能開箱即用。如果需要安裝它,需要在 net-tools 包中找到它。作為在本地進行試驗或將應用程式推送到主機的開發者,可能會收到埠已被分配或地址已被使用的錯誤。使用 netstat 得到協議、程式和埠這些資訊,下圖表明 Apache HTTP 伺服器已經在下面的主機上使用了 80 埠。

205506_GAYc_2918182

使用 netstat -tulpn 表明 Apache 已經在這臺機器上使用了 80 埠。

11. ip address

如果 ip address 在你的主機上不能使用,必須使用 iproute2 包進行安裝。ip address 用於顯示應用程式的主機介面和 IP 地址。可使用 ip address 來驗證你的容器或主機的 IP 地址。例如,當你的容器連線到兩個網路時,ip address 可顯示哪個介面連線到了哪個網路。對於簡單的檢查,可以隨時使用 ip address 命令獲取主機的 IP 地址。下面的示例展示了在介面 eth0 上的 Web 層容器的 IP 地址為 172.17.0.2

205506_GAYc_2918182

使用 ip address 顯示 eth0 介面的 IP 地址為 172.17.0.2

12. lsof

lsof 用於列出當前系統開啟的檔案(list open files)。在某些 Linux 系統中,可能需要使用 lsof 包來安裝lsof。在 Linux 中,幾乎任何和系統的互動都被視為一個檔案。因此,如果你的應用程式寫入檔案或代開網路連線,lsof 將會把這個互動對映為一個檔案。與 netstat 類似,可使用 lsof 來檢查偵聽埠。例如,如果要檢查 80 埠是否正在被使用,可使用 lsof 來檢查哪個程式正在使用它。下面的示例中,可以看到 httpd (Apache) 在 80 埠上偵聽。還可以使用 lsof 來檢查 httpd 的程式ID,檢查 Web 伺服器的二進位制檔案所在位置(/usr/sbin/httpd)。

205506_GAYc_2918182

Lsof 表明了 httpd 在 80 埠上偵聽。檢查 httpd 的程式ID還可以顯示所有需要執行的檔案httpd。

開啟檔案列表中的開啟檔案的名稱有助於確定程式的來源,特別是 Apache。

13. df

可以使用 df 顯示空閒的磁碟空間(display free disk space)以排查磁碟空間問題。擋在容器管理器上執行應用程式時,可能會收到一條錯誤資訊,提示容器主機上缺少可用空間。雖然磁碟空間應該由系統管理程式來管理和優化,你仍可以使用 df 找出目錄中的現有空間並確認是否沒有空間。

205506_GAYc_2918182

Df 顯示每個檔案系統的磁碟空間、絕對空間以及其可用性。

-h 選項表示以可讀性較高的方式來顯示資訊,上面的例子表示這個主機具有大量的磁碟空間。

14. du

du 命令也是用於檢視使用空間的,但是與 df 命令不同的是 du 命令是對檔案和目錄磁碟使用的空間的檢視,要獲取有關哪些檔案在目錄中使用磁碟空間的更多詳細資訊,可以使用 du 命令,和 df 命令還是有一些區別的。例如,你想了解那個日誌檔案佔用 /var/log 目錄最多的空間,可以使用 du 命令加上 -h 選項和用於獲取總大小的 -s 選項。

上面的示例中顯示了 /var/log 下的的最大目錄為 /var/log/audit。可以將 dudf 搭配使用,以確定在應用程式的主機上使用的磁碟空間。

15. id

要檢查執行應用程式的使用者,可使用 id 命令來返回使用者身份。id 命令可以顯示真實有效的使用者ID(UID)和組ID(GID)。下面的示例使用 Vagrant 來測試應用程式並隔離其開發環境。登入進 Vagrant 盒子後,如果嘗試安裝 Apache HTTP Server(依賴關係),系統會提示你需要以 root 身份執行該命令。要檢查你的使用者ID和組ID,使用 id 命令,會發現你正在”vagrant”組中以”vagrant”使用者身份執行。

要解決此問題,必須以超級使用者的身份執行該命令,這將提供提升的許可權。

16. chmod

chmod 命令用來變更檔案或目錄的許可權。當你在主機上首次執行應用程式的二進位制檔案時,可能會收到錯誤提示資訊“拒絕訪問”。如 ls 的示例所示,可以用於檢查應用程式二進位制檔案的許可權。

這表明您沒有許可權(沒有“x”)來執行二進位制檔案。chmod 可以修改許可權,使的使用者能夠執行二進位制檔案。

如例子所示,這將更新許可權,使其具有可執行的許可權。現在當你嘗試執行二進位制檔案時,應用程式不會丟擲拒絕訪問的錯誤。當將二進位制檔案載入到容器時,Chmod 可能很有用。它能保證容器具有合適的許可權以執行二進位制檔案。

17. dig / nslookup

dig 命令是常用的域名查詢工具,可以用來測試域名系統工作是否正常。域名伺服器(DNS)有助於將 URL 解析為一組應用程式伺服器。然而,你會發現有些 URL 不能被解析,這會導致應用程式的連線問題。例如,假如你嘗試從應用程式的主機訪問你的資料庫。你收到一個”不能解析”的錯誤。要進行故障排查,你嘗試使用 dig(DNS 查詢工具)或 nslookup(查詢 Internet 域名伺服器)來確定應用程式似乎無法解析資料的原因。

使用 nslookup 顯示無法解析 mydatabase。嘗試使用 dig 解決,但仍是相同的結果。

這些錯誤可能是由許多不同的問題引起的。如果無法除錯出根本原因,與系統管理員聯絡以進行更多的調查。對於本地測試,這些問題可能表示你的主機的域名伺服器未正確配置。要使用這些命令,需要安裝 BIND Utilities 

18. iptables

iptables 用於阻止或允許 Linux 主機上的流量,用於 IP 包過濾器管理,類似於網路防火牆。此工具可阻止某些應用程式接收或傳送請求。更具體地說,如果您的應用程式難以訪問另一個端點,可能已被 iptables 拒絕流量訪問該端點。例如,假設您的應用程式的主機無法訪問 Opensource.com,您使用 curl 來測試連線。

連線超時。您懷疑某些東西可能會阻塞流量,因此您使用 -S 選項顯示 iptables 規則。

前三個規則顯示,預設情況下流量已被丟棄。剩下的規則表示允許 SSH 和 DNS 流量。在這種情況下,如果需要允許流量到外部端點的規則,請跟上 sysadmin。如果這是用於本地開發或測試的主機,可使用 iptables 命令來允許合適的流量。新增允許到主機的流量的規則時一定要謹慎。

19. sestatus

通常會在企業管理的應用程式主機上使用 SELinux(一個 Linux 安全模組)。SELinux 對主機上執行的程式提供最低許可權的訪問,防止潛在的惡意程式訪問系統上的重要檔案。某些情況下,應用程式需要訪問特定檔案,但可能會發生錯誤。要檢查 SELinux 是否阻止了應用程式,使用 tail 和 grep /var/log/audit 日誌記錄中查詢”denied”(被拒絕)的資訊。否則,使用 sestatus 來檢查是否啟動了 SELinux。

上面的輸出表示應用程式的主機已啟用 SELinux。在本地開發環境中,可以更新 SELinux 使得許可權更寬鬆。

20. history

當你使用大量的命令進行測試和除錯時,可能會忘記有用的命令。每個 shell 都有一個 history 命令的變體。它可顯示自會話開始以來使用的命令的歷史記錄。可以使用 history 來記錄用來排除應用程式故障的命令。history 命令用於顯示指定數目的指令命令,讀取歷史命令檔案中的目錄到歷史命令緩衝區和將歷史命令緩衝區中的目錄寫入命令檔案。

如果希望執行之前歷史記錄中的命令,但又不想重新輸入,該怎麼辦?使用符號 ! 即可,可以使用符號 ! 執行指定序號的歷史命令。例如,要執行第 2 個歷史命令,則輸入!2,

205506_GAYc_2918182

在需要重新執行的命令的指定編號前新增 ! 即可重新執行

這些基本命令能增強排查故障的專業技能,可檢查為什麼應用程式可以在一個開發環境中工作,而在另一個開發環境中則不可以。許多系統管理員使用這些命令來除錯系統問題。瞭解一些有用的故障排查命令可幫助解決應用程式的問題。

 

相關文章