grep 工具實用頁

hedzr發表於2019-05-30

這次講的是 bash 命令列中的外部命令 grep 的一些事情。

歷史 [1]

grep是一個最初用於 Unix 作業系統的 命令列 工具。在給出檔案列表或 標準輸入 後,grep會對匹配一個或多個 正規表示式 的文字進行搜尋,並只輸出匹配(或者不匹配)的行或文字。

grep這個應用程式最早由 肯·湯普遜 寫成。grep原先是ed下的一個應用程式,名稱來自於g/re/p(globally search a regular expression and print,以正規表示法進行全域性查詢以及列印)。在ed下,輸入g/re/p這個命令後,會將所有匹配先定義樣式的字串,以行為單位列印出來。

在1973年,Unix第四版中,grep首次出現在man頁面中。

以上主要來自維基中。

功能

grep 使用正規表示式搜尋文字,並把匹配的行列印出來。作為輸入的文字,可以來自標準輸入,也可以來自(任意多個、萬用字元表示的)檔案,新版本的 grep 也支援面向當前目錄的子資料夾遍歷所有檔案進行正則式匹配和搜尋。

grep 的典型選項包括有:

模式選擇和解釋:

-E 將範本樣式為延伸的普通表示法來使用,意味著使用能使用擴充套件正規表示式。(extended regular expression) -F 將範本樣式視為固定字串的列表。(newline-separated strings) -G 將範本樣式視為基本正則式來使用。(basic regular expression) -P 將範本樣式視為Perl的表示法來使用。(Perl regular expression) -e<範本樣式> 指定字串作為查詢檔案內容的範本樣式。 -f<範本檔案> 指定範本檔案,其內容有一個或多個範本樣式,讓grep查詢符合範本條件的檔案內容,格式為每一列的範本樣式。 -i 忽略字元大小寫的差別。 -w 只顯示全字元合的列。 -x 只顯示全列符合的列。

雜類:

-v 反轉查詢。 -s 不顯示錯誤資訊。

輸出控制:

-b 顯示輸出行的從檔案開始起的位元組偏移量。 -c 計算符合範本樣式的列數。 -h 在顯示符合範本樣式的那一列之前,不標示該列所屬的檔名稱。 -H 在顯示符合範本樣式的那一列之前,標示該列的檔名稱。 -l 列出檔案內容符合指定的範本樣式的檔名稱。 -L 列出檔案內容不符合指定的範本樣式的檔名稱。 -n 在顯示符合範本樣式的那一列之前,標示出該列的編號。 -o 只輸出檔案中匹配到的部分。 -q 不顯示任何資訊。 -R/-r 此引數的效果和指定“-d recurse”引數相同。

內容控制:

-B<顯示列數> 除了顯示符合範本樣式的那一行之外,並顯示該行之前的內容。 -A<顯示列數> 除了顯示符合範本樣式的那一行之外,並顯示該行之後的內容。 -C<顯示列數>或-<顯示列數> 除了顯示符合範本樣式的那一列之外,並顯示該列之前後的內容。

詳細的選項請參考 grep --help 的輸出。

Usage: grep [OPTION]... PATTERN [FILE]...
Search for PATTERN in each FILE.
Example: grep -i 'hello world' menu.h main.c
複製程式碼

完整的參考手冊請通過命令列 man grepinfo grep 來檢索。

基本用法 [2]

在檔案中搜尋一個單詞,命令會返回一個包含**“match_pattern”**的文字行:

grep match_pattern file_name
grep 'match_pattern' file_name
grep "match_pattern" file_name
複製程式碼

上面三個命令對於grep來說是等效的。其區別在於,單引號可以防止 match_pattern 中出現空格的情況,且禁止bash巢狀計算(例如 $var 變數嵌入),而雙引號在具備單引號的效果的同時也支援 bash 變數展開、bash 命令巢狀計算、bash 算術表示式計算和展開等等。

在多個檔案中查詢:

grep "match_pattern" file_1 file_2 file_3 ...
複製程式碼

輸出除之外的所有行 -v 選項:

grep -v "match_pattern" file_name
複製程式碼

再如

ps -auxef|grep java|grep -v grep
複製程式碼

這裡的 grep -v grep 表示從前面的結果(所有的java執行例項)中排除 帶有grep文字的例項。實際上,這是為了將 grep java 這條命令的例項給排除掉,這樣我們就會獲得純粹的 java 執行例項了。

標記匹配顏色 --color=auto 選項:

grep "match_pattern" file_name --color=auto
複製程式碼

使用正規表示式 -E 選項:

grep -E "[1-9]+"
# 或
egrep "[1-9]+"
複製程式碼

egrep 表示使用 Extended 正規表示式語法。

只輸出檔案中匹配到的部分 -o 選項:

echo this is a test line. | grep -o -E "[a-z]+\."
line.

echo this is a test line. | egrep -o "[a-z]+\."
line.
複製程式碼

統計檔案或者文字中包含匹配字串的行數 -c 選項:

grep -c "text" file_name
複製程式碼

輸出包含匹配字串的行數 -n 選項:

grep "text" -n file_name
或
cat file_name | grep "text" -n

#多個檔案
grep "text" -n file_1 file_2
複製程式碼

列印樣式匹配所位於的字元或位元組偏移:

echo gun is not unix | grep -b -o "not"
7:not

#一行中字串的字元便宜是從該行的第一個字元開始計算,起始值為0。選項 -b -o 一般總是配合使用。
複製程式碼

搜尋多個檔案並查詢匹配文字在哪些檔案中:

grep -l "text" file1 file2 file3...
複製程式碼

忽略匹配樣式中的字元大小寫:

echo "hello world" | grep -i "HELLO"
hello
複製程式碼

選項 -e 指定多個匹配樣式:

echo this is a text line | grep -e "is" -e "line" -o
is
line

#也可以使用-f選項來匹配多個樣式,在樣式檔案中逐行寫出需要匹配的字元。
cat patfile
aaa
bbb

echo aaa bbb ccc ddd eee | grep -f patfile -o
複製程式碼

grep遞迴搜尋檔案

在多級目錄中對文字進行遞迴搜尋:

grep "text" . -r -n
# .表示當前目錄。
複製程式碼

在grep搜尋結果中包括或者排除指定檔案:

#只在目錄中所有的.php和.html檔案中遞迴搜尋字元"main()"
grep "main()" . -r --include *.{php,html}

#在搜尋結果中排除所有README檔案
grep "main()" . -r --exclude "README"

#在搜尋結果中排除filelist檔案列表裡的檔案
grep "main()" . -r --exclude-from filelist
複製程式碼

使用0值位元組字尾的 grep 與 xargs

#測試檔案:
echo "aaa" > file1
echo "bbb" > file2
echo "aaa" > file3

grep "aaa" file* -lZ | xargs -0 rm
#執行後會刪除file1和file3,grep輸出用-Z選項來指定以0值位元組作為終結符檔名(\0),xargs -0 讀取輸入並用0值位元組終結符分隔檔名,然後刪除匹配檔案,-Z通常和-l結合使用。
複製程式碼

grep靜默輸出:

grep -q "test" filename
#不會輸出任何資訊,如果命令執行成功返回0,失敗則返回非0值。一般用於條件測試。
複製程式碼

列印出匹配文字之前或者之後的行:

#顯示匹配某個結果之後的3行,使用 -A 選項:
seq 10 | grep "5" -A 3
5
6
7
8

#顯示匹配某個結果之前的3行,使用 -B 選項:
seq 10 | grep "5" -B 3
2
3
4
5

#顯示匹配某個結果的前三行和後三行,使用 -C 選項:
seq 10 | grep "5" -C 3
2
3
4
5
6
7
8

#如果匹配結果有多個,會用“--”作為各匹配結果之間的分隔符:
echo -e "a\nb\nc\na\nb\nc" | grep a -A 1
a
b
--
a
b
複製程式碼

grep -P 表示啟用perl語法規則。此時你可以使用 Perl 正則式語法來編寫規則。

Perl 正則式語法,又被稱作 PCRE表示式,可以參考 Wiki 的PCRE表示式全集

常見的慣用法

find text string recursively

在一個資料夾中,我不知道哪些檔案包含了 fantasy 文字描述,可以這樣找:

grep -PHni 'fantasy' * -r
複製程式碼

這條命令會列舉當前資料夾中所有內容包含fantasy的檔案,將它們的檔名和包含fantasy文字的行及其行號都列舉出來。

如果你還需要看看匹配文字的前後上下文,可以用:

grep -PHni 'fantasy' * -r -C 3
複製程式碼

-P 表示使用 Perl 正則式語法

-H 表示列印出匹配行所在的檔名

-n 表示列印出匹配行的行號

-i 表示忽略大小寫

-C 3 表示前後三行都列舉出來。

-B 3 表示前面三行也被列舉出來。

-A 3 表示後面三行也被列舉出來。

find ip address

使用 -o 引數時,grep 常常被用於抽取特定模式的文字內容,而不是將整個匹配行進行輸出。

例如:

$ ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: ens3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 56:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff
    inet 217.179.87.159/23 brd 217.179.87.255 scope global dynamic ens3
       valid_lft 63125sec preferred_lft 63125sec
3: ens7: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
    link/ether 5a:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff

$ ip addr | grep -Po 'inet \d+\.\d+\.\d+\.\d+' | grep -v 'inet 127' | grep -Po '\d+.+'
217.179.87.159
複製程式碼

在這裡其中表示式一會抽出 'inet xxxxxx' 的兩行內容,形如:

inet 127.0.0.1
inet 217.179.87.159
複製程式碼

表示式二會將 127.0.0.1 行排除掉,表示式三去掉inet字首,最後就得到了我們想要的IP地址了。

想要抽取 IPv6 的地址也可以用相似的辦法。

當然,表示式三針對 'inet 217.179.87.159' 進行抽取是比較累的方法,實際上這裡我們會採用 awk來切掉前半部分:awk '{print $2}'。這個短語按照空格將輸入文字切分成 n 個小段,$2 表示的是第二段也就是我們想要的 IP 地址了。

ports

如果想要找出當前主機中監聽埠的服務,可以利用 lsof 命令的輸出:

$ sudo lsof -Pni|grep LISTEN
sshd        858              root    3u  IPv4    19572      0t0  TCP *:22 (LISTEN)
sshd        858              root    4u  IPv6    19582      0t0  TCP *:22 (LISTEN)
nginx      6170              root    9u  IPv4 53951827      0t0  TCP *:443 (LISTEN)
nginx      6170              root   10u  IPv4 53951828      0t0  TCP *:8060 (LISTEN)
nginx      6170              root   11u  IPv4 53951829      0t0  TCP *:80 (LISTEN)
複製程式碼

據此,我們可以寫出一個常用命令函式 ports,並將其放在 .bashrc 檔案中,於是我們可以簡便地檢視埠號了。這個函式可以這麼寫:

ports () {
    local x=$1
    if [ "$x" == "" ]; then
        sudo lsof -Pni|grep -P 'LISTEN|UDP'
    else
        sudo lsof -Pni|grep -P 'LISTEN|UDP'|grep ":$x"
    fi
}
複製程式碼

然後我們可以這麼使用它:

ports
ports 443
ports 22
複製程式碼

注意,你最好將自己的 Linux 賬戶調整為免密碼sudo的,否則使用 ports 時可能需要輸入自己的密碼來獲得 sudo 身份。當然,如果只想檢查自己啟動的服務的埠號的話,可以去掉sudo指令。

has-user, has-group

如何檢測一個linux賬戶有否存在呢?

Linux中沒有通用的命令專門用於此項檢測。通常像useradd之類的命令會在使用者存在時返回失敗,但這並非恰當的檢測方法。

為了達到目的,我們只能自行解釋 /etc/passwd 檔案。這個檔案會羅列系統中所有的賬戶,其格式形如這樣:

root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
...
複製程式碼

所以,判斷一個使用者是否存在,只需判斷第一項欄位就可以了。

很明顯,awk適合做這事:

$ cat /etc/passwd|awk -F: '{print $1}'
root
daemon
bin
sys
sync
複製程式碼

不過本文中還是要用grep來解決問題:

has-user() {
    local name=${1:-root}
    cat /etc/passwd|grep -q "^$name"
}

has-user 'joe' && echo 'joe exists' || 'joe not exists'
複製程式碼

類似的,我們還可以定義相似的函式 has-group:

has-group () {
    local name=${1:-root}
    cat /etc/group|grep -q "^$name"
}

has-group staff && echo 'staff group exists' || echo 'staff group not exists'
複製程式碼

更多

下面,我們給出一些實用的例子:

function find_ip () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"; }

function find_ip_uniq () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"|grep -v '\.255'|head -n1; }

genpasswd(){ strings /dev/urandom|grep -oP '[[:alnum:]]|[\#\%\@\&\^]'|head -n "${1:-16}"|tr -d '\n';echo;}


複製程式碼

結束語

grep 和 awk,sed 是 Linux 的三大工具,很大程度上代表的 Linux 的設計哲學,即小巧、專注、組合。使用 grep 這樣的工具最大的技巧就在於對目標行為進行分解:拿到源文字,篩選源文字,構造結果輸出。

本文也只是講解到了基本的用法部分,開啟思路還是要看你自己的聰明才智。

參考


  1. zh.wikipedia.org/wiki/Grep ↩︎

  2. man.linuxde.net/grep ↩︎

相關文章