linux sed命令就是這麼簡單

薰衣草的旋律發表於2017-04-17

概述

sed命令是一個面向字元流的非互動式編輯器,也就是說sed不允許使用者與它進行互動操作。sed是按行來處理文字內容的。在shell中,使用sed來批量修改文字內容是非常方便的。

sed命令的選項

sed [選項] [動作]

選項與引數:
-n :使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN 的資料一般都會被列出到終端上。但如果加上 -n 引數後,則只有經過sed 特殊處理的那一行(或者動作)才會被列出來。
-e :直接在命令列模式上進行 sed 的動作編輯;
-f :直接將 sed 的動作寫在一個檔案內, -f filename 則可以執行 filename 內的 sed 動作;
-r :sed 的動作支援的是延伸型正規表示法的語法。(預設是基礎正規表示法語法)
-i :直接修改讀取的檔案內容,而不是輸出到終端。

function:
a :新增行, a 的後面可以是字串,而這些字串會在新的一行出現(目前的下一行)
c :取代行, c 的後面可以接字串,這些字串可以取代 n1,n2 之間的行
d :刪除行,因為是刪除,所以 d 後面通常不接任何引數,直接刪除地址表示的行;
i :插入行, i 的後面可以接字串,而這些字串會在新的一行出現(目前的上一行);
p :列印,亦即將某個選擇的資料印出。通常 p 會與引數 sed -n 一起執行
s :替換,可以直接進行替換的工作,通常這個 s 的動作可以搭配正規表示法,例如 1,20s/old/new/g 一般是替換符合條件的字串而不是整行

一般function的前面會有一個地址的限制,例如 [地址]function,表示我們的動作要操作的行。下面我們通過具體的例子直觀的看看sed的使用方法。

刪除行

//test.txt 內容如下
11 aa
22 bb
33 cc
23 dd
55 2e

sed '1,2d' test.xx 

輸出:
33 cc
23 dd
55 2e

其中1,2d中的d表示刪除,而d前面的表示刪除的行的地址,而1,2表示一個地址範圍,也就是刪除第1行和第2行。地址範圍的表示一般是  m,n 表示對m和n行之間的所有行進行操作,也包含第m行和第n行。sed的地址定址中可以使用$表示最後一行,例如 m,$ 表示對m行以及其後面的所有行進行操作,包括最後一樣。m,$d就是刪除m行以及其後面的所有行內容。當然我們還可以對某一行進行操作,例如2d表示僅僅刪除第2行。除了使用數字範圍 m,n 表示多行區間,以及m表示單行以外,我們還可以使用正規表示式選出符合條件的行,並對這些行進行操作,同樣的是上面的檔案:

sed '/2/d' test.txt

輸出:
11 aa
33 cc

上面的命令中 /2/ 是一個正規表示式,在sed中正規表示式是寫在 /.../ 兩個斜槓中間的,這個正則的意思是尋找所有包含2的行,執行相應的操作,也就是刪除所有包含2的行,如果我們只想刪除以2開頭的行呢,只需要修改一下正規表示式就可以了:

sed '/^2/d' test.txt

輸出:
11 aa
33 cc
55 2e

新增行

sed '1a hello world' test.txt

輸出:
11 aa
hello world
22 bb
33 cc
23 dd
55 2e

其中a命令表示在指定行的後面附加一行,1a則是在第一行的後面新增一行,新增的內容就是a後面的內容,如果a的前面沒有地址限定則在所有行的後面都會新增指定的字串

sed '1i hello world' test.txt

輸出:
hello world
11 aa
22 bb
33 cc
23 dd
55 2e

命令i表示在指定的行的前面插入一行,插入的內容為其後面的字串

替換行

sed '1c hello world' test.txt

輸出:
hello world
22 bb
33 cc
23 dd
55 2e

命令c會替換指定的行的所有內容,替換成其後面的字串,所有的新增,刪除,替換行,這些命令前面的地址修飾都可以指定地址空間,也都可以使用正規表示式,命令會應用在選出的符合地址條件的所有行上面,例如:

sed '/^2/c hello world' test.txt

輸出:
11 aa
hello world
33 cc
hello world
55 2e

替換以2開頭的行,其內容是c命令後面的字串

替換部分字串而不是整行

sed中除了上面的命令是針對整行進行操作的之外,還提供一個替換命令,該命令對某一行中的部分字串進行操作,下面舉一個簡單的例子,還是同樣的文字內容,執行下面的命令:

sed 's/aa/AA/' test.txt

輸出:
11 AA
22 bb
33 cc
23 dd
55 2e

我們這裡說的就是s命令,執行的結果是我們檔案中的 aa 被替換成 AA ,我們看一下s命令後面接的是3個斜槓分隔的兩串字串,其含義是   s/待替換的字串/新字串/ 也就是說使用後面的 AA 替換檔案中出現的前面的 aa 。實際上這裡的替換僅僅替換每一行遇到的第一個aa,我們修改一下檔案的內容:

//test.txt
11 aa
22 bb
33 cc
23 dd
55 2e
66 aaff ccaa
zz ggaa

sed 's/aa/AA/' test.txt

輸出:
11 AA
22 bb
33 cc
23 dd
55 2e
66 AAff ccaa
zz ggAA

可以看到第6行的ccaa中的aa是沒有被替換的,也就是說此時僅僅替換了每一行搜尋到的第一個aa字串進行操作,那麼如果要對一行裡面的所有的符合條件的字串都做替換操作呢,我們可以使用引數g,例如修改命令如下:

sed 's/aa/AA/g' test.txt

輸出:
11 AA
22 bb
33 cc
23 dd
55 2e
66 AAff ccAA
zz ggAA

在最後一個斜槓後面加上g選項之後,表示進行全域性替換,也就是說一行中所有符合條件的舊字串都會被替換成新字串,而不僅僅是第一個。與其他針對行的操作一樣,s命令也可以進行地址選擇,其地址使用方法與我們之前的一樣,也就是在s的前面加上地址空間限定,例如:

sed '1s/aa/AA/g' test.txt

輸出:
11 AA
22 bb
33 cc
23 dd
55 2e
66 aaff ccaa
zz ggaa

可以看到僅僅對第一行進行了替換操作,其他的地址限定方法同樣也是可以使用的,我們可以使用m,n的限定,例如:

sed '5,$s/aa/AA/g' test.txt

輸出:
11 aa
22 bb
33 cc
23 dd
55 2e
66 AAff ccAA
zz ggAA

表示對第5行直到檔案末尾的所有行進行搜尋替換操作,同樣s命令的地址限定也支援使用正規表示式限定符合條件的行,然後在這些行中進行字串的搜尋替換操作,例如:

sed '/^[0-9]/s/aa/AA/g' test.txt

輸出:
11 AA
22 bb
33 cc
23 dd
55 2e
66 AAff ccAA
zz ggaa

我們在s命令前面新增了 /^[0-9]/ 這個修飾,該正規表示式表示對所有以數字開頭的行,執行s操作

另外一個要說明的是  s/待替換的字串/新字串/ 這種格式中 / 作為分隔符並不是一定的,當使用s命令時候,我們可以使用別的分隔符,實際上s後面緊接著的字元就是分隔符,所以不一定是 / 符號。例如:

echo 'aabbccaadd' | sed s#aa#AA#g

輸出:
AAbbccAAdd

這裡s命令後面跟著的#符號被當作分隔符了

搜尋並輸出行內容

sed還提供一個p命令用於搜尋符合條件的行,並輸出該行的內容,而不做其他的任何修改,例如:

//test.txt
11 aa
22 bb
33 cc
23 dd

sed '2p' test.txt

輸出:
11 aa
22 bb
22 bb
33 cc
23 dd

可以看到第二行被輸出來了,但是sed好像將檔案的所有內容輸出了一遍,而第2行則多輸出了一次,實際上sed預設情況下是會將所有標準輸入的資料又重新輸出到標準輸出的,我們可以加上 -n 選項讓sed僅僅是輸出經過處理之後的那些行,而不是輸出之前從標準輸入中獲取到的所有行內容,例如:

sed -n '2p' test.txt

輸出:
22 bb

這樣僅僅會輸出p命令的處理結果了,-n 選項一般是與p命令聯合使用的,其他的增加,刪除,替換行的命令是不需要 -n 選項的

將修改應用到檔案中

我們之前做的所有實驗,實際上都沒有修改test.txt檔案的內容,也就是說我們看到的修改結果僅僅輸出到控制檯上,而檔案test.txt的內容是沒有修改的,我們可以使用 -i 選項告訴sed直接修改檔案的內容,而不是將修改結果輸出到終端上,例如:

sed -i '2d' test.txt 

命令執行之後,我們發現test.txt的第2行沒有了

sed正則中的元字元

我們知道sed中的命令前面可以使用地址範圍進行限制,表示對檔案的某些符合條件的行執行相應的操作,其中我們可以使用正規表示式選出要操作的行,而sed中正則的語法可能與我們其他命令的正則語法有一些不同,這裡我們有必要列出sed中常用的正則元字元:

$ 表示行尾
^ 表示行首
[a-z0-9]表示字元範圍
[^]表示除了字符集中的字元以外的字元

sed的正則中  \(\)  和 \{m,n\} 需要轉義 
. 表示任意字元 
* 表示零個或者多個 
\+ 一次或多次  
\? 零次或一次    
\| 表示或語法

相關文章