一. AWK 說明
awk是一種程式語言,用於在linux/unix下對文字和資料進行處理。資料可以來自標準輸入、一個或多個檔案,或其它命令的輸出。它支援使用者自定義函式和動態正規表示式等先進功能,是linux/unix下的一個強大程式設計工具。它在命令列中使用,但更多是作為指令碼來使用。
awk的處理文字和資料的方式:它逐行掃描檔案,從第一行到最後一行,尋找匹配的特定模式的行,並在這些行上進行你想要的操作。如果沒有指定處理動作,則把匹配的行顯示到標準輸出(螢幕),如果沒有指定模式,則所有被操作所指定的行都被處理。
awk分別代表其作者姓氏的第一個字母。因為它的作者是三個人,分別是Alfred Aho、Brian Kernighan、Peter Weinberger。
gawk是awk的GNU版本,它提供了Bell實驗室和GNU的一些擴充套件。下面介紹的awk是以GUN的gawk為例的,在linux系統中已把awk連結到gawk,所以下面全部以awk進行介紹。
二. awk命令格式和選項
2.1. awk的語法有兩種形式
awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)
2.2. 命令選項
(1)-F fs or --field-separator fs :指定輸入檔案折分隔符,fs是一個字串或者是一個正規表示式,如-F:。
(2)-v var=value or --asign var=value :賦值一個使用者定義變數。
(3)-f scripfile or --file scriptfile :從指令碼檔案中讀取awk命令。
(4)-mf nnn and -mr nnn :對nnn值設定內在限制,-mf選項限制分配給nnn的最大塊數目;-mr選項限制記錄的最大數目。這兩個功能是Bell實驗室版awk的擴充套件功能,在標準awk中不適用。
(5)-W compact or --compat, -W traditional or --traditional :在相容模式下執行awk。所以gawk的行為和標準的awk完全一樣,所有的awk擴充套件都被忽略。
(6)-W copyleft or --copyleft, -W copyright or --copyright :列印簡短的版權資訊。
(7)-W help or --help, -W usage or --usage :列印全部awk選項和每個選項的簡短說明。
(8)-W lint or --lint :列印不能向傳統unix平臺移植的結構的警告。
(9)-W lint-old or --lint-old :列印關於不能向傳統unix平臺移植的結構的警告。
(10)-W posix :開啟相容模式。但有以下限制,不識別:/x、函式關鍵字、func、換碼序列以及當fs是一個空格時,將新行作為一個域分隔符;操作符**和**=不能代替^和^=;fflush無效。
(11)-W re-interval or --re-inerval :允許間隔正規表示式的使用,參考(grep中的Posix字元類),如括號表示式[[:alpha:]]。
(12)-W source program-text or --source program-text :使用program-text作為原始碼,可與-f命令混用。
(13)-W version or --version :列印bug報告資訊的版本。
三. 模式和操作
awk指令碼是由模式和操作組成的:
pattern {action} 如$ awk '/root/' test,或$ awk '$3 < 100' test。
兩者是可選的,如果沒有模式,則action應用到全部記錄,如果沒有action,則輸出匹配全部記錄。預設情況下,每一個輸入行都是一條記錄,但使用者可通過RS變數指定不同的分隔符進行分隔。
3.1. 模式
模式可以是以下任意一個:
(1)正規表示式:使用萬用字元的擴充套件集。
(2)關係表示式:可以用下面運算子表中的關係運算子進行操作,可以是字元(3)串或數字的比較,如$2>%1選擇第二個欄位比第一個欄位長的行。
(4)模式匹配表示式:用運算子~(匹配)和~!(不匹配)。
(5)模式,模式:指定一個行的範圍。該語法不能包括BEGIN和END模式。
(6)BEGIN:讓使用者指定在第一條輸入記錄被處理之前所發生的動作,通常可在這裡設定全域性變數。
(7)END:讓使用者在最後一條輸入記錄被讀取之後發生的動作。
3.2. 操作
操作由一人或多個命令、函式、表示式組成,之間由換行符或分號隔開,並位於大括號內。主要有四部份:
(1)變數或陣列賦值
(2)輸出命令
(3)內建函式
(4)控制流命令
四. awk的環境變數
變數 |
描述 |
$n |
當前記錄的第n個欄位,欄位間由FS分隔。 |
$0 |
完整的輸入記錄。 |
ARGC |
命令列引數的數目。 |
ARGIND |
命令列中當前檔案的位置(從0開始算)。 |
ARGV |
包含命令列引數的陣列。 |
CONVFMT |
數字轉換格式(預設值為%.6g) |
ENVIRON |
環境變數關聯陣列。 |
ERRNO |
最後一個系統錯誤的描述。 |
FIELDWIDTHS |
欄位寬度列表(用空格鍵分隔)。 |
FILENAME |
當前檔名。 |
FNR |
同NR,但相對於當前檔案。 |
FS |
欄位分隔符(預設是任何空格)。 |
IGNORECASE |
如果為真,則進行忽略大小寫的匹配。 |
NF |
當前記錄中的欄位數。 |
NR |
當前記錄數。 |
OFMT |
數字的輸出格式(預設值是%.6g)。 |
OFS |
輸出欄位分隔符(預設值是一個空格)。 |
ORS |
輸出記錄分隔符(預設值是一個換行符)。 |
RLENGTH |
由match函式所匹配的字串的長度。 |
RS |
記錄分隔符(預設是一個換行符)。 |
RSTART |
由match函式所匹配的字串的第一個位置。 |
SUBSEP |
陣列下標分隔符(預設值是/034)。 |
五. awk運算子
運算子 |
描述 |
= += -= *= /= %= ^= **= |
賦值 |
?: |
C條件表示式 |
|| |
邏輯或 |
&& |
邏輯與 |
~ ~! |
匹配正規表示式和不匹配正規表示式 |
< <= > >= != == |
關係運算子 |
空格 |
連線 |
+ - |
加,減 |
* / & |
乘,除與求餘 |
+ - ! |
一元加,減和邏輯非 |
^ *** |
求冪 |
++ -- |
增加或減少,作為字首或字尾 |
$ |
欄位引用 |
in |
陣列成員 |
六. 記錄和域
6.1. 記錄
awk把每一個以換行符結束的行稱為一個記錄。
記錄分隔符:預設的輸入和輸出的分隔符都是回車,儲存在內建變數ORS和RS中。
$0變數:它指的是整條記錄。如$ awk '{print $0}' test將輸出test檔案中的所有記錄。
變數NR:一個計數器,每處理完一條記錄,NR的值就增加1。
如$ awk '{print NR,$0}' test將輸出test檔案中所有記錄,並在記錄前顯示記錄號。
6.2. 域
記錄中每個單詞稱做“域”,預設情況下以空格或tab分隔。awk可跟蹤域的個數,並在內建變數NF中儲存該值。如$ awk '{print $1,$3}' test將列印test檔案中第一和第三個以空格分開的列(域)。
6.3. 域分隔符
內建變數FS儲存輸入域分隔符的值,預設是空格或tab。我們可以通過-F命令列選項修改FS的值。如$ awk -F: '{print $1,$5}' test將列印以冒號為分隔符的第一,第五列的內容。
可以同時使用多個域分隔符,這時應該把分隔符寫成放到方括號中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒號和tab作為分隔符。
輸出域的分隔符預設是一個空格,儲存在OFS中。如$ awk -F: '{print $1,$5}' test,$1和$5間的逗號就是OFS的值。
七. gawk專用正規表示式元字元
以下幾個是gawk專用的,不適合unix版本的awk。
(1)/Y :匹配一個單詞開頭或者末尾的空字串。
(2)/B:匹配單詞內的空字串。
(3)/<:匹配一個單詞的開頭的空字串,錨定開始。
(4)/> :匹配一個單詞的末尾的空字串,錨定末尾。
(5)/w :匹配一個字母數字組成的單詞。
(6)/W :匹配一個非字母數字組成的單詞。
(7)/‘:匹配字串開頭的一個空字串。
(8)/' :匹配字串末尾的一個空字串。
八. 匹配操作符(~)
用來在記錄或者域內匹配正規表示式。如$ awk '$1 ~/^root/' test將顯示test檔案第一列中以root開頭的行。
九. 比較表示式
conditional expression1 ? expression2: expression3,
例如:$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。如果第一個域大於第三個域,$1就賦值給max,否則$3就賦值給max。
$ awk '$1 + $2 < 100' test。如果第一和第二個域相加大於100,則列印這些行。
$ awk '$1 > 5 && $2 < 10' test,如果第一個域大於5,並且第二個域小於10,則列印這些行。
十. 範圍模板
範圍模板匹配從第一個模板的第一次出現到第二個模板的第一次出現之間所有行。如果有一個模板沒出現,則匹配到開頭或末尾。如$ awk '/root/,/mysql/' test將顯示root第一次出現到mysql第一次出現之間的所有行。
十一. 示例
1、awk '/101/' file 顯示檔案file中包含101的匹配行。
awk '/101/,/105/' file
awk '$1 == 5' file
awk '$1 == "CT"' file 注意必須帶雙引號
awk '$1 * $2 >100 ' file
awk '$2 >5 && $2<=15' file
2、awk '{print NR,NF,$1,$NF,}' file 顯示檔案file的當前記錄號、域數和每一行的第一個和最後一個域。
awk '/101/ {print $1,$2 + 10}' file 顯示檔案file的匹配行的第一、二個域加10。
awk '/101/ {print $1$2}' file
awk '/101/ {print $1 $2}' file 顯示檔案file的匹配行的第一、二個域,但顯示時域中間沒有分隔符。
3、df | awk '$4>1000000 ' 通過管道符獲得輸入,如:顯示第4個域滿足條件的行。
4、awk -F "|" '{print $1}' file 按照新的分隔符“|”進行操作。
awk 'BEGIN { FS="[: /t|]" }
{print $1,$2,$3}' file 通過設定輸入分隔符(FS="[: /t|]")修改輸入分隔符。
Sep="|"
awk -F $Sep '{print $1}' file 按照環境變數Sep的值做為分隔符。
awk -F '[ :/t|]' '{print $1}' file 按照正規表示式的值做為分隔符,這裡代表空格、:、TAB、|同時做為分隔符。
awk -F '[][]' '{print $1}' file 按照正規表示式的值做為分隔符,這裡代表[、]
5、awk -f awkfile file 通過檔案awkfile的內容依次進行控制。
cat awkfile
/101/{print "/047 Hello! /047"} --遇到匹配行以後列印 ' Hello! './047代表單引號。
{print $1,$2} --因為沒有模式控制,列印每一行的前兩個域。
6、awk '$1 ~ /101/ {print $1}' file 顯示檔案中第一個域匹配101的行(記錄)。
7、awk 'BEGIN { OFS="%"}
{print $1,$2}' file 通過設定輸出分隔符(OFS="%")修改輸出格式。
8、awk 'BEGIN { max=100 ;print "max=" max}
BEGIN 表示在處理任意行之前進行的操作。
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得檔案第一個域的最大值。
9、awk '$1 * $2 >100 {print $1}' file 顯示檔案中第一個域匹配101的行(記錄)。
10、awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行後先將第3個域替換後再顯示該行(記錄)。
awk '{$7 %= 3; print $7}' file 將第7域被3除,並將餘數賦給第7域再列印。
11、awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行後為變數wage賦值並列印該變數。
12、awk '/tom/ {count++;}
END {print "tom was found "count" times"}' file
END表示在所有輸入行處理完後進行處理。
13、awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4;
END {print "The total is $" cost>"filename"}' file
gsub函式用空串替換$和,再將結果輸出到filename中。
1 2 3 $1,200.00
1 2 3 $2,300.00
1 2 3 $4,000.00
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>1000&&$4<2000) c1+=$4;
else if ($4>2000&&$4<3000) c2+=$4;
else if ($4>3000&&$4<4000) c3+=$4;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
通過if和else if完成條件語句
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000&&$4<4000) exit;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
通過exit在某條件時退出,但是仍執行END操作。
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000) next;
else c4+=$4; }
END {printf "c4=[%d]/n",c4}"' file
通過next在某條件時跳過該行,對下一行執行操作。
14、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall
把file1、file2、file3的檔案內容全部寫到fileall中,格式為列印檔案並前置檔名。
15、awk ' $1!=previous { close(previous); previous=$1 }
{print substr($0,index($0," ") +1)>$1}' fileall
把合併後的檔案重新分拆為3個檔案。並與原檔案一致。
16、awk 'BEGIN {"date"|getline d; print d}'
通過管道把date的執行結果送給getline,並賦給變數d,然後列印。
17、awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}'
通過getline命令互動輸入name,並顯示出來。
awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
列印/etc/passwd檔案中使用者名稱包含050x_的使用者名稱。
18、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通過while語句實現迴圈。
awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file 通過for語句實現迴圈。
type file|awk -F "/" '
{ for(i=1;i<NF;i++)
{ if(i==NF-1) { printf "%s",$i }
else { printf "%s/",$i } }}'
顯示一個檔案的全路徑。
用for和if顯示日期
awk 'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf "/n%d月份/n",j;
for(i=1;i<=31;i++)
{
if (j==2&&i>28) flag=1;
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if (flag==0) {printf "%02d%02d ",j,i}
}
}
}'
19、在awk中呼叫系統變數必須用單引號,如果是雙引號,則表示字串
Flag=abcd
awk '{print '$Flag'}' 結果為abcd
awk '{print "$Flag"}' 結果為$Flag
20. 其他小示例
$ awk '/^(no|so)/' test-----列印所有以模式no或so開頭的行。
$ awk '/^[ns]/{print $1}' test-----如果記錄以n或s開頭,就列印這個記錄。
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一個域以兩個數字結束就列印這個記錄。
$ awk '$1 == 100 || $2 < 50' test-----如果第一個或等於100或者第二個域小於50,則列印該行。
$ awk '$1 != 10' test-----如果第一個域不等於10就列印該行。
$ awk '/test/{print $1 + 10}' test-----如果記錄包含正規表示式test,則第一個域加10並列印出來。
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一個域大於5則列印問號後面的表示式值,否則列印冒號後面的表示式值。
$ awk '/^root/,/^mysql/' test----列印以正規表示式root開頭的記錄到以正規表示式mysql開頭的記錄範圍內的所有記錄。如果找到一個新的正規表示式root開頭的記錄,則繼續列印直到下一個以正規表示式mysql開頭的記錄為止,或到檔案末尾。