通用執行緒:Awk 例項,第 1 部分(轉)

post0發表於2007-08-11
通用執行緒:Awk 例項,第 1 部分(轉)[@more@]

Awk 是一種非常好的語言,同時有一個非常奇怪的名稱。在本系列(共三篇文章)的第一篇文章中,Daniel Robbins 將使您迅速掌握 awk 程式設計技巧。隨著本系列的進展,將討論更高階的主題,最後將演示一個真正的高階 awk 演示程式。

捍衛 awk

在本系列文章中,我將使您成為精通 awk 的編碼人員。我承認,awk 並沒有一個非常好聽且又非常“時髦”的名字。awk 的 GNU 版本(叫作 gawk)聽起來非常怪異。那些不熟悉這種語言的人可能聽說過 "awk",並可能認為它是一組落伍且過時的混亂程式碼。它甚至會使最博學的 UNIX 權威陷於錯亂的邊緣(使他不斷地發出 "kill -9!" 命令,就象使用咖啡機一樣)。

的確,awk 沒有一個動聽的名字。但它是一種很棒的語言。awk 適合於文字處理和報表生成,它還有許多精心設計的特性,允許進行需要特殊技巧程式設計。與某些語言不同,awk 的語法較為常見。它借鑑了某些語言的一些精華部分,如 C 語言、python 和 bash(雖然在技術上,awk 比 python 和 bash 早建立)。awk 是那種一旦學會了就會成為您戰略編碼庫的主要部分的語言。

第一個 awk

讓我們繼續,開始使用 awk,以瞭解其工作原理。在命令列中輸入以下命令:

$ awk '{ print }' /etc/passwd

您將會見到 /etc/passwd 檔案的內容出現在眼前。現在,解釋 awk 做了些什麼。呼叫 awk 時,我們指定 /etc/passwd 作為輸入檔案。執行 awk 時,它依次對 /etc/passwd 中的每一行執行 print 命令。所有輸出都傳送到 stdout,所得到的結果與與執行catting /etc/passwd完全相同。

現在,解釋 { print } 程式碼塊。在 awk 中,花括號用於將幾塊程式碼組合到一起,這一點類似於 C 語言。在程式碼塊中只有一條 print 命令。在 awk 中,如果只出現 print 命令,那麼將列印當前行的全部內容。

這裡是另一個 awk 示例,它的作用與上例完全相同:

$ awk '{ print $0 }' /etc/passwd

在 awk 中,$0 變數表示整個當前行,所以 print 和 print $0 的作用完全一樣。

如果您願意,可以建立一個 awk 程式,讓它輸出與輸入資料完全無關的資料。以下是一個示例:

$ awk '{ print "" }' /etc/passwd

只要將 "" 字串傳遞給 print 命令,它就會列印空白行。如果測試該指令碼,將會發現對於 /etc/passwd 檔案中的每一行,awk 都輸出一個空白行。再次說明, awk 對輸入檔案中的每一行都執行這個指令碼。以下是另一個示例:

$ awk '{ print "hiya" }' /etc/passwd

執行這個指令碼將在您的螢幕上寫滿 hiya。:)

多個欄位

awk 非常善於處理分成多個邏輯欄位的文字,而且讓您可以毫不費力地引用 awk 指令碼中每個獨立的欄位。以下指令碼將列印出您的系統上所有使用者帳戶的列表:

$ awk -F":" '{ print $1 }' /etc/passwd

上例中,在呼叫 awk 時,使用 -F 選項來指定 ":" 作為欄位分隔符。awk 處理 print $1 命令時,它會列印出在輸入檔案中每一行中出現的第一個欄位。以下是另一個示例:

$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該指令碼輸出的摘錄:

halt7

operator11

root0

shutdown6

sync5

bin1

....etc.

如您所見,awk 列印出 /etc/passwd 檔案的第一和第三個欄位,它們正好分別是使用者名稱和使用者標識欄位。現在,當指令碼執行時,它並不理想 -- 在兩個輸出欄位之間沒有空格!如果習慣於使用 bash 或 python 進行程式設計,那麼您會指望 print $1 $3 命令在兩個欄位之間插入空格。然而,當兩個字串在 awk 程式中彼此相鄰時,awk 會連線它們但不在它們之間新增空格。以下命令會在這兩個欄位中插入空格:

$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式呼叫 print 時,它將連線 $1、" " 和 $3,建立可讀的輸出。當然,如果需要的話,我們還可以插入一些文字標籤:

$ awk -F":" '{ print "username: " $1 " uid:" $3" }' /etc/passwd

這將產生以下輸出:

username: halt uid:7

username: operator uid:11

username: root uid:0

username: shutdown uid:6

username: sync uid:5

username: bin uid:1

....etc.

外部指令碼

將指令碼作為命令列自變數傳遞給 awk 對於小的單行程式來說是非常簡單的,而對於多行程式,它就比較複雜。您肯定想要在外部檔案中撰寫指令碼。然後可以向 awk 傳遞 -f 選項,以向它提供此指令碼檔案:

$ awk -f myscript.awk myfile.in

將指令碼放入文字檔案還可以讓您使用附加 awk 功能。例如,這個多行指令碼與前面的單行指令碼的作用相同,它們都列印出 /etc/passwd 中每一行的第一個欄位:

BEGIN {

FS=":"

}

{ print $1 }

這兩個方法的差別在於如何設定欄位分隔符。在這個指令碼中,欄位分隔符在程式碼自身中指定(透過設定 FS 變數),而在前一個示例中,透過在命令列上向 awk 傳遞 -F":" 選項來設定 FS。通常,最好在指令碼自身中設定欄位分隔符,只是因為這表示您可以少輸入一個命令列自變數。我們將在本文的後面詳細討論 FS 變數。

BEGIN 和 END 塊

通常,對於每個輸入行,awk 都會執行每個指令碼程式碼塊一次。然而,在許多程式設計情況中,可能需要在 awk 開始處理輸入檔案中的文字之前執行初始化程式碼。對於這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因為 awk 在開始處理輸入檔案之前會執行 BEGIN 塊,因此它是初始化 FS(欄位分隔符)變數、列印頁首或初始化其它在程式中以後會引用的全域性變數的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入檔案中的所有行之後執行這個塊。通常,END 塊用於執行最終計算或列印應該出現在輸出流結尾的摘要資訊。

規則表示式和塊

awk 允許使用規則表示式,根據規則表示式是否匹配當前行來選擇執行獨立程式碼塊。以下示例指令碼只輸出包含字元序列 foo 的那些行:

/foo/ { print }

當然,可以使用更復雜的規則表示式。以下指令碼將只列印包含浮點數的行:

/[0-9]+.[0-9]*/ { print }

表示式和塊

還有許多其它方法可以選擇執行程式碼塊。我們可以將任意一種布林表示式放在一個程式碼塊之前,以控制何時執行某特定塊。僅當對前面的布林表示式求值為真時,awk 才執行程式碼塊。以下示例指令碼輸出將輸出其第一個欄位等於 fred 的所有行中的第三個欄位。如果當前行的第一個欄位不等於 fred,awk 將繼續處理檔案而不對當前行執行 print 語句:

$1 == "fred" { print $3 }

awk 提供了完整的比較運算子集合,包括 "=="、""、"<="、">=" 和 "!="。另外,awk 還提供了 "~" 和 "!~" 運算子,它們分別表示“匹配”和“不匹配”。它們的用法是在運算子左邊指定變數,在右邊指定規則表示式。如果某一行的第五個欄位包含字元序列 root,那麼以下示例將只列印這一行中的第三個欄位:

$5 ~ /root/ { print $3 }

條件語句

awk 還提供了非常好的類似於 C 語言的 if 語句。如果您願意,可以使用 if 語句重寫前一個指令碼:

{

if ( $5 ~ /root/ ) {

print $3

}

}

這兩個指令碼的功能完全一樣。第一個示例中,布林表示式放在程式碼塊外面。而在第二個示例中,將對每一個輸入行執行程式碼塊,而且我們使用 if 語句來選擇執行 print 命令。這兩個方法都可以使用,可以選擇最適合指令碼其它部分的一種方法。

以下是更復雜的 awk if 語句示例。可以看到,儘管使用了複雜、巢狀的條件語句,if 語句看上去仍與相應的 C 語言 if 語句一樣:

{

if ( $1 == "foo" ) {

if ( $2 == "foo" ) {

print "uno"

} else {

print "one"

}

} else if ($1 == "bar" ) {

print "two"

} else {

print "three"

}

}

使用 if 語句還可以將程式碼:

! /matchme/ { print $1 $3 $4 }

轉換成:

{

if ( $0 !~ /matchme/ ) {

print $1 $3 $4

}

}

這兩個指令碼都只輸出不包含 matchme 字元序列的那些行。此外,還可以選擇最適合您的程式碼的方法。它們的功能完全相同。

awk 還允許使用布林運算子 "||"(邏輯與)和 "&&"(邏輯或),以便建立更復雜的布林表示式:

( $1 == "foo" ) && ( $2 == "bar" ) { print }

這個示例只列印第一個欄位等於 foo 且第二個欄位等於 bar 的那些行。

數值變數!

至今,我們不是列印字串、整行就是特定欄位。然而,awk 還允許我們執行整數和浮點運算。透過使用數學表示式,可以很方便地編寫計算檔案中空白行數量的指令碼。以下就是這樣一個指令碼:

BEGIN { x=0 }

/^$/ { x=x+1 }

END { print "I found " x " blank lines. :)" }

在 BEGIN 塊中,將整數變數 x 初始化成零。然後,awk 每次遇到空白行時,awk 將執行 x=x+1 語句,遞增 x。處理完所有行之後,執行 END 塊,awk 將列印出最終摘要,指出它找到的空白行數量。

字串化變數

awk 的優點之一就是“簡單和字串化”。我認為 awk 變數“字串化”是因為所有 awk 變數在內部都是按字串形式儲存的。同時,awk 變數是“簡單的”,因為可以對它執行數學操作,且只要變數包含有效數字字串,awk 會自動處理字串到數字的轉換步驟。要理解我的觀點,請研究以下這個示例:

x="1.01"

# We just set x to contain the *string* "1.01"

x=x+1

# We just added one to a *string*

print x

# Incidentally, these are comments :)

awk 將輸出:

2.01

有趣吧!雖然將字串值 1.01 賦值給變數 x,我們仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。首先,bash 不支援浮點運算。而且,如果 bash 有“字串化”變數,它們並不“簡單”;要執行任何數學操作,bash 要求我們將數字放到醜陋的 $( ) ) 結構中。如果使用 python,則必須在對 1.01 字串執行任何數學運算之前,將它轉換成浮點值。雖然這並不困難,但它仍是附加的步驟。如果使用 awk,它是全自動的,而那會使我們的程式碼又好又整潔。如果想要對每個輸入行的第一個欄位乘方並加一,可以使用以下指令碼:

{ print ($1^2)+1 }

如果做一個小實驗,就可以發現如果某個特定變數不包含有效數字,awk 在對數學表示式求值時會將該變數當作數字零處理。

眾多運算子

awk 的另一個優點是它有完整的數學運算子集合。除了標準的加、減、乘、除,awk 還允許使用前面演示過的指數運算子 "^"、模(餘數)運算子 "%" 和其它許多從 C 語言中借入的易於使用的賦值運算子。

這些運算子包括前後加減(i++、--foo)、加/減/乘/除賦值運算子( a+=3、b*=2、c/=2.2、d-=6.2)。不僅如此 -- 我們還有易於使用的模/指數賦值運算子(a^=2、b%=4)。

欄位分隔符

awk 有它自己的特殊變數集合。其中一些允許調整 awk 的執行方式,而其它變數可以被讀取以收集關於輸入的有用資訊。我們已經接觸過這些特殊變數中的一個,FS。前面已經提到過,這個變數讓您可以設定 awk 要查詢的欄位之間的字元序列。我們使用 /etc/passwd 作為輸入時,將 FS 設定成 ":"。當這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值並沒有被限制為單一字元;可以透過指定任意長度的字元模式,將它設定成規則表示式。如果正在處理由一個或多個 tab 分隔的欄位,您可能希望按以下方式設定 FS:

FS=" +"

以上示例中,我們使用特殊 "+" 規則表示式字元,它表示“一個或多個前一字元”。

如果欄位由空格分隔(一個或多個空格或 tab),您可能想要將 FS 設定成以下規則表示式:

FS="[[:space:]+]"

這個賦值表示式也有問題,它並非必要。為什麼?因為預設情況下,FS 設定成單一空格字元,awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中,預設 FS 設定恰恰是您最想要的!

複雜的規則表示式也不成問題。即使您的記錄由單詞 "foo" 分隔,後面跟著三個數字,以下規則表示式仍允許對資料進行正確的分析:

FS="foo[0-9][0-9][0-9]"

欄位數量

接著我們要討論的兩個變數通常並不是需要賦值的,而是用來讀取以獲取關於輸入的有用資訊。第一個是 NF 變數,也叫做“欄位數量”變數。awk 會自動將該變數設定成當前記錄中的欄位數量。可以使用 NF 變數來只顯示某些輸入行:

NF == 3 { print "this particular record has three fields: " $0 }

當然,也可以在條件語句中使用 NF 變數,如下:

{

if ( NF > 2 ) {

print $1 " " $2 ":" $3

}

}

記錄號

記錄號 (NR) 是另一個方便的變數。它始終包含當前記錄的編號(awk 將第一個記錄算作記錄號 1)。迄今為止,我們已經處理了每一行包含一個記錄的輸入檔案。對於這些情況,NR 還會告訴您當前行號。然而,當我們在本系列以後部分中開始處理多行記錄時,就不會再有這種情況,所以要注意!可以象使用 NF 變數一樣使用 NR 來只列印某些輸入行:

(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }

另一個示例:

{

#skip header

if ( NR > 10 ) {

print "ok, now for the real information!"

}

}

awk 提供了適合各種用途的附加變數。我們將在以後的文章中討論這些變數。

現在已經到了初次探索 awk 的尾聲。隨著本系列的開展,我將演示更高階的 awk 功能,我們將用一個真實的 awk 應用程式作為本系列的結尾。同時,如果急於學習更多知識,請參考以下列出的參考資料

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8225414/viewspace-944802/,如需轉載,請註明出處,否則將追究法律責任。

相關文章