from:http://blog.csdn.net/ithomer/article/details/8478716

awk 中陣列叫做關聯陣列(associative arrays)，下標可以是數字也可以是字串。awk 中的陣列不必提前宣告，也不必宣告大小，初始化陣列元素用 0 或空串，這根據上下文而定。

一語法

語法： awk '{pattern + action}' 或 awk 'pattern {action}'

其中 pattern 表示 AWK 在資料中查詢的內容， action 是在找到匹配內容時所執行的一系列命令。花括號 {} 不需要在程式中始終出現，但它們用於根據特定的模式對一系列指令進行分組（作用域）。

二陣列定義

1 一維陣列

a）數字下標

array[1]="it"
array[2]="homer"
array[3]="sunboy"
array[4]=2050

b）字元下標

array["first"]="yang"
array["second"]="gang"
array["third"]="sunboy"

示例 1：

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				array[1]="it"   
			
				array[2]="homer"   
			
				array[3]="sunboy"   
			
				array[4]=2050   
			
				array["first"]="yang"   
			
				array["second"]="gang"   
			
				array["third"]="sunboy"   
			
				print array[1], array[4]   
			
				print array[3], array["third"]}'

結果：

it 2050
sunboy sunboy

示例 2：

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				   for(i=1; i<=5; i++){   
			
				       array[i] = i*2 - 1;   
			
				   }   
			
				   for(i in array){   
			
				       print i" = " array[i];   
			
				   }   
			
				}'

結果：

4 = 7
5 = 9
1 = 1
2 = 3
3 = 5
注： for in 輸出陣列元素順序是不定的，下面介紹對陣列如何排序

2 二維陣列

awk 多維陣列在本質上是一維陣列，因awk在儲存上並不支援多維陣列，awk提供了邏輯上模擬二維陣列的訪問方式。例如，array[2,3] = 1這樣的訪問是允許的。

awk使用一個特殊的字串SUBSEP (\034)作為分割欄位，在上面的例子 array[2,3] = 1 中，關聯陣列array儲存的鍵值實際上是2\0343，2和3分別為下標（2，3），\034為SUBSEP分隔符

類似一維陣列的成員測試，多維陣列可以使用 if ( (i,j) in array) 語法，但是下標必須放置在圓括號中。
類似一維陣列的迴圈訪問，多維陣列使用 for ( item in array ) 語法遍歷陣列。與一維陣列不同的是，多維陣列必須使用split()函式來訪問單獨的下標分量，格式： split ( item, subscr, SUBSEP)，例如： split (item, array2, SUBSEP); 後，array2[1]為下標“2”， array2[2]為下標“3”

示例：

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				   for(i=1; i<=3; i++){   
			
				       for(j=1; j<=3; j++){   
			
				           array[i, j] = i * j;   
			
				           print i" * "j" = "array[i,j];   
			
				       }   
			
				   }   
			
				   print   
			
				   for(i in array){   
			
				       split(i, array2, SUBSEP);   
			
				       print array2[1]" * "array2[2]" = " array[i];   
			
				   }   
			
				}'

結果：

1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9

2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9
1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
注：示例中 split(i, array2, SUBSEP); 即是把二維陣列作為一維陣列處理，同樣陣列元素順序不確定，下面將介紹陣列排序

三陣列函式

1）陣列長度（length）

length(array) 獲取陣列長度， split 分割陣列也返回陣列長度，示例：

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				    info="it is  a   test";    
			
				    len = split(info, array, " ");    
			
				    print len, length(array);   
			
				    print   
			
				    for(i in array){   
			
				        print i" = " array[i];   
			
				    }   
			
				}'

結果：

4 4

4 = test
1 = it
2 = is
3 = a

2）陣列排序（asort）

asort對陣列array按照首字母進行排序，返回陣列長度；

如果要得到陣列原本順序，需要使用陣列下標依次訪問；

for...in 輸出關聯陣列的順序是無序的，所以透過for…in 得到是無序的陣列。如果需要得到有序陣列，需要透過下標獲得

示例：

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				    info="it is  a   test";    
			
				    len = split(info, array, " ");    
			
				    print len, length(array);   
			
				    print "--- for in ---"   
			
				    for(i in array){   
			
				        print i" = " array[i];   
			
				    }   
			
				    print "--- for ---"   
			
				    for(i=1; i<=len; i++){   
			
				        print i" = "array[i];   
			
				    }   
			
				    print   
			
				    print "--- asort ---"   
			
				    print "asort(array) = ", asort(array);   
			
				    print   
			
				    print "--- for in ---"   
			
				    for(i in array){   
			
				        print i" = " array[i];   
			
				    }   
			
				    print "--- for ---"   
			
				    for(i=1; i<=len; i++){   
			
				        print i" = "array[i];   
			
				    }   
			
				}'

結果：

4 4
--- for in ---
4 = test
1 = it
2 = is
3 = a
--- for ---
1 = it
2 = is
3 = a
4 = test

--- asort ---
asort(array) = 4

--- for in ---
4 = test
1 = a
2 = is
3 = it
--- for ---
1 = a
2 = is
3 = it
4 = test

3）鍵值操作

a 查詢鍵值（in）

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if(array["c"]!="ccc"){print "no found";}; for(k in array){print k, array[k];}}'

結果：

no found
a aaa
b bbb
c

注： array[“c”]沒有定義，但是迴圈時存在該鍵值，它的值為空。這是因為awk陣列是關聯陣列，只要透過陣列引用它的key，就會自動建立改序列

正確做法是用： in

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if("c" in array){print "found";}else{print "not found"}; for(k in array){print k, array[k];}}'

結果：

not found
a aaa
b bbb

注：沒有引用array下標“c”，因此沒有新增到陣列中

b 刪除鍵值（delete）

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; delete array["a"]; for(k in array){print k, array[k];}}'

結果： b bbb

四迴圈控制語句

linux awk中的流程控制語句和語法結構，與c語言型別。

awk 的 while、do-while、for語句中允許使用break、continue語句來控制流程走向，也允許使用exit這樣的語句來退出，其中break中斷當前正在執行的迴圈並跳到迴圈外執行下一條語句；if 是流程選擇用法。

1） if-else if 語句

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				    test = 80;   
			
				    if(test >= 90){   
			
				        print "good";   
			
				    }else if(test >= 80){   
			
				        print "soso";   
			
				    }else{   
			
				        print "fail";   
			
				    }   
			
				}'

結果： soso

2） for 語句

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				    for(i=1; i<=3; i++){   
			
				        array[i] = i*i;   
			
				        print i" = "array[i];   
			
				    }   
			
				    print   
			
				    for(i=1; i<=length(array); i++){   
			
				        if(array[i] > 5){  # larger 5 then break   
			
				            break;   
			
				        }   
			
				        print i" = "array[i];   
			
				    }   
			
				}'

結果：

1 = 1
2 = 4
3 = 9

1 = 1
2 = 4

3） while 語句

[html]view plaincopyprint?
				
				#!/bin/bash   
			
				awk 'BEGIN{   
			
				    test = 100;   
			
				    total=0;   
			
				    while(i<=test){   
			
				        total+=i;   
			
				        i++;   
			
				    }   
			
				    print "total = ", total;   
			
				    print   
			
				    test=100;   
			
				    total=0;   
			
				    i=0;   
			
				    do{   
			
				        total+=i;   
			
				        i++;   
			
				    }while(i<=test);   
			
				    print "total = ", total;   
			
				}'

結果：

total = 5050
total = 5050

以上為awk流程控制語句，從語法上與c語言是一樣的。有了這些語句，其實很多shell程式都可以交給awk，而且效能是非常快

跳轉關鍵字

break	當 break 語句用於 while 或 for 語句時，導致退出程式迴圈。
continue	當 continue 語句用於 while 或 for 語句時，使程式迴圈移動到下一個迭代。
next	能能夠導致讀入下一個輸入行，並返回到指令碼的頂部。這可以避免對當前輸入行執行其他的操作過程。
exit	語句使主輸入迴圈退出並將控制轉移到END,如果END存在的話。如果沒有定義END規則，或在END中應用exit語句，則終止指令碼的執行。

效能比較

1） awk

time (awk 'BEGIN{ total=0; for(i=0; i<=100000; i++){total+=i;} print total;}')

結果：

5000050000

real 0m0.035s
user 0m0.020s
sys 0m0.016s

2） sed

time(total=0; for i in $(seq 100000); do total=$(($total+i)); done; echo $total;)

結果：

5000050000

real 0m0.976s
user 0m0.672s
sys 0m0.292s

測試100000累加，實現相同功能，awk實現的效能是shell 的約 30倍

awk 陣列和迴圈

相關文章