awk 陣列和迴圈

G8bao7發表於2014-10-09
from:http://blog.csdn.net/ithomer/article/details/8478716

awk 中陣列叫做關聯陣列(associative arrays),下標可以是數字也可以是字串。awk 中的陣列不必提前宣告,也不必宣告大小,初始化陣列元素用 0 或空串,這根據上下文而定。


一 語法

語法: awk '{pattern + action}'    或   awk 'pattern {action}'

其中 pattern 表示 AWK 在資料中查詢的內容, action 是在找到匹配內容時所執行的一系列命令。花括號 {} 不需要在程式中始終出現,但它們用於根據特定的模式對一系列指令進行分組(作用域)。



二 陣列定義

1 一維陣列

a) 數字下標

array[1]="it"
array[2]="homer"
array[3]="sunboy"
array[4]=2050


b) 字元下標

array["first"]="yang"
array["second"]="gang"
array["third"]="sunboy"


示例 1:

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4. array[1]="it"  
  5. array[2]="homer"  
  6. array[3]="sunboy"  
  7. array[4]=2050  
  8.   
  9.   
  10. array["first"]="yang"  
  11. array["second"]="gang"  
  12. array["third"]="sunboy"  
  13.   
  14.   
  15. print array[1], array[4]  
  16. print array[3], array["third"]}'  
結果:


it    2050
sunboy    sunboy


示例 2: 

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.    for(i=1; i<=5; i++){  
  5.        array[i] = i*2 - 1;  
  6.    }  
  7.   
  8.    for(i in array){  
  9.        print i" = " array[i];  
  10.    }  
  11. }'  
結果:


4 = 7
5 = 9
1 = 1
2 = 3
3 = 5

注: for in 輸出陣列元素順序是不定的,下面介紹對陣列如何排序



2 二維陣列

awk 多維陣列在本質上是一維陣列,因awk在儲存上並不支援多維陣列,awk提供了邏輯上模擬二維陣列的訪問方式。例如,array[2,3] = 1這樣的訪問是允許的。

awk使用一個特殊的字串SUBSEP (\034)作為分割欄位,在上面的例子 array[2,3] = 1 中,關聯陣列array儲存的鍵值實際上是2\0343,2和3分別為下標(2,3),\034為SUBSEP分隔符

類似一維陣列的成員測試,多維陣列可以使用 if ( (i,j) in array) 語法,但是下標必須放置在圓括號中。
類似一維陣列的迴圈訪問,多維陣列使用 for ( item in array ) 語法遍歷陣列。與一維陣列不同的是,多維陣列必須使用split()函式來訪問單獨的下標分量,格式: split ( item, subscr, SUBSEP), 例如: split (item, array2, SUBSEP); 後,array2[1]為下標“2”, array2[2]為下標“3”

示例:

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.    for(i=1; i<=3; i++){  
  5.        for(j=1; j<=3; j++){  
  6.            array[i, j] = i * j;  
  7.            print i" * "j" = "array[i,j];  
  8.        }  
  9.    }  
  10.   
  11.    print  
  12.   
  13.    for(i in array){  
  14.        split(i, array2, SUBSEP);  
  15.        print array2[1]" * "array2[2]" = " array[i];  
  16.    }  
  17. }'  
結果:


1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9

2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9
1 * 1 = 1
1 * 2 = 2
1 * 3 = 3

注: 示例中 split(i, array2, SUBSEP); 即是把二維陣列作為一維陣列處理,同樣陣列元素順序不確定,下面將介紹陣列排序



三 陣列函式

1) 陣列長度(length)

length(array) 獲取陣列長度, split 分割陣列也返回陣列長度,示例: 

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.     info="it is  a   test";   
  5.     len = split(info, array, " ");   
  6.       
  7.     print len, length(array);  
  8.   
  9.     print  
  10.     for(i in array){  
  11.         print i" = " array[i];  
  12.     }  
  13. }'  
結果:


4    4

4 = test
1 = it
2 = is
3 = a


2) 陣列排序(asort)

asort對陣列array按照首字母進行排序,返回陣列長度;

如果要得到陣列原本順序,需要使用陣列下標依次訪問;

for...in 輸出關聯陣列的順序是無序的,所以透過for…in 得到是無序的陣列。如果需要得到有序陣列,需要透過下標獲得

示例: 

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.     info="it is  a   test";   
  5.     len = split(info, array, " ");   
  6.       
  7.     print len, length(array);  
  8.   
  9.     print "--- for in ---"  
  10.     for(i in array){  
  11.         print i" = " array[i];  
  12.     }  
  13.   
  14.     print "--- for ---"  
  15.     for(i=1; i<=len; i++){  
  16.         print i" = "array[i];  
  17.     }  
  18.   
  19.   
  20.     print  
  21.     print "--- asort ---"  
  22.     print "asort(array) = ", asort(array);  
  23.       
  24.   
  25.     print  
  26.     print "--- for in ---"  
  27.     for(i in array){  
  28.         print i" = " array[i];  
  29.     }  
  30.   
  31.     print "--- for ---"  
  32.     for(i=1; i<=len; i++){  
  33.         print i" = "array[i];  
  34.     }  
  35. }'  
結果:


4 4
--- for in ---
4 = test
1 = it
2 = is
3 = a
--- for ---
1 = it
2 = is
3 = a
4 = test

--- asort ---
asort(array) =  4

--- for in ---
4 = test
1 = a
2 = is
3 = it
--- for ---
1 = a
2 = is
3 = it
4 = test


3) 鍵值操作

a 查詢鍵值(in)

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if(array["c"]!="ccc"){print "no found";}; for(k in array){print k, array[k];}}'

結果:

no found
a aaa
b bbb

注: array[“c”]沒有定義,但是迴圈時存在該鍵值,它的值為空。這是因為awk陣列是關聯陣列,只要透過陣列引用它的key,就會自動建立改序列


正確做法是用: in

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if("c" in array){print "found";}else{print "not found"}; for(k in array){print k, array[k];}}'

結果:

not found
a aaa
b bbb

注: 沒有引用array下標“c”,因此沒有新增到陣列中


b 刪除鍵值(delete)

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; delete array["a"]; for(k in array){print k, array[k];}}' 

結果: b bbb




四 迴圈控制語句

linux awk中的流程控制語句和語法結構,與c語言型別。

awk 的 while、do-while、for語句中允許使用break、continue語句來控制流程走向,也允許使用exit這樣的語句來退出,其中break中斷當前正在執行的迴圈並跳到迴圈外執行下一條語句;if 是流程選擇用法。

1) if-else if 語句

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.     test = 80;  
  5.     if(test >= 90){  
  6.         print "good";  
  7.     }else if(test >= 80){  
  8.         print "soso";  
  9.     }else{  
  10.         print "fail";  
  11.     }  
  12. }'  
結果: soso



2) for 語句

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.     for(i=1; i<=3; i++){  
  5.         array[i] = i*i;  
  6.         print i" = "array[i];  
  7.     }  
  8.   
  9.     print  
  10.     for(i=1; i<=length(array); i++){  
  11.         if(array[i] > 5){  # larger 5 then break  
  12.             break;  
  13.         }  
  14.         print i" = "array[i];  
  15.     }  
  16. }'  
結果:


1 = 1
2 = 4
3 = 9

1 = 1
2 = 4


3) while 語句

  1. #!/bin/bash  
  2.   
  3. awk 'BEGIN{  
  4.     test = 100;  
  5.     total=0;  
  6.   
  7.     while(i<=test){  
  8.         total+=i;  
  9.         i++;  
  10.     }  
  11.     print "total = ", total;  
  12.   
  13.   
  14.     print  
  15.     test=100;  
  16.     total=0;  
  17.     i=0;  
  18.   
  19.     do{  
  20.         total+=i;  
  21.         i++;  
  22.     }while(i<=test);  
  23.     print "total = ", total;  
  24. }'  
結果:


total =  5050
total =  5050


以上為awk流程控制語句,從語法上與c語言是一樣的。有了這些語句,其實很多shell程式都可以交給awk,而且效能是非常快


跳轉關鍵字


break 當 break 語句用於 while 或 for 語句時,導致退出程式迴圈。
continue 當 continue 語句用於 while 或 for 語句時,使程式迴圈移動到下一個迭代。
next 能能夠導致讀入下一個輸入行,並返回到指令碼的頂部。這可以避免對當前輸入行執行其他的操作過程。
exit 語句使主輸入迴圈退出並將控制轉移到END,如果END存在的話。如果沒有定義END規則,或在END中應用exit語句,則終止指令碼的執行。



效能比較

1) awk

time (awk 'BEGIN{ total=0; for(i=0; i<=100000; i++){total+=i;} print total;}')

結果:

5000050000

real 0m0.035s
user 0m0.020s
sys 0m0.016s


2) sed

time(total=0; for i in $(seq 100000); do total=$(($total+i)); done; echo $total;)

結果:

5000050000

real 0m0.976s
user 0m0.672s
sys 0m0.292s


測試100000累加,實現相同功能,awk實現的效能是shell 的約 30


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26250550/viewspace-1293037/,如需轉載,請註明出處,否則將追究法律責任。

相關文章