【轉】linux下awk內建函式的使用(split/substr/length)

myLittleGarden發表於2013-12-27

轉自：http://gdcsy.blog.163.com/blog/static/12734360920130241521280/

一、split 初始化和型別強制
awk的內建函式split允許你把一個字串分隔為單詞並儲存在陣列中。你可以自己定義域分隔符或者使用現在FS(域分隔符)的值。
格式：

split (string, array, field separator)
split (string, array) -->如果第三個引數沒有提供，awk就預設使用當前FS值。

例子：
例1：替換分隔符

time="12:34:56"
out=`echo $time | awk '{split($0,a,":");print a[1],a[2],a[3]}'`
echo $out

例2：計算指定範圍內的和(計算每個人1月份的工資之和)

[root@test ~]# cat test.txt 
Tom　　  2012-12-11      car     53000
John　　 2013-01-13      bike    41000
vivi    2013-01-18      car     42800
Tom　　  2013-01-20      car     32500
John　　 2013-01-28      bike    63500
[root@test ~]# awk '{split($2,a,"-");if(a[2]==01){b[$1]+=$4}}END{for(i in b)print i,b[i]}' test.txt   
vivi 2800
Tom2500
John4500

二、substr 擷取字串

返回從起始位置起，指定長度之子字串；若未指定長度，則返回從起始位置到字串末尾的子字串。
格式：
substr(s,p) 返回字串s中從p開始的字尾部分
substr(s,p,n) 返回字串s中從p開始長度為n的字尾部分
例子：

[root@test ~]# echo "123" | awk '{print substr($0,1,1)}'
1

解釋：

awk -F ',' '{print substr($3,6)}'    ---> 表示是從第3個欄位裡的第6個字元開始，一直到設定的分隔符","結束.
substr($3,10,8) ---> 表示是從第3個欄位裡的第10個字元開始，擷取8個字元結束.
substr($3,6)     ---> 表示是從第3個欄位裡的第6個字元開始，一直到結尾

三、length 字串長度
   length函式返回沒有引數的字串的長度。length函式返回整個記錄中的字元數。

[root@test ~]# echo "123" | awk '{print length}'
3

四、gsub函式

gsub函式則使得在所有正規表示式被匹配的時候都發生替換。gsub(regular expression, subsitution string, target string);簡稱 gsub（r,s,t)。

舉例：把一個檔案裡面所有包含 abc 的行裡面的 abc 替換成 def，然後輸出第一列和第三列

awk '$0 ~ /abc/ {gsub("abc", "def", $0); print $1, $3}' abc.txt

五、正規表示式

字元	功能
+	指定如果一個或多個字元或擴充套件正規表示式的具體值（在 +（加號）前）在這個字串中，則字串匹配。命令列： awk '/smith+ern/' testfile 將包含字元 `smit`，後跟一個或多個 `h` 字元，並以字元 `ern` 結束的字串的任何記錄列印至標準輸出。此示例中的輸出是： smithern, harry smithhern, anne
?	指定如果零個或一個字元或擴充套件正規表示式的具體值（在 ?（問號）之前）在字串中，則字串匹配。命令列： awk '/smith?/' testfile 將包含字元 `smit`，後跟零個或一個 `h` 字元的例項的所有記錄列印至標準輸出。此示例中的輸出是： smith, alan smithern, harry smithhern, anne smitters, alexis
\|	指定如果以 \|（垂直線）隔開的字串的任何一個在字串中，則字串匹配。命令列： awk '/allen \| alan /' testfile 將包含字串 `allen` 或 `alan` 的所有記錄列印至標準輸出。此示例中的輸出是： smiley, allen smith, alan
( )	在正規表示式中將字串組合在一起。命令列： awk '/a(ll)?(nn)?e/' testfile 將具有字串 `ae` 或 `alle` 或 `anne` 或 `allnne` 的所有記錄列印至標準輸出。此示例中的輸出是： smiley, allen smithhern, anne
{m}	指定如果正好有 m 個模式的具體值位於字串中，則字串匹配。命令列： awk '/l{2}/' testfile 列印至標準輸出 smiley, allen
{m,}	指定如果至少 m 個模式的具體值在字串中，則字串匹配。命令列： awk '/t{2,}/' testfile 列印至標準輸出： smitters, alexis
{m, n}	指定如果 m 和 n 之間（包含的 m 和 n）個模式的具體值在字串中（其中m<= n），則字串匹配。命令列： awk '/er{1, 2}/' testfile 列印至標準輸出： smithern, harry smithern, anne smitters, alexis
[String]	指定正規表示式與方括號內 String 變數指定的任何字元匹配。命令列： awk '/sm[a-h]/' testfile 將具有 `sm` 後跟以字母順序從 `a` 到 `h` 排列的任何字元的所有記錄列印至標準輸出。此示例的輸出是： smawley, andy
[^ String]	在 [ ]（方括號）和在指定字串開頭的 ^ (插入記號) 指明正規表示式與方括號內的任何字元不匹配。這樣，命令列： awk '/sm[^a-h]/' testfile 列印至標準輸出： smiley, allen smith, alan smithern, harry smithhern, anne smitters, alexis
~,!~	表示指定變數與正規表示式匹配（代字號）或不匹配（代字號、感嘆號）的條件語句。命令列： awk '$1 ~ /n/' testfile 將第一個欄位包含字元 `n` 的所有記錄列印至標準輸出。此示例中的輸出是： smithern, harry smithhern, anne
^	指定欄位或記錄的開頭。命令列： awk '$2 ~ /^h/' testfile 將把字元 `h` 作為第二個欄位的第一個字元的所有記錄列印至標準輸出。此示例中的輸出是： smithern, harry
$	指定欄位或記錄的末尾。命令列： awk '$2 ~ /y$/' testfile 將把字元 `y` 作為第二個欄位的最後一個字元的所有記錄列印至標準輸出。此示例中的輸出是： smawley, andy smithern, harry
. （句號）	表示除了在空白末尾的終端換行字元以外的任何一個字元。命令列： awk '/a..e/' testfile 將具有以兩個字元隔開的字元 `a` 和 e 的所有記錄列印至標準輸出。此示例中的輸出是： smawley, andy smiley, allen smithhern, anne
*（星號）	表示零個或更多的任意字元。命令列： awk '/a.*e/' testfile 將具有以零個或更多字元隔開的字元 `a` 和 e 的所有記錄列印至標準輸出。此示例中的輸出是： smawley, andy smiley, allen smithhern, anne smitters, alexis
\ (反斜槓)	轉義字元。當位於在擴充套件正規表示式中具有特殊含義的任何字元之前時，轉義字元除去該字元的任何特殊含義。例如，命令列： /a\/\// 將與模式 a // 匹配，因為反斜槓否定斜槓作為正規表示式定界符的通常含義。要將反斜槓本身指定為字元，則使用雙反斜槓。有關反斜槓及其使用的更多資訊，請參閱以下關於轉義序列的內容。

舉例：把一個檔案裡面所有包含 abc 的行裡面的 abc 替換成 def，然後輸出第一列和第三列

awk '$0 ~ /abc/ {gsub("abc", "def", $0); print $1, $3}' abc.txt

awk內建函式
2013-04-02
函式
Linux Awk 內建函式詳細介紹（例項）
2015-10-08
Linux函式
awk基礎04-內建函式
2018-09-19
函式
【轉】oracle的substr函式的用法
2012-04-23
Oracle函式
AWK高階之內部函式使用
2015-10-30
函式
substr函式
2017-11-12
函式
Linux Awk 內建變數使用介紹
2015-10-08
Linux變數
Awk split
2016-02-25
ascii函式和substr函式的用法
2007-09-29
ASCII函式
在LINUX下使用內建ISDN卡(轉)
2007-08-12
Linux
javascript的split()函式使用介紹
2017-03-17
JavaScript函式
Linux 中 awk指令 sub和substr的區別
2024-10-23
Linux
關於oracle內建函式的使用
2011-09-05
Oracle函式
Oracle SQL 內建函式大全(轉)
2015-06-18
OracleSQL函式
轉：類似SQL中的split函式
2007-08-23
SQL函式
ASP 中 Split 函式的例項 (轉)
2007-09-15
函式
內建函式
2018-08-14
函式
js中split函式的使用方法
2014-04-15
JS函式
第五篇匿名函式、內建函式、import的使用、包的使用
2018-06-14
函式Import
PHP不使用任何內建函式實現字串翻轉
2018-01-05
PHP函式字串
webgl內建函式--指數函式
2018-10-16
Web函式
webgl內建函式--通用函式
2018-10-16
Web函式
System.Length 函式
2015-04-12
函式
insert()與substr()函式
2021-08-11
函式
instr、substr函式用法
2014-03-02
函式
Linux下getopt函式的使用
2018-07-19
Linux函式
ORACLE 內建函式和connect by使用
2012-09-22
Oracle函式
MySQL 內建函式
2018-12-18
MySql函式
hive內建函式
2018-10-17
Hive函式
php 內建函式
2020-12-03
PHP函式
Mysql內建函式
2017-05-17
MySql函式
14、內建函式
2018-01-01
函式
js內建函式
2024-11-10
JS函式
JS字串擷取函式slice(),substring(),substr()的用法區別split（）後期遇到補充
2019-03-06
JS字串函式
SQL Server 內建轉換函式介紹
2016-01-05
SQLServer函式
MySQL常用的字元函式：length,cancat,substr(substring),instr,trim,upper,lower,lpad,rpad,replace
2020-09-28
MySql字元函式
[20120612]函式索引中使用substr函式.txt
2012-06-11
函式索引
substr擷取函式筆記
2020-12-03
函式筆記

【轉】linux下awk內建函式的使用(split/substr/length)

四、gsub函式

五、正規表示式

相關文章