怎樣使用 awk 刪掉檔案中重複的行
學習怎樣使用 awk 的
!visited[$0]++
在不重新排序或改變原排列順序的前提下刪掉重複的行。
假設你有一個文字檔案,你需要刪掉所有重複的行。
TL;DR
要保持原來的排列順序刪掉重複行,使用:
awk '!visited[$0]++' your_file > deduplicated_file
工作原理
這個指令碼維護一個關聯陣列,索引(鍵)為檔案中去重後的行,每個索引對應的值為該行出現的次數。對於檔案的每一行,如果這行(之前)出現的次數為 0,則值加 1,並列印這行,否則值加 1,不列印這行。
我之前不熟悉 awk
,我想弄清楚這麼短小的一個指令碼是怎麼實現的。我調研了下,下面是調研心得:
- 這個 awk “指令碼”
!visited[$0]++
對輸入檔案的每一行都執行。 visited[]
是一個關聯陣列(又名對映)型別的變數。awk
會在第一次執行時初始化它,因此我們不需要初始化。$0
變數的值是當前正在被處理的行的內容。visited[$0]
通過與$0
(正在被處理的行)相等的鍵來訪問該對映中的值,即出現次數(我們在下面設定的)。!
對錶示出現次數的值取反:- 在
awk
中,任意非零的數或任意非空的字串的值是true
。 - 變數預設的初始值為空字串,如果被轉換為數字,則為 0。
- 也就是說:
- 如果
visited[$0]
的值是一個比 0 大的數,取反後被解析成false
。 - 如果
visited[$0]
的值為等於 0 的數字或空字串,取反後被解析成true
。
- 如果
++
表示變數visited[$0]
的值加 1。- 如果該值為空,
awk
自動把它轉換為0
(數字) 後加 1。 - 注意:加 1 操作是在我們取到了變數的值之後執行的。
- 如果該值為空,
- 在
總的來說,整個表示式的意思是:
true
:如果表示出現次數為 0 或空字串false
:如果出現的次數大於 0
awk
由 模式或表示式和一個與之關聯的動作 組成:
<模式/表示式> { <動作> }
如果匹配到了模式,就會執行後面的動作。如果省略動作,awk
預設會列印(print
)輸入。
省略動作等價於
{print $0}
。
我們的指令碼由一個 awk
表示式語句組成,省略了動作。因此這樣寫:
awk '!visited[$0]++' your_file > deduplicated_file
等於這樣寫:
awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file
對於檔案的每一行,如果表示式匹配到了,這行內容被列印到輸出。否則,不執行動作,不列印任何東西。
為什麼不用 uniq 命令?
uniq
命令僅能對相鄰的行去重。這是一個示例:
$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A
其他方法
使用 sort 命令
我們也可以用下面的 sort 命令來去除重複的行,但是原來的行順序沒有被保留。
sort -u your_file > sorted_deduplicated_file
使用 cat + sort + cut
上面的方法會產出一個去重的檔案,各行是基於內容進行排序的。通過管道連線命令可以解決這個問題。
cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-
工作原理
假設我們有下面一個檔案:
abc
ghi
abc
def
xyz
def
ghi
klm
cat -n test.txt
在每行前面顯示序號:
1 abc
2 ghi
3 abc
4 def
5 xyz
6 def
7 ghi
8 klm
sort -uk2
基於第二列(k2
選項)進行排序,對於第二列相同的值只保留一次(u
選項):
1 abc
4 def
2 ghi
8 klm
5 xyz
sort -nk1
基於第一列排序(k1
選項),把列的值作為數字來處理(-n
選項):
1 abc
2 ghi
4 def
5 xyz
8 klm
最後,cut -f2-
從第二列開始列印每一行,直到最後的內容(-f2-
選項:留意 -
字尾,它表示這行後面的內容都包含在內)。
abc
ghi
def
xyz
klm
參考
以上為全文。
via: https://opensource.com/article/19/10/remove-duplicate-lines-files-awk
作者:Lazarus Lazaridis 選題:lujun9972 譯者:lxbwolf 校對:wxy
訂閱“Linux 中國”官方小程式來檢視
相關文章
- 如何去除 EXCEL 檔案中的重複行Excel
- C# 批次刪除Excel中的重複行C#Excel
- mac誤刪檔案怎樣快速找回?Mac
- excel刪除重複資料保留一條 如何刪掉重複資料只留一條Excel
- 在 Git 中怎樣克隆、修改、新增和刪除檔案?Git
- 如何在 Linux 中找到並刪除重複檔案Linux
- 使用awk和sed獲取檔案奇偶數行的方法總結
- 怎樣使用AnyTrans管理iOS檔案?iOS
- 使用Java Stream API中DistinctBy刪除重複資料JavaAPI
- Flask中怎樣返回html檔案?FlaskHTML
- Oracle中刪除表中的重複資料Oracle
- 行動硬碟刪除的檔案能恢復嗎,怎麼恢復硬碟刪除的檔案硬碟
- 工具推薦:搜尋和刪除Windows上重複檔案的神器:AllDupWindows
- Awk給檔案中的行前後新增內容
- mysql 刪除表中重複的資料MySql
- 刪除排序陣列中的重複項排序陣列
- Laravel 是怎樣防止你的定時任務重複執行的Laravel
- sqlserver中刪除重複資料SQLServer
- JavaScript刪除字串中重複字元JavaScript字串字元
- Laravel 定時任務,避免重複的方法-----使用檔案鎖Laravel
- 怎樣刪除w10更新檔案提示_win10更新檔案提示刪除如何操作Win10
- c盤爆紅了可以刪除哪些檔案 怎樣刪除c盤非系統檔案
- 在 awk 中怎麼使用迴圈
- 去掉字串中重複部分 提取檔案字尾名字串
- ES6刪除字串中重複的元素字串
- 刪除有序陣列中的重複項 II陣列
- 刪除字串中的所有相鄰重複項字串
- PostgreSQL刪除表中重複資料SQL
- 幹掉 “重複程式碼” 的技巧有哪些
- MS SQL Server 刪除重複行資料SQLServer
- win10休眠檔案如何清除 win10刪除休眠檔案怎樣操作Win10
- VSCode刪除重複的空行VSCode
- Win10怎樣刪除使用者配置檔案 win10系統刪除使用者配置的圖文教程Win10
- 替換掉的檔案怎麼恢復,兩個方法還原檔案
- win10怎樣強制刪除dll檔案 win10系統強制刪除dll檔案的步驟Win10
- 如何使用scp進行遠端複製檔案?
- 電腦誤刪除檔案怎麼恢復檔案,不小心刪除了電腦的檔案怎麼辦
- c#刪除有序陣列中的重複項C#陣列