怎樣使用 awk 刪掉檔案中重複的行

Lazarus Lazaridis發表於2019-12-12

原文網址 : https://linux.cn/article-11666-1.html?pr

學習怎樣使用 awk 的 !visited[$0]++ 在不重新排序或改變原排列順序的前提下刪掉重複的行。

假設你有一個文字檔案，你需要刪掉所有重複的行。

TL;DR

要保持原來的排列順序刪掉重複行，使用：

awk '!visited[$0]++' your_file > deduplicated_file

工作原理

這個指令碼維護一個關聯陣列，索引（鍵）為檔案中去重後的行，每個索引對應的值為該行出現的次數。對於檔案的每一行，如果這行（之前）出現的次數為 0，則值加 1，並列印這行，否則值加 1，不列印這行。

我之前不熟悉 awk，我想弄清楚這麼短小的一個指令碼是怎麼實現的。我調研了下，下面是調研心得：

這個 awk “指令碼” !visited[$0]++ 對輸入檔案的每一行都執行。
visited[] 是一個關聯陣列（又名對映）型別的變數。awk 會在第一次執行時初始化它，因此我們不需要初始化。
$0 變數的值是當前正在被處理的行的內容。
visited[$0] 通過與 $0（正在被處理的行）相等的鍵來訪問該對映中的值，即出現次數（我們在下面設定的）。
! 對錶示出現次數的值取反：
- 在 awk 中，任意非零的數或任意非空的字串的值是 true。
- 變數預設的初始值為空字串，如果被轉換為數字，則為 0。
- 也就是說：
  - 如果 visited[$0] 的值是一個比 0 大的數，取反後被解析成 false。
  - 如果 visited[$0] 的值為等於 0 的數字或空字串，取反後被解析成 true 。
- ++ 表示變數 visited[$0] 的值加 1。
  - 如果該值為空，awk 自動把它轉換為 0（數字）後加 1。
  - 注意：加 1 操作是在我們取到了變數的值之後執行的。

總的來說，整個表示式的意思是：

true：如果表示出現次數為 0 或空字串
false：如果出現的次數大於 0

awk 由模式或表示式和一個與之關聯的動作組成：

<模式/表示式> { <動作> }

如果匹配到了模式，就會執行後面的動作。如果省略動作，awk 預設會列印（print）輸入。

省略動作等價於 {print $0}。

我們的指令碼由一個 awk 表示式語句組成，省略了動作。因此這樣寫：

awk '!visited[$0]++' your_file > deduplicated_file

等於這樣寫：

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file

對於檔案的每一行，如果表示式匹配到了，這行內容被列印到輸出。否則，不執行動作，不列印任何東西。

為什麼不用 uniq 命令？

uniq 命令僅能對相鄰的行去重。這是一個示例：

$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A

其他方法

使用 sort 命令

我們也可以用下面的 sort 命令來去除重複的行，但是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file

使用 cat + sort + cut

上面的方法會產出一個去重的檔案，各行是基於內容進行排序的。通過管道連線命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個檔案：

abc
ghi
abc
def
xyz
def
ghi
klm

cat -n test.txt 在每行前面顯示序號：

1       abc
2       ghi
3       abc
4       def
5       xyz
6       def
7       ghi
8       klm

sort -uk2 基於第二列（k2 選項）進行排序，對於第二列相同的值只保留一次（u 選項）：

1       abc
4       def
2       ghi
8       klm
5       xyz

sort -nk1 基於第一列排序（k1 選項），把列的值作為數字來處理（-n 選項）：

1       abc
2       ghi
4       def
5       xyz
8       klm

最後，cut -f2- 從第二列開始列印每一行，直到最後的內容（-f2- 選項：留意 - 字尾，它表示這行後面的內容都包含在內）。

abc
ghi
def
xyz
klm

參考

以上為全文。

via: https://opensource.com/article/19/10/remove-duplicate-lines-files-awk

作者：Lazarus Lazaridis 選題：lujun9972 譯者：lxbwolf 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

怎樣使用 awk 刪掉檔案中重複的行

訂閱“Linux 中國”官方小程式來檢視

如何去除 EXCEL 檔案中的重複行
2020-06-17
Excel
C# 批次刪除Excel中的重複行
2024-04-29
C#Excel
mac誤刪檔案怎樣快速找回？
2021-01-06
Mac
excel刪除重複資料保留一條如何刪掉重複資料只留一條
2022-04-21
Excel
在 Git 中怎樣克隆、修改、新增和刪除檔案？
2018-04-05
Git
如何在 Linux 中找到並刪除重複檔案
2018-10-16
Linux
使用awk和sed獲取檔案奇偶數行的方法總結
2019-03-16
怎樣使用AnyTrans管理iOS檔案？
2020-08-30
iOS
Flask中怎樣返回html檔案？
2021-09-11
FlaskHTML
使用Java Stream API中DistinctBy刪除重複資料
2019-03-27
JavaAPI
Oracle中刪除表中的重複資料
2024-08-02
Oracle
行動硬碟刪除的檔案能恢復嗎，怎麼恢復硬碟刪除的檔案
2021-11-01
硬碟
工具推薦:搜尋和刪除Windows上重複檔案的神器：AllDup
2024-10-05
Windows
Awk給檔案中的行前後新增內容
2020-06-21
Laravel 是怎樣防止你的定時任務重複執行的
2019-06-29
Laravel
mysql 刪除表中重複的資料
2024-04-11
MySql
刪除排序陣列中的重複項
2020-10-12
排序陣列
sqlserver中刪除重複資料
2024-04-10
SQLServer
JavaScript刪除字串中重複字元
2018-03-07
JavaScript字串字元
Laravel 定時任務,避免重複的方法-----使用檔案鎖
2018-12-13
Laravel
怎樣刪除w10更新檔案提示_win10更新檔案提示刪除如何操作
2020-06-16
Win10
c盤爆紅了可以刪除哪些檔案怎樣刪除c盤非系統檔案
2022-05-06
在 awk 中怎麼使用迴圈
2019-12-02
去掉字串中重複部分提取檔案字尾名
2018-07-19
字串
ES6刪除字串中重複的元素
2018-03-06
字串
刪除有序陣列中的重複項 II
2024-09-04
陣列
刪除字串中的所有相鄰重複項
2021-09-12
字串
PostgreSQL刪除表中重複資料
2022-01-19
SQL
幹掉 “重複程式碼” 的技巧有哪些
2022-12-29
MS SQL Server 刪除重複行資料
2023-03-17
SQLServer
win10休眠檔案如何清除 win10刪除休眠檔案怎樣操作
2020-08-27
Win10
VSCode刪除重複的空行
2018-09-15
VSCode
Win10怎樣刪除使用者配置檔案 win10系統刪除使用者配置的圖文教程
2020-11-09
Win10
替換掉的檔案怎麼恢復，兩個方法還原檔案
2021-11-16
win10怎樣強制刪除dll檔案 win10系統強制刪除dll檔案的步驟
2020-09-18
Win10
如何使用scp進行遠端複製檔案？
2022-11-15
電腦誤刪除檔案怎麼恢復檔案，不小心刪除了電腦的檔案怎麼辦
2021-11-02
c#刪除有序陣列中的重複項
2024-05-05
C#陣列

怎樣使用 awk 刪掉檔案中重複的行

TL;DR

工作原理

為什麼不用 uniq 命令？

其他方法

使用 sort 命令

使用 cat + sort + cut

參考

相關文章