010 Linux 文字統計與去重 (wc 和 uniq)

不甩鍋的碼農發表於2022-02-03

原文網址 : https://www.cnblogs.com/bilahepan/p/15861562.html

Linux

file

wc 命令一般是作為組合命令的一員與其他命令一同起到統計的作用。而一般情況下使用wc -l 命令較多。
uniq 可檢查文字檔案中重複出現的行，一般與 sort 命令結合使用。一起組合搭配使用完成統計、排序、去重。

1 wc 常用組合命令

ls | wc -l # 統計當前資料夾下，檔案數量；
ls *.txt | wc -l # 統計當前資料夾下、第一層目錄下所有的txt檔案數量；
find . -maxdepth 1 -name '*.txt' | wc -l # 統計當前資料夾、第一層目錄下所有的txt檔案數量；

2 wc 基本引數和格式

命令格式： wc [-clmw] [file ...]

-c # 統計位元組數
-l # 統計行數
-w # 統計單詞數
-m # 統計字元數

3 wc命令示例

c、l、w、m 用例

read.text 內容如下：

!
hello china!
hello!
china!

file

配合 grep 統計命中的目標行數用例

# grep 正則匹配統計命中的目標行數，wc 命令在後面
grep -E  "(14:41(.)+internal-internal spend)"  002.info.log | wc -l

4 uniq 的常用引數以及配合 sor t應用示例

uniq 常用引數

uniq 可檢查文字檔案中重複出現的行，一般與 sort 命令結合使用。

-c或--count 在每列旁邊顯示該行重複出現的次數；
-d或--repeated 僅顯示重複出現的行；
-u或--unique 僅顯示出一次的行；

info.log 內容如下：

111,222,333
111,222,333
333,444,555
xxx,yyy,zzz

cat info.log |sort -r

xxx,yyy,zzz
333,444,555
111,222,333
111,222,333

cat info.log |sort|uniq

111,222,333
333,444,555
xxx,yyy,zzz

cat info.log |sort -r|uniq -u

xxx,yyy,zzz
333,444,555

cat info.log |sort -r|uniq -d

111,222,333

cat info.log |sort -r|uniq -c

1 xxx,yyy,zzz
1 333,444,555
2 111,222,333

5 案例一（文字統計）

有一個 b. txt 文字(內容如下)，要求將所有域名擷取出來，並統計重複域名出現的次數。

http://www.baidu.com/index.html
https://www.atguigu.com/index.html
http://www.sina.com.cn/1024.html
https://www.atguigu.com/2048.html
http://www.sina.com.cn/4096.html
https://www.atguigu.com/8192.html

命令和結果

cat b.txt |cut -d "/" -f3 |sort| uniq -c|sort -nr
3 www.atguigu.com
2 www.sina.com.cn
1 www. baidu.com

# cut -d "/" -f3  用"/"作為分隔符，擷取第個3欄位
# sort 第一次排序
# uniq -c 顯示該行重複次數
# sort -nr 按照數值從大到小排序

6 案例二（ ip 連線數統計並排序）

統計當前伺服器正在連線的 ip 地址，並按連線次數排序;

netstat -an I grep ESTABLISHED | awk '{print $5}' | cut -d ":" -f1 | sort -n | uniq -c | sort -nr

7 小結

wc 用來統計指定檔案中的位元組數、行數、單詞數、字元數；
uniq 可檢查文字檔案中重複出現的行列。
可對標準輸入，配合 grep、sort、find 等命令完成統計、排序、去重。

「不甩鍋的碼農」原創，轉載請註明來源，未經授權禁止商業用途！同名 GZH 請關注！

Linux基礎命令---wc文字統計
2019-01-13
Linux
Linux基礎命令—文字統計wc
2019-01-13
Linux
理解Underscore中的uniq（陣列去重）函式
2019-03-04
陣列函式
wc命令——Linux系統高效資料統計工具
2019-05-08
Linux
JS單行、多行文字字元去重和行去重
2019-02-16
JS字元
咋做長文字去重
2019-02-16
Linux基礎命令---uniq
2019-01-05
Linux
linux科研武器庫 - 檔案數量統計 - ls -l | grep "^-" | wc -l
2024-07-29
Linux
SQL Server與雲端計算（下）WC
2022-03-21
SQLServer
Linux基礎命令---文字統計paste
2019-01-12
LinuxAST
linux每日命令(36)：wc命令
2018-12-06
Linux
linux9-grep&wc&管道符
2024-04-30
Linux
linux檔案合併、去重、拆分
2019-02-27
Linux
陣列去重和求和
2019-01-15
陣列
Linux作業系統之命令解釋：ls -l|grep ^-|wc -l
2024-11-04
Linux作業系統
陣列的去重和排序
2019-02-19
陣列排序
java TreeSet去重與排序入門
2020-11-08
Java排序
使用 Ptrace 去攔截和模擬 Linux 系統呼叫
2018-08-22
Linux
[WC2008] 遊覽計劃
2019-02-22
Flink去重統計-基於自定義布隆過濾器
2021-05-20
過濾器
SQL -去重Group by 和Distinct的效率
2021-01-22
SQL
基於HBase構建千億級文字資料相似度計算與快速去重系統
2021-09-09
切片去重(string,int型別去重)
2020-10-10
型別
uniq(uid) distinct uid
2024-05-20
UI
uniq 命令及其示例
2024-06-02
009 Linux 檔案大小統計與排序( du於df和sort)
2022-01-30
Linux排序
JS陣列去重 – JSON陣列去重
2019-09-05
陣列JSON
文字和十六進位制編輯器：010 Editor for Mac v14.0啟用版
2023-12-21
Mac
列表去重
2024-08-17
Python文字統計與分析從基礎到進階
2024-05-06
Python
陣列去重和陣列扁平化
2021-12-07
陣列
[Bash] wc cmmand
2024-05-16
Linux 基礎教程 41-系統關機和重啟
2018-08-24
Linux
陣列去重
2019-02-28
陣列
List<string> 去重
2024-08-23
結果去重
2024-10-30
字串切片去重
2022-02-08
字串
Redis去重方法
2021-11-06
Redis