大檔案的排序和去重超級簡單的實現

pythontab發表於2014-07-17

原文網址 : https://www.pythontab.com/html/2014/linuxkaiyuan_0717/829.html

有一道校招生的面試題，是要給一個很大的檔案（不能全部放記憶體，比如1T）按行來排序和去重。

一種簡單解決方案就是分而治之，先打大檔案分詞大小均勻的若干個小檔案，然後對小檔案排好序，最後再Merge所有的小檔案，在Merge的過程中去掉重複的內容。

在Linux下實現這個邏輯甚至不用自己寫程式碼，只要用shell內建的一些命令: split, sort就足夠了。我們把這個流程用指令碼串起來，寫到shell指令碼檔案裡。檔名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed 's/ .*//g')
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

這段程式碼把大檔案分詞20或21個小檔案，後臺並行排序各個小檔案，最後合併結果並去重。

如果只要去重，不需要排序，還有另外一種思路：對檔案的每一行計算hash值，按照hash值把該行內容放到某個小檔案中，假設需要分詞100個小檔案，則可以按照（hash % 100）來分發檔案內容，然後在小檔案中實現去重就可以了。

超級簡單的實現window共享Linux檔案
2020-11-01
Linux
陣列的去重和排序
2019-02-19
陣列排序
python3 大檔案去重
2020-10-17
Python
實現簡單的csv檔案上傳和bootstrap表格的下載
2023-01-05
boot
超簡單的抖音去水印
2022-03-20
GFS（谷歌檔案系統）的JAVA簡單實現
2020-12-13
谷歌Java
用go實現簡單的氣泡排序
2018-07-13
Go排序
簡單粗暴的去重promise的回撥
2018-08-29
Promise
【C#入門超簡單】簡單的專案實踐
2024-06-22
C#
elasticsearch實現簡單的指令碼排序(script sort)
2023-01-12
Elasticsearch指令碼排序
超簡單實現iOS列表的索引功能
2019-03-01
iOS索引
大檔案排序優化實踐
2020-10-12
排序優化
JS陣列去重的實現
2020-09-09
JS陣列
抖音去水印超簡單
2022-03-19
幾大排序演算法的理解和程式碼實現（超級詳細的過程）
2020-11-22
排序演算法
Kotlin超簡單實現StepView
2018-11-09
KotlinView
陪玩系統原始碼中陣列去重的實現程式碼，簡單卻重要
2021-12-21
原始碼陣列
超級簡單的sql入門（一）
2020-10-10
SQL
大根堆和堆排序的原理與實現
2020-12-01
排序
一個簡單的 SpringBoot 專案的 Dockfile 和 cicd 檔案配置
2020-06-24
Spring Boot
讓你10分鐘就能看懂Linux檔案許可權（超級詳細、超級簡單！！！）
2020-12-23
Linux
陣列物件的去重然後排序
2018-03-04
陣列物件排序
socket實現簡單傳檔案ftp/scp服務
2024-10-15
FTP
ELF檔案格式與got表hook簡單實現
2021-05-30
GoHook
檔案全域性去重！對接雲盤，實現跨系統檔案資源集中管控
2020-12-11
簡單的排序方法
2020-08-21
排序
簡單介紹ASP.NET Core實現檔案上傳和下載
2022-08-14
ASP.NET
linux檔案合併、去重、拆分
2019-02-27
Linux
shell 檔案合併去重分割
2020-09-25
設計模式超級簡單的解釋
2019-03-06
設計模式
一個超級簡單的 go Web 框架
2020-07-03
GoWeb框架
【演算法】排序04——程式碼簡約而不簡單的希爾排序（含程式碼實現）
2020-08-05
演算法排序
JS單行、多行文字字元去重和行去重
2019-02-16
JS字元
AOP的簡單實現
2019-01-19
簡單的 HashMap 實現
2018-03-16
HashMap
實現簡單的BitMap
2021-06-29
ArrayList的簡單實現
2021-02-21
HIVE的許可權控制和超級管理員的實現
2018-09-17
Hive
Spring Boot + DD小程式超級簡單的webscoket
2018-12-25
Spring BootWeb

大檔案的排序和去重 超級簡單的實現

相關文章

大檔案的排序和去重超級簡單的實現