大型檔案去重

李博Garvin發表於2015-07-23

1.背景

面試的時候經常會被問到一個問題,大型的檔案該如何去重。寫一個python指令碼是效率很差的策略。這裡講下如何用shell實現。

2.流程

(1)檔案切割

用split函式對於檔案切割。

split -l 10000 test.txt

-l是按照行切割,10000是每10000行切割成一份檔案。切割完會在當前目錄自動生成10000行一例的檔案。

(2)去重

sort -u origin.txt -o output.txt

本文來自部落格 “李博Garvin“
轉載請標明出處:http://blog.csdn.net/buptgshengod]

相關文章