如何在 Linux 中分割和重組檔案!

roc_guo發表於2023-11-12

我們將學習如何使用 csplit,split 和 cat 來重新整理檔案,然後再將檔案合併在一起。這些操作在任何檔案型別下都有用:文字、圖片、音訊檔案、ISO 映象檔案等。

使用 csplit 分割檔案

csplit 是這些有趣的小 中的一個,它永遠伴你左右,一旦開始用它就離不開了。csplit 將單個檔案分割成多個檔案。這個示例演示了最簡單的使用方法,它將檔案 foo.txt 分為三個檔案,以行號 17 和 33 作為分割點:

$ csplit foo.txt 17 33
2591
3889
2359

csplit 在當前目錄下建立了三個新檔案,並以位元組為單位列印出新檔案的大小。預設情況下,每個新檔名為 xx_nn:

$ ls
xx00
xx01
xx02

您可以使用 head  檢視每個新檔案的前十行:

$ head xx*
==> xx00 <== Foo File by Carla Schroder Foo text Foo subheading More foo text ==> xx01 <== Foo text Foo subheading More foo text ==> xx02 <==
Foo text
Foo subheading
More foo text

如果要將檔案分割成包含相同行數的多個檔案怎麼辦?可以指定行數,然後將重複次數放在在花括號中。此示例重複分割 4 次,並將剩下的轉儲到最後一個檔案中:

$ csplit foo.txt 5 {4}
57
1488
249
1866
3798

您可以使用星號萬用字元來告訴 csplit 儘可能多地重複分割。這聽起來很酷,但是如果檔案不能等分,則可能會失敗(LCTT 譯註:低版本的 csplit 不支援此引數):

$ csplit foo.txt 10 {*}
1545
2115
1848
1901
csplit: '10': line number out of range on repetition 4
1430

預設的行為是刪除發生錯誤時的輸出檔案。你可以用 -k 選項來解決這個問題,當有錯誤時,它就不會刪除輸出檔案。另一個行為是每次執行 csplit 時,它將覆蓋之前建立的檔案,所以你需要使用新的檔名來分別儲存它們。使用 --prefix= _prefix_ 來設定一個不同的檔案字首:

$ csplit -k --prefix=mine foo.txt 5 {*}
57
1488
249
1866
993
csplit: '5': line number out of range on repetition 9
437
$ ls
mine00
mine01
mine02
mine03
mine04
mine05

選項 -n 可用於改變對檔案進行編號的數字位數(預設是 2 位):

$ csplit -n 3 --prefix=mine foo.txt 5 {4}
57
1488
249
1866
1381
3798
$ ls
mine000
mine001
mine002
mine003
mine004
mine005

csplit 中的 “c” 是上下文(context)的意思。這意味著你可以根據任意匹配的方式或者巧妙的正規表示式來分割檔案。下面的例子將檔案分為兩部分。第一個檔案在包含第一次出現 “fie” 的前一行處結束,第二個檔案則以包含 “fie” 的行開頭。

$ csplit foo.txt /fie/

在每次出現 “fie” 時分割檔案:

$ csplit foo.txt /fie/ {*}

在 “fie” 前五次出現的地方分割檔案:

$ csplit foo.txt /fie/ {5}

僅當內容以包含 “fie” 的行開始時才複製,並且省略前面的所有內容:

$ csplit myfile %fie%
將檔案分割成不同大小

split 與 csplit 類似。它將檔案分割成特定的大小,當您將大檔案分割成小的多媒體檔案或者使用網路傳送時,這就非常棒了。預設的大小為 1000 行:

$ split foo.mv
$ ls -hl
266K Aug 21 16:58 xaa
267K Aug 21 16:58 xab
315K Aug 21 16:58 xac
[...]

它們分割出來的大小相似,但你可以指定任何你想要的大小。這個例子中是 20M 位元組:

$ split -b 20M foo.mv

尺寸單位縮寫為 K,M,G,T,P,E,Z,Y(1024 的冪)或者 KB,MB,GB 等等(1000 的冪)。

為檔名選擇你自己的字首和字尾:

$ split -a 3 --numeric-suffixes=9 --additional-suffix=mine foo.mv SB
240K Aug 21 17:44 SB009mine
214K Aug 21 17:44 SB010mine
220K Aug 21 17:44 SB011mine

-a 選項控制編號的數字位置。--numeric-suffixes 設定編號的開始值。預設字首為 x,你也可以透過在檔名後輸入它來設定一個不同的字首。

將分割後的檔案合併

你可能想在某個時候重組你的檔案。常用的 cat 命令就用在這裡:

$ cat SB0* > foo2.txt

示例中的星號萬用字元將匹配到所有以 SB0 開頭的檔案,這可能不會得到您想要的結果。您可以使用問號萬用字元進行更精確的匹配,每個字元使用一個問號:

$ cat SB0?????? > foo2.txt

和往常一樣,請查閱相關的手冊和資訊頁面以獲取完整的命令選項。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69901823/viewspace-2994849/,如需轉載,請註明出處,否則將追究法律責任。

相關文章