perl檔案操作

miguelmin發表於2009-01-17

用 Sysopen()進行更多的控制

為了更好的控制檔案的開啟方式,可以使用 sysopen() 函式:
use Fcntl;
sysopen(FH, $filename, O_RDWR|O_CREAT, 0666)
or die "Can't open $filename for reading/writing/creating : $!";

[@more@]

函式 sysopen() 帶有四個引數,第一個是同open()函式類似的檔案控制程式碼引數,第二個引數是不帶模式資訊的檔名,第三個引數是模式引數,由Fcntl 模組提供的邏輯OR運算組合起來的常數構成,第四個引數(可選),為八進位制屬性值(0666表示資料檔案, 0777表示程式)。如果檔案可以被開啟,sysopen() 返回true,如果開啟失敗,則返回false。

不同於open()函式,sysopen()不提供模式說明的簡寫方式,而是把一些常陣列合起來,而且,每個模式常數有唯一的含義,只有透過邏輯OR運算才能將它們組合起來,你可以設定多個行為的組合。

O_RDONLYRead-only

O_WRONLY Write-only

O_RDWR Reading and writing

O_APPEND Writes go to the end of the file

O_TRUNC Truncate the file if it existed

O_CREAT Create the file if it didn't exist

O_EXCLError if the file already existed (used with O_CREAT)


當你需要小心行事的時候,就使用sysopen() 函式,例如,如果你打算新增內容到檔案中,如果檔案不存在,不建立新檔案,你可以這樣寫:

sysopen(LOG, "/var/log/myprog.log", O_APPEND, 0666)

or die "Can't open /var/log/myprog.log for appending: $!";

讀入單個記錄
有一個容易的方法讀入filehandles:用 運算子。在標量內容下,它返回檔案中的下一個記錄,或者返回未定義出錯資訊。我們可以使用它來把一行讀入到一個變數中:

$line = ;

die "Unexpected end-of-file" unless defined $line;

在迴圈語句中,我們可以這樣寫:

while (defined ($record = )) { # long-winded

# $record is set to each record in the file, one at a time

}


因為要大量進行這樣的工作,通常再進行一下簡化,

把記錄放到$_ 中,而不是$record中:

while () {

# $_ 每次為檔案中的一個記錄

}

在Perl 5.004_04中,我們可以這樣做:

while ($record = ) {

# $record 每次為檔案中的一個記錄

}


defined() 將自動加上,在Perl 5.004_04以前的版本中,該命令給出一個警示。要了解所用的Perl版本,可在命令列下打入:

perl -v

一旦我們讀出了一個記錄,通常打算去掉記錄分隔符,(預設值為換行符字元):

chomp($record);

Perl 4.0版本僅有chop()操作,去掉串的最後一個字元, 不管該字元是什麼。chomp() 沒有這麼大的破壞性,如果有行分隔符存在,它僅去掉行分隔符。如果你打算去掉行分隔符,就用chomp() 來代替chop()。

讀入多個記錄
如果你呼叫,返回檔案中剩餘的記錄。如果你處於檔案尾,則返回空表:

@records = ;

if (@records) {

print "There were ", scalar(@records), " records read.n";

}


在下面的一步中,進行賦值和測試兩項工作:

if (@records = ) {

print "There were ", scalar(@records), " records read.n";

}

chomp() 也可適用對陣列操作:

@records = ;

chomp(@records);

對於任何表示式,都可以進行chomp操作,故你可以在下面的一步中這樣寫:

chomp(@records = );


什麼是記錄?

記錄的預設定義為:“行”。

記錄的定義由$/ 變數控制的,該變數存放所輸入的記錄的分隔符,因為換行符字元(根據定義!)是用來分隔行的,故其預設值為串“n”。

例如,你可以用任何你想要替換的符號來代替“n”。

$/ = ";";

$record = ; # 讀入下一個用分號分隔的記錄

$/可以取其它兩個有趣的值:空串("") 和undef。

讀入段落
$/ =""的寫法是用來指示Perl讀入段落的,段落是由兩個或兩個以上的換行符構成的文字塊。這不同於設定為"nn",後者僅讀入由兩行組成的文字塊。在這種情況下,將出現這樣一個問題:如果有連續的空行存在,例如“textnnnn”,你既可以把它解釋為一個段落 ("text"),也可以解釋為兩個段落 ("text", 後面跟兩個換行符,以及一個空段落,後面跟兩個空行。)

在讀入文字時,第二個解釋用途不大。如果你正在讀的段落出現上述情況,你不必過濾出“空”段落。

$/ = "nn";

while () {

chomp;

next unless length; # 跳過空段

# ...

}


你可以把 $/設定為undef,它用於讀入後面跟著兩個或多個換行符組成的段落: undef $/;

while () {

chomp;

# ...

}


讀入整個檔案

$/ 的其它有趣的值為undef。如果設定為該值,就將告訴Perl,讀命令將把檔案的剩餘部分作為一個串返回:

undef $/;

$file = ;


因為改變了 $/的值,將會影響以後的每次讀操作,而不僅是下一個讀操作。通常,你需要將該操作限制在區域性。透過下面的例子,可以把檔案控制程式碼的內容讀入到一個串中:

{

local $/ = undef;

$file = ;

}


記住:Perl變數可讀入很長的串。儘管你的檔案大小不可以超出你的虛擬記憶體容量的限度,你仍可以讀入儘可能多的資料。
用正規表示式對檔案進行操作
一旦你有個包含了整個串的變數,你可以使用正規表示式,對整個檔案進行操作,而不是對檔案中的某個塊進行操作。有兩個有用的正規表示式標記/s和/m。一般,Perl的正規表示式對行進行處理,你可以這樣寫:

undef $/;

$line = ;

if ($line =~ /(b.*grass)$/) {

print "found $1n";

}


如果把我們的檔案填入如下內容:
browngrass

bluegrass

則輸出為:

found bluegrass

它沒有找到“browngrass”,這是因為$ 僅在串尾尋找其匹配, (或者在串結束前的一行)。如果在包含很多行的串中,用"^" 和"$" 來匹配,, 我們可以使用 /m ("multiline") 選項:

if ($line =~ /(b.*grass)$/m) {}

現在程式會把如下的資訊輸出:

found browngrass

類似地,句點可以匹配除了換行符之外的所有字元:

while () {

if (/19(.*)$/) {

if ($1 < 20) {

$year = 2000+$1;

} else {

$year = 1900+$1;

}

}

}


如果我們從檔案中讀入“1981”,$_ 將包含“1981n”。正規表示式中的句點匹配“8”和“1”, 而不匹配“n”。這裡正需要這樣做,因為換行符不是日期的組成部分。

對於一個包含很多行的串,我們也許要提取其中的大的塊,這些塊可能會跨越行分隔符。在這種情況下,我們可以使用 /s 選項,並用句點來匹配除了換行符以外的所有字元。

if (m{(.*?)}s) {

print "Found bold text: $1n";

}


此處,我用了{}來表示正規表示式的起始和結束,而不用斜槓,所以,我就可以告訴 Perl我正在匹配,起始字元為"m",結束字元為"s"。你可以把/s 和/m 選項組合使用:

if (m{^(.*?)}sm) {

# ...

}

總結
有兩種方法開啟檔案:open()函式的特點是快速簡捷,而sysopen()函式功能強大而複雜。透過 運算子,可以讀入一個記錄,$/ 變數可以讓你控制記錄是什麼。如果你打算把很多行的內容讀入到一個串中,不要使用忘記/s和/m 這兩個正規表示式標記。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/16723161/viewspace-1016246/,如需轉載,請註明出處,否則將追究法律責任。