最常用的PHP正規表示式收集整理

codeceo發表於2015-03-19

正規表示式用於字串處理、表單驗證等場合,實用高效。本文收集了一些常用的表示式:

$str = preg_replace("/(<a.*?>)(.*?)(<\/a>)/", '\1<span>\2</span>\3', $str);

其中用了三個子模式(每個圓括號中內容為一個子模式),第一個是連結開始標籤,第二個是連結文字,第三個是</a>

然後第二個引數中\1、\2、\3就表示這三個部分,要替換成什麼樣子還不簡單?

獲取頁面中的所有連結地址的PHP函式

下面這個用PHP寫的函式,可以獲取任意的字串$string中的所有連結地址($string可以是從一個HTML頁面檔案直接讀取出來的字串),結果儲存在一個陣列中返回.該函式自動把電子郵件地址排除在外,而且返回的陣列中不會有重複元素.

function GetAllLink($string) 
{ 
$string = str_replace("\r","",$string); 
$string = str_replace("\n","",$string); 

$regex[url] = "((http|https|ftp|telnet|news):\/\/)?([a-z0-9_\-\/\.]+\.[][a-z0-9:;&#@=_~%\?\/\.\,\+\-]+)"; 
$regex[email] = "([a-z0-9_\-]+)@([a-z0-9_\-]+\.[a-z0-9\-\._\-]+)"; 

//去掉標籤之間的文字 
$string = eregi_replace(">[^<>]+<","><", $string); 

//去掉JAVASCRIPT程式碼 
$string = eregi_replace("<!--.*//-->","", $string); 

//去掉非<a>的HTML標籤 
$string = eregi_replace("<[^a][^<>]*>","", $string); 

//去掉EMAIL連結 
$string = eregi_replace("<a([ ]+)href=([\"']*)mailto:($regex[email])([\"']*)[^>]*>","", $string); 

//替換需要的網頁連結 
$string = eregi_replace("<a([ ]+)href=([\"']*)($regex[url])([\"']*)[^>]*>","\\3\t", $string); 

$output[0] = strtok($string, "\t"); 
while(($temp = strtok("\t"))) 
{ 
if($temp && !in_array($temp, $output)) 
$output[++$i] = $temp; 
} 

return $output; 
}

以下是以PHP的語法所寫的示例

驗證字串是否只含數字與英文,字串長度並在4~16個字元之間

<?php 
$str = 'a1234'; 
if (preg_match("^[a-zA-Z0-9]{4,16}$", $str)) { 
echo "驗證成功";} else { 
echo "驗證失敗";}?>

簡易的臺灣身分證字號驗證

<?php 
$str = 'a1234'; 
if (preg_match("^(?:\d{15}|\d{18})$", $str)) { 
echo "驗證成功"; 
} else { 
echo "驗證失敗";} 
?>

下面的程式碼實現文字中的程式碼塊,功能就如你在指令碼之家看到的程式碼一樣。

function codedisp($code) { 
global $discuzcodes; 
$discuzcodes['pcodecount']++; 
$code = htmlspecialchars(str_replace('\\"', '"', preg_replace("/^[\n\r]*(.+?)[\n\r]*$/is", "\\1", $code))); 
$discuzcodes['codehtml'][$discuzcodes['pcodecount']] = "<br><div class=\"msgheader\"><div class=\"right\"><a href=\"###\" class=\"smalltxt\" onclick=\"copycode($('phpcode$discuzcodes[codecount]'));\">[複製此程式碼]</a></div>程式碼如下:</div><div class=\"msgborder\" id=\"phpcode$discuzcodes[codecount]\">".fhtml2($code)."</div><br>"; 
$discuzcodes['codecount']++; 
return "[\tDISCUZ_CODE_$discuzcodes[pcodecount]\t]"; 
} 
$message = preg_replace("/\s*\[code\](.+?)\[\/code\]\s*/ies", "codedisp('\\1')", $message); 
$message = preg_replace("/\s*\[html\](.+?)\[\/html\]\s*/ies", "htmldisp('\\1')", $message);

匹配中文字元的正規表示式: [\u4e00-\u9fa5]
評註:匹配中文還真是個頭疼的事,有了這個表示式就好辦了

匹配雙位元組字元(包括漢字在內):[^\x00-\xff]
評註:可以用來計算字串的長度(一個雙位元組字元長度計2,ASCII字元計1)

匹配空白行的正規表示式:\n\s*\r
評註:可以用來刪除空白行

匹配HTML標記的正規表示式:<(\S*?)[^>]*>.*?</\1>|<.*? />
評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於複雜的巢狀標記依舊無能為力

匹配首尾空白字元的正規表示式:^\s*|\s*$
評註:可以用來刪除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表示式

匹配Email地址的正規表示式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評註:表單驗證時很實用

匹配網址URL的正規表示式:[a-zA-z]+://[^\s]*
評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求

匹配帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評註:表單驗證時很實用

匹配國內電話號碼:\d{3}-\d{8}|\d{4}-\d{7}
評註:匹配形式如 0511-4405222 或 021-87888822

匹配騰訊QQ號:[1-9][0-9]{4,}
評註:騰訊QQ號從10000開始

匹配中國郵政編碼:[1-9]\d{5}(?!\d)
評註:中國郵政編碼為6位數字

匹配身份證:\d{15}|\d{18}
評註:中國的身份證為15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
評註:提取ip地址時有用

匹配特定數字:

^[1-9]\d*$    //匹配正整數
 ^-[1-9]\d*$   //匹配負整數
 ^-?[1-9]\d*$   //匹配整數
 ^[1-9]\d*|0$  //匹配非負整數(正整數 + 0)
 ^-[1-9]\d*|0$   //匹配非正整數(負整數 + 0)
 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$   //匹配正浮點數
 ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$  //匹配負浮點數
 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$  //匹配浮點數
 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$   //匹配非負浮點數(正浮點數 + 0)
 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$  //匹配非正浮點數(負浮點數 + 0)

評註:處理大量資料時有用,具體應用時注意修正

匹配特定字串:

^[A-Za-z]+$  //匹配由26個英文字母組成的字串
 ^[A-Z]+$  //匹配由26個英文字母的大寫組成的字串
 ^[a-z]+$  //匹配由26個英文字母的小寫組成的字串
 ^[A-Za-z0-9]+$  //匹配由數字和26個英文字母組成的字串
 ^\w+$  //匹配由數字、26個英文字母或者下劃線組成的字串

下面是一些特殊字元:

正規表示式中的特殊字元: (學習參考書-<<精通正規表示式>>)

字元
意義:對於字元,通常表示按字面意義,指出接著的字元為特殊字元,不作解釋。
例如:/b/匹配字元'b',通過在b 前面加一個反斜槓,也就是/b/,則該字元變成特殊字元,表示
匹配一個單詞的分界線。
或者:
對於幾個字元,通常說明是特殊的,指出緊接著的字元不是特殊的,而應該按字面解釋。
例如:*是一個特殊字元,匹配任意個字元(包括0個字元);例如:/a*/意味匹配0個或多個a。
為了匹配字面上的*,在a前面加一個反斜槓;例如:/a*/匹配'a*'。

字元^
意義:表示匹配的字元必須在最前邊。
例如:/^A/不匹配"an A,"中的'A',但匹配"An A."中最前面的'A'。

字元$
意義:與^類似,匹配最末的字元。
例如:/t$/不匹配"eater"中的't',但匹配"eat"中的't'。

字元*
意義:匹配*前面的字元0次或n次。
例如:/bo*/匹配"A ghost booooed"中的'boooo'或"A bird warbled"中的'b',但不匹配"A goat g
runted"中的任何字元。

字元+
意義:匹配+號前面的字元1次或n次。等價於{1,}。
例如:/a+/匹配"candy"中的'a'和"caaaaaaandy."中的所有'a'。

字元?
意義:匹配?前面的字元0次或1次。
例如:/e?le?/匹配"angel"中的'el'和"angle."中的'le'。

字元.
意義:(小數點)匹配除換行符外的所有單個的字元。
例如:/.n/匹配"nay, an apple is on the tree"中的'an'和'on',但不匹配'nay'。

字元(x)
意義:匹配'x'並記錄匹配的值。
例如:/(foo)/匹配和記錄"foo bar."中的'foo'。匹配子串能被結果陣列中的素[1], ..., [n] 返
回,或被RegExp物件的屬性$1, ..., $9返回。

字元x|y
意義:匹配'x'或者'y'。
例如:/green|red/匹配"green apple"中的'green'和"red apple."中的'red'。

字元{n}
意義:這裡的n是一個正整數。匹配前面的n個字元。
例如:/a{2}/不匹配"candy,"中的'a',但匹配"caandy," 中的所有'a'和"caaandy."中前面的兩個
'a'。

字元{n,}
意義:這裡的n是一個正整數。匹配至少n個前面的字元。
例如:/a{2,}不匹配"candy"中的'a',但匹配"caandy"中的所有'a'和"caaaaaaandy."中的所有'a'

字元{n,m}
意義:這裡的n和m都是正整數。匹配至少n個最多m個前面的字元。
例如:/a{1,3}/不匹配"cndy"中的任何字元,但匹配 "candy,"中的'a',"caandy," 中的前面兩個
'a'和"caaaaaaandy"中前面的三個'a',注意:即使"caaaaaaandy" 中有很多個'a',但只匹配前面的三
個'a'即"aaa"。

字元[xyz]
意義:一字元列表,匹配列出中的任一字元。你可以通過連字元-指出一個字元範圍。
例如:[abcd]跟[a-c]一樣。它們匹配"brisket"中的'b'和"ache"中的'c'。

字元[^xyz]
意義:一字元補集,也就是說,它匹配除了列出的字元外的所有東西。 你可以使用連字元-指出一
字元範圍。
例如:[^abc]和[^a-c]等價,它們最早匹配"brisket"中的'r'和"chop."中的'h'。

字元
意義:匹配一個空格(不要與b混淆)

字元b
意義:匹配一個單詞的分界線,比如一個空格(不要與混淆)
例如:/bnw/匹配"noonday"中的'no',/wyb/匹配"possibly yesterday."中的'ly'。

字元B
意義:匹配一個單詞的非分界線
例如:/wBn/匹配"noonday"中的'on',/yBw/匹配"possibly yesterday."中的'ye'。

字元cX
意義:這裡的X是一個控制字元。匹配一個字串的控制字元。
例如:/cM/匹配一個字串中的control-M。

字元d
意義:匹配一個數字,等價於[0-9]。
例如:/d/或/[0-9]/匹配"B2 is the suite number."中的'2'。

字元D
意義:匹配任何的非數字,等價於[^0-9]。
例如:/D/或/[^0-9]/匹配"B2 is the suite number."中的'B'。

字元f
意義:匹配一個表單符

字元n
意義:匹配一個換行符

字元r
意義:匹配一個回車符

字元s
意義:匹配一個單個white空格符,包括空格,tab,form feed,換行符,等價於[ fnrtv]。
例如:/sw*/匹配"foo bar."中的' bar'。

字元S
意義:匹配除white空格符以外的一個單個的字元,等價於[^ fnrtv]。
例如:/S/w*匹配"foo bar."中的'foo'。

字元t
意義:匹配一個製表符

字元v
意義:匹配一個頂頭製表符

字元w
意義:匹配所有的數字和字母以及下劃線,等價於[A-Za-z0-9_]。
例如:/w/匹配"apple,"中的'a',"$5.28,"中的'5'和"3D."中的'3'。

字元W
意義:匹配除數字、字母外及下劃線外的其它字元,等價於[^A-Za-z0-9_]。
例如:/W/或者/[^$A-Za-z0-9_]/匹配"50%."中的'%'。

字元n
意義:這裡的n是一個正整數。匹配一個正規表示式的最後一個子串的n的值(計數左圓括號)。

例如:/apple(,)sorange1/匹配"apple, orange, cherry, peach."中的'apple, orange',下面
有一個更加完整的例子。
注意:如果左圓括號中的數字比n指定的數字還小,則n取下一行的八進位制escape作為描述。

字元ooctal和xhex
意義:這裡的ooctal是一個八進位制的escape值,而xhex是一個十六進位制的escape值,允許在一個正規表示式中嵌入ASCII碼。

通用模式

定界符,通常使用 "/"做為定界符開始和結束,也可以使用"#"。

什麼時候使用"#"呢?一般是在你的字串中有很多"/"字元的時候,因為正則的時候這種字元需要轉義,比如uri。
使用"/"定界符的程式碼如下.

<?php 
$regex = '/^http://([w.]+)/([w]+)/([w]+).html$/i'; 
$str = 'http://www.youku.com/show_page/id_ABCDEFG.html'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "n";

preg_match中的$matches[0]將包含與整個模式匹配的字串。

使用"#"定界符的程式碼如下.這個時候對"/"就不轉義!

$regex = '#^http://([w.]+)/([w]+)/([w]+).html$#i'; 
$str = 'http://www.youku.com/show_page/id_ABCDEFG.html'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "n";

修飾符:用於改變正規表示式的行為。

我們看到的('/^http://([w.]+)/([w]+)/([w]+).html/i')中的最後一個"i"就是修飾符,表示忽略大小寫,還有一個我們經常用到的是"x"表示忽略空格。

貢獻程式碼:

$regex = '/HELLO/'; 
$str = 'hello word'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
echo 'No i:Valid Successful!',"n"; 
} 
if(preg_match($regex.'i', $str, $matches)){ 
echo 'YES i:Valid Successful!',"n"; 
}

字元域:[w]用方括號擴起來的部分就是字元域。

限定符:如[w]{3,5}或者[w]*或者[w]+這些[w]後面的符號都表示限定符。現介紹具體意義。
{3,5}表示3到5個字元。{3,}超過3個字元,{,5}最多5個,{3}三個字元。
* 表示0到多個
+ 表示1到多個。
脫字元號
^:
> 放在字元域(如:[^w])中表示否定(不包括的意思)——“反向選擇”
> 放在表示式之前,表示以當前這個字元開始。(/^n/i,表示以n開頭)。
注意,我們經常管""叫"跳脫字元"。用於轉義一些特殊符號,如".","/"
界符:正規表示式的形式一般如下:
/love/
其中位於“/”定界符之間的部分就是將要在目標物件中進行匹配的模式。
元字元:就是指那些在正規表示式中具有特殊意義的專用字元,可以用來規定其前導字元(即位於元字元前面的字元)在目標物件中的出現模式。
較為常用的元字元包括: “+”, “*”,以及 “?”。
“+”元字元規定其前導字元必須在目標物件中連續出現一次或多次
“*”元字元規定其前導字元必須在目標物件中出現零次或連續多次,
“?”元字元規定其前導字元必須在目標物件中連續出現零次或一次。
下面,就讓我們來看一下正規表示式元字元的具體應用。
/fo+/
因為上述正規表示式中包含“+”元字元(它前面的“o”是前導字元),表示可以與目標物件中的“fool”, “fo”等在字母f後面連續出現一個或多個字母o的字串相匹配。
除了元字元之外,使用者還可以精確指定模式在匹配物件中出現的頻率。例如,
/jim{2,6}/
上述正規表示式規定字元m可以在匹配物件中連續出現2-6次,因此,上述正規表示式可以同jimmy或jimmmmmy等字串相匹配。
其它幾個重要的元字元的使用方式。
s:用於匹配單個空格符,包括tab鍵和換行符;
S:用於匹配除單個空格符之外的所有字元;
d:用於匹配從0到9的數字;
w:用於匹配字母,數字或下劃線字元;
W:用於匹配所有與w不匹配的字元;
. :用於匹配除換行符之外的所有字元。
(說明:我們可以把s和S以及w和W看作互為逆運算)
下面,我們就通過例項看一下如何在正規表示式中使用上述元字元。
/s+/
上述正規表示式可以用於匹配目標物件中的一個或多個空格字元。
除了我們以上所介紹的元字元之外,正規表示式中還具有另外一種較為獨特的專用字元,即定位符。
定位符:用於規定匹配模式在目標物件中的出現位置。
較為常用的定位符包括: “^”, “$”, “b” 以及 “B”。
“^”定位符規定匹配模式必須出現在目標字串的開頭
“$”定位符規定匹配模式必須出現在目標物件的結尾
b定位符規定匹配模式必須出現在目標字串的開頭或結尾的兩個邊界之一
“B”定位符則規定匹配物件必須位於目標字串的開頭和結尾兩個邊界之內,即匹配物件既不能作為目標字串的開頭,也不能作為目標字串的結尾。同樣,我們
也可以把“^”和“$”以及“b”和“B”看作是互為逆運算的兩組定位符。舉例來說:
/^hell/
因為上述正規表示式中包含“^”定位符,所以可以與目標物件中以 “hell”, “hello”或 “hellhound”開頭的字串相匹配。
/ar$/
因為上述正規表示式中包含“$”定位符,所以可以與目標物件中以 “car”, “bar”或 “ar” 結尾的字串相匹配。
/bbom/
因為上述正規表示式模式以“b”定位符開頭,所以可以與目標物件中以 “bomb”, 或 “bom”開頭的字串相匹配。
/manb/
因為上述正規表示式模式以“b”定位符結尾,所以可以與目標物件中以 “human”, “woman”或 “man”結尾的字串相匹配。
為了能夠方便使用者更加靈活的設定匹配模式,正規表示式允許使用者在匹配模式中指定某一個範圍而不侷限於具體的字元。例如:
/[A-Z]/
上述正規表示式將會與從A到Z範圍內任何一個大寫字母相匹配。
/[a-z]/
上述正規表示式將會與從a到z範圍內任何一個小寫字母相匹配。
/[0-9]/
上述正規表示式將會與從0到9範圍內任何一個數字相匹配。
/([a-z][A-Z][0-9])+/
上述正規表示式將會與任何由字母和數字組成的字串,如 “aB0” 等相匹配。這裡需要提醒使用者注意的一點就是可以在正規表示式中使用 “()” 把字串組合在一起。
“()”符號:包含的內容必須同時出現在目標物件中。因此,上述正規表示式將無法與諸如 “abc”等的字串匹配,因為“abc”中的最後一個字元為字母而非數字。
如果我們希望在正規表示式中實現類似程式設計邏輯中的“或”運算,在多個不同的模式中任選一個進行匹配的話,可以使用管道符: “|”。例如:
/to|too|2/
上述正規表示式將會與目標物件中的 “to”, “too”, 或 “2” 相匹配。
否定符:“[^]”。與我們前文所介紹的定位符 “^” 不同,否定符 “[^]”規定目標物件中不能存在模式中所規定的字串。例如:
/[^A-C]/
上述字串將會與目標物件中除A,B,和C之外的任何字元相匹配。一般來說,當“^”出現在 “[]”內時就被視做否定運算子;而當“^”位於“[]”之外,或沒有“[]”時,則應當被視做定位符。
最後,當使用者需要在正規表示式的模式中加入元字元,並查詢其匹配物件時,可以使用
轉義符:“”。例如:
/Th*/
上述正規表示式將會與目標物件中的“Th*”而非“The”等相匹配。
實際經驗介紹
還是得說說 ^ 和 $ 他們是分別用來匹配字串的開始和結束,以下分別舉例說明:
“^The”:開頭一定要有”The”字串;
“of despair$”:結尾一定要有”of despair” 的字串;
那麼,
“^abc$”:就是要求以abc開頭和以abc結尾的字串,實際上是隻有abc匹配;
“notice”:匹配包含notice的字串;
你可以看見如果你沒有用我們提到的兩個字元(最後一個例子),就是說模式(正規表示式)可以出現在被檢驗字串的任何地方,你沒有把他鎖定到兩邊。
接著,說說 ‘*' ‘+' 和 ‘?'
他們用來表示一個字元可以出現的次數或者順序,他們分別表示:
“zero or more”相當於{0,}
“one or more”相當於{1,}
“zero or one.”相當於{0,1}
這裡是一些例子:
“ab*”:和ab{0,}同義,匹配以a開頭,後面可以接0個或者N個b組成的字串(”a”, “ab”, “abbb”, 等);
“ab+”:和ab{1,}同義,同上條一樣,但最少要有一個b存在 (”ab” “abbb”等);
“ab?”:和ab{0,1}同義,可以沒有或者只有一個b;
“a?b+$”:匹配以一個或者0個a再加上一個以上的b結尾的字串。
要點:'*' ‘+' 和 ‘?' 只管它前面那個字元。
你也可以在大括號裡面限制字元出現的個數,比如:
“ab{2}”: 要求a後面一定要跟兩個b(一個也不能少)(”abb”);
“ab{2,}”: 要求a後面一定要有兩個或者兩個以上b(如”abb” “abbbb” 等);
“ab{3,5}”: 要求a後面可以有2-5個b(”abbb”, “abbbb”, or “abbbbb”)。
現在我們把一定幾個字元放到小括號裡,比如:
“a(bc)*”: 匹配 a 後面跟0個或者一個”bc”;
“a(bc){1,5}”: 一個到5個 “bc”;
還有一個字元 ‘|',相當於OR操作:
“hi|hello”: 匹配含有”hi” 或者 “hello” 的 字串;
“(b|cd)ef”: 匹配含有 “bef” 或者 “cdef”的字串;
“(a|b)*c”: 匹配含有這樣多個(包括0個)a或b,後面跟一個c的字串;
一個點('.')可以代表所有的單一字元,不包括” ”
如果,要匹配包括” ”在內的所有單個字元,怎麼辦?
用'[ .]'這種模式。
“a.[0-9]”: 一個a加一個字元再加一個0到9的數字;
“^.{3}$”: 三個任意字元結尾。
中括號括住的內容只匹配一個單一的字元
“[ab]”: 匹配單個的 a 或者 b ( 和 “a│b” 一樣);
“[a-d]”: 匹配'a' 到'd'的單個字元 (和”a│b│c│d” 還有 “[abcd]”效果一樣);
一般我們都用[a-zA-Z]來指定字元為一個大小寫英文:
“^[a-zA-Z]”: 匹配以大小寫字母開頭的字串;
“[0-9]%”: 匹配含有 形如 x% 的字串;
“,[a-zA-Z0-9]$”: 匹配以逗號再加一個數字或字母結尾的字串;
你也可以把你不想要得字元列在中括號裡,你只需要在總括號裡面使用'^' 作為開頭 “%[^a-zA-Z]%” 匹配含有兩個百分號裡面有一個非字母的字串。
要點:^用在中括號開頭的時候,就表示排除括號裡的字元。
為了PHP能夠解釋,你必須在這些字元面前後加”,並且將一些字元轉義。
不要忘記在中括號裡面的字元是這條規路的例外—在中括號裡面,所有的特殊字元,包括(”),都將失去他們的特殊性質 “[*+?{}.]”匹配含有這些字元的字串:
還有,正如regx的手冊告訴我們:”如果列表裡含有']',最好把它作為列表裡的第一個字元(可能跟在'^'後面)。如果含有'-',最好把它放在最前面或者最後面
, or 或者一個範圍的第二個結束點[a-d-0-9]中間的‘-'將有效。
看了上面的例子,你對{n,m}應該理解了吧。要注意的是,n和m都不能為負整數,而且n總是小於m。這樣,才能 最少匹配n次且最多匹配m次。如”p{1,5}”將匹配
“pvpppppp”中的前五個p
下面說說以開頭的
b 書上說他是用來匹配一個單詞邊界,就是…比如'veb',可以匹配love裡的ve而不匹配very裡有ve
B 正好和上面的b相反。
正規表示式的其他用法
提取字串
ereg() and eregi() 有一個特性是允許使用者通過正規表示式去提取字串的一部分(具體用法你可以閱讀手冊)。比如說,我們想從 path/URL 提取檔名,下面的代
碼就是你需要:
ereg(”([^\/]*)$”, $pathOrUrl, $regs);
echo $regs[1];
高階的代換
ereg_replace() 和 eregi_replace()也是非常有用的,假如我們想把所有的間隔負號都替換成逗號:
ereg_replace(”[ t]+”, “,”, trim($str));
以下為引用的內容:

preg_match()和preg_match_all() 
preg_quote() 
preg_split() 
preg_grep() 
preg_replace()

函式的具體使用,我們可以通過PHP手冊來找到,下面分享一些平時積累的正規表示式:
匹配action屬性

以下為引用的內容:

$str = ''; 
$match = ''; 
preg_match_all('/s+action="(?!http:)(.*?)"s/', $str, $match); 
print_r($match);

在正則中使用回撥函式

以下為引用的內容:

/** 
* replace some string by callback function 
* 
*/ 
function callback_replace() { 
$url = 'http://esfang.house.sina.com.cn'; 
$str = ''; 
$str = preg_replace ( '/(?<=saction=")(?!http:)(.*?)(?="s)/e', 'search($url, \1)', $str ); 
echo $str; 
} 
function search($url, $match){ 
return $url . '/' . $match; 
}

帶斷言的正則匹配

$match = ''; 
$str = 'xxxxxx.com.cn bold font 
paragraph text 
'; 
preg_match_all ( '/(?<=<(w{1})>).*(?=</1>)/', $str, $match ); 
echo "匹配沒有屬性的HTML標籤中的內容:"; 
print_r ( $match );

替換HTML原始碼中的地址

以下為引用的內容:

$form_html = preg_replace ( '/(?<=saction="|ssrc="|shref=")(?!http:|javascript)(.*?)(?="s)/e', 'add_url($url, '\1')', $form_html );

元字元

在上面的例子中,^ 、d 及 $ 等這些符號,代表了特定的匹配意義,我們稱之為元字元,常用的元字元如下:
元字元 說明
. 匹配除換行符意外的任意字元
w 匹配字母或數字或下劃線
s 匹配任意的空白符
d 匹配數字
b 匹配單詞的開始或結束
^ 匹配字串的開始
$ 匹配字串的結束
[x] 匹配x字元,如匹配字串中的 a、b 和 c 字元
W w的反義,即匹配任意非字母,數字,下劃線和漢字的字元
S s的反義,即匹配任意非空白符的字元
D d的反義,即匹配任意非數字的字元
B b的反義,即不是單詞開頭或結束的位置
[^x] 匹配除了 x 意外的任意字元,如 [^abc] 匹配除了 abc 這幾個字母之外的任意字元

相關文章