正則?=用法

風靈使發表於2018-08-03

文字:

<br/>您好,非常好,很開心認識你
<br/><a target=_blank href="www.baidu.com">百度一下</a>百度才知道
<br/><a target=_blank href="/view/fafa.htm">發發</ a>最佳帥哥
<br/><a target=_blank href="/view/lili.htm">麗麗</ a>最佳美女
<br/>

方法1: 匹配,捕獲(儲存)

正規表示式:(?<=(href=")).{1,200}(?=(">))

解釋:
(?<=(href=")) 表示 匹配以(href=")開頭的字串,並且捕獲(儲存)到分組中

(?=(">)) 表示 匹配以(">)結尾的字串,並且捕獲(儲存)到分組中

匹配結果:
這裡寫圖片描述

方法2: 匹配,不捕獲(不儲存)

正規表示式:(?<=(?:href=")).{1,200}(?=(?:">))

解釋:
(?<=(?:href=")) 表示 匹配以(href=")開頭的字串,並且不捕獲(不儲存)到分組中

(?=(?:">)) 表示 匹配以(">)結尾的字串,並且不捕獲(不儲存)到分組中

匹配結果:
這裡寫圖片描述

表示式 說明
(?:pattern) 非獲取匹配,匹配pattern但不獲取匹配結果,不進行儲存供以後使用。這在使用或字元(|)來組合一個模式的各個部分是很有用。例如industr(?:y|ies)就是一個比industry|industries更簡略的表示式。
(?=pattern) 非獲取匹配,正向肯定預查,在任何匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如,Windows(?=95|98|NT|2000)能匹配Windows2000中的Windows,但不能匹配Windows3.1中的Windows。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。
(?!pattern) 非獲取匹配,正向否定預查,在任何不匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如Windows(?!95|98|NT|2000)能匹配Windows3.1中的Windows,但不能匹配Windows2000中的Windows
(?<=pattern) 非獲取匹配,反向肯定預查,與正向肯定預查類似,只是方向相反。例如,(?<=95|98|NT|2000)Windows能匹配2000Windows中的Windows,但不能匹配3.1Windows中的Windows
(?<!pattern) 非獲取匹配,反向否定預查,與正向否定預查類似,只是方向相反。例如(?<!95|98|NT|2000)Windows能匹配3.1Windows中的Windows,但不能匹配2000Windows中的Windows。這個地方不正確,有問題

一.概念

【分組】
我們已經提到了怎麼重複單個字元(直接在字元後面加上限定符就行了);但如果想要重複一個字串又該怎麼辦?你可以用小括號來指定子表示式(也叫做分組),然後你就可以指定這個子表示式的重複次數了,你也可以對子表示式進行其它一些操作(後面會有介紹)。(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表示式。要理解這個表示式,請按下列順序分析它:

\d{1,3}匹配1到3位的數字,(\d{1,3}\.}{3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})

不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個數字都不能大於255)。如果能使用算術比較的話,或許能簡單地解決這個問題,但是正規表示式中並不提供關於數學的任何功能,所以只能使用冗長的分組,選擇,字元類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

理解這個表示式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裡我就不細說了,你自己應該能分析得出來它的意義。

【後向引用】
使用小括號指定一個子表示式後,匹配這個子表示式的文字可以在表示式或其它程式中作進一步的處理。預設情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標誌,第一個出現的分組的組號為1,第二個為2,以此類推。

後向引用用於重複搜尋前面某個分組匹配的文字。例如,\1代表分組1匹配的文字。難以理解?請看示例:

\b(\w+)\b\s+\1\b可以用來匹配重複的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),然後是1個或幾個空白符(\s+),最後是前面匹配的那個單詞(\1)

你也可以自己指定子表示式的組名。要指定一個子表示式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成’也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b

使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:

分組語法 捕獲
(exp) 匹配exp,並捕獲文字到自動命名的組裡
(?<name>exp) 匹配exp,並捕獲文字到名稱為name的組裡,也可以寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文字
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋
(?#comment) 這種型別的組不對正規表示式的處理產生任何影響,只是為了提供讓人閱讀註釋

我們已經討論了前兩種語法。第三個(?:exp)不會改變正規表示式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裡面。

位置指定
接下來的四個用於查詢在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們用於指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

(?=exp)也叫零寬先行斷言,它匹配文字中的某些位置,這些位置的後面能匹配給定的字尾exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在查詢I’m singing while you’re dancing.時,它會匹配sing和danc。

(?<=exp)也叫零寬後行斷言,它匹配文字中的某些位置,這些位置的前面能給定的字首匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分),例如在查詢reading a book時,它匹配ading

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查詢需要在前面和裡面新增逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表示式,它可能不像你第一眼看出來的那麼簡單。

下面這個例子同時使用了字首和字尾:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。

負向位置指定
前面我們提到過怎麼查詢不是某個字元或不在某個字元類裡的字元的方法(反義)。但是如果我們只是想要確保某個字元沒有出現,但並不想去匹配它時怎麼辦?例如,如果我們想查詢這樣的單詞–它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣:

\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表示式就會出錯。這是因為[^u]總是匹配一個字元,所以如果q是單詞的最後一個字元的話,後面的[^u]將會匹配q後面的單詞分隔符(可能是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,並不消費任何字元。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b

零寬負向先行斷言(?!exp),只會匹配字尾exp不存在的位置。\d{3}(?!\d)匹配三位數字,而且這三位數字的後面不能是數字。

同理,我們可以用(?<!exp),零寬負向後行斷言來查詢字首exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的“區分大小寫”先項是否選中)。

一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裡的內容。(<?(\w+)>)指定了這樣的字首:被尖括號括起來的單詞(比如可能是<b>),然後是.*(任意的字串),最後是一個字尾(?=<\/\1>)。注意字尾裡的\/,它用到了前面提過的字元轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果字首實際上是<b>的話,字尾就是</b>了。整個表示式匹配的是<b></b>之間的內容(再次提醒,不包括字首和字尾本身)。

二.實際運用

現在網路上現在很流行的爬蟲程式,其實就是根據正規表示式來對網頁進行解析匹配獲取有用資訊分組並儲存下來的.
像網頁上最多的就是像<table>,<tr>,<td>之類的標籤,而相對於我們使用者而言,這些都是沒有任意意義的,有意義的是其中所包含的值.如<a href="http://www.163.com">網易</a>我所所關心的就是其href屬性當中的值,還有就是其文字結點的值.其它的對於我們來說沒有任何意義.這就要運用到我們所說的正確表示式匹配了.
不過如果我們只是針對取某一個標籤的結點值,我們可以通過javascript+DOM方法把他們取出來,不過要是不是一類而是要求全部內空當中去取,那樣用DOM動態解析的方式就顯著有時不好用了.
下同說一個我運用的例項吧
我有一個頁面:

<p> 11-13   <a   href=/bj/11/109/4969873.html   target=_blank> 中介   -   3400元/3居   -   紫竹橋兵器大廈附近大三居   (紫竹院)   </a>
<p> 11-13   <a   href=/bj/11/104/4969872.html   target=_blank> 1200元/3居   -   出租上地三居室合住(免中介費)   (上地)   </a>
<p> 11-13   <a   href=/bj/11/114/4969866.html   target=_blank> 中介   -   2600元/2居   -   北太平莊43號院二居出租   (北太平莊)   </a>
<p> 11-13   <a   href=/bj/11/914/4969865.html   target=_blank> 400元/1居   -   單間獨立衛浴免供暖費   (北七家)   </a>
<p> 11-13   <a   href=/bj/11/301/4969864.html   target=_blank> 中介   -   2400元/2居   -   東直門春秀路太平莊南里二居室出租   (東直門外三里屯工人體育館)   </a>
<p> 11-13   <a   href=/bj/11/208/4969863.html   target=_blank> 中介   -   2400元/4居   -   出租定福家園新房四居室   (團結湖)   </a>
<p> 11-13   <a   href=/bj/11/214/4969862.html   target=_blank> 中介   -   2600元/3居   -   花家地北里三室一廳出租   (酒仙橋 將臺路)   </a>
<p> 11-13   <a   href=/bj/11/209/4969859.html   target=_blank> 1300元/1居   -   十里堡華堂附近新公寓合租   (京廣橋 紅廟 八里莊)   </a>
<p> 11-13   <a   href=/bj/11/70/4969846.html   target=_blank> 中介   -   600元/3居   -   出租豐益橋西盛鑫家園4室2廳2衛精裝修的房子(免收中介費   (豐益橋西盛鑫家園)   </a>
<p> 11-13   <a   href=/bj/11/901/4969844.html   target=_blank> 750元/3居   -   田園風光雅園3居中的一居室出租   (回龍觀)   </a>
<p> 11-13   <a   href=/bj/11/1101/4969840.html   target=_blank> 350元/1居   -   找一女孩跟我合租   (亦莊)   </a>
<p> 11-13   <a   href=/bj/11/102/4969839.html   target=_blank> 中介   -   3400元/3居   -   出租知春裡小區三居室   (北京大學)   </a>
<p> 11-13   <a   href=/bj/11/217/4969838.html   target=_blank> 1100元/3居   -   雙井橋 三居 出租 (新裝修的)合租   (雙井)   </a>
<p> 11-13   <a   href=/bj/11/70/4969837.html   target=_blank> 中介   -   3500元/3居   -   豐臺區兆豐園精裝修房子一套低價出租   (玉泉路 吳家村)   </a>
<p> 11-13   <a   href=/bj/11/70/4969835.html   target=_blank> 中介   -   2900元/3居   -   我有一套長安新城精裝修的三居室要出租   (青塔 大成路 長安新城)   </a>
<p> 11-13   <a   href=/bj/11/201/4969834.html   target=_blank> 中介   -   2200元/1居   -   房屋出租,北辰附近   (亞運村)   </a>

我現在要取出其中的連結和相應的關鍵描述字元,即從類似

<p> 11-13 <a href=/bj/11/70/4969837.html target=_blank> 中介   -   3500元/3居   -   豐臺區兆豐園精裝修房子一套低價出租   (玉泉路 吳家村)</a>

中取出我們想要的資訊,第一就是連結地址:/bj/11/70/496837.html;
第二就是其描述資訊:中介 - 3500元/3居 - 豐臺區兆豐園精裝修房子一套低價出租 (玉泉路 吳家村)

現在我們來分析下我們所取字元的共同特徵,簡單總結一下分為以下幾個部分
1.他們都是以<a href=打頭,以</a>結尾.
2.在href屬性之後有可能還有其他的屬性標籤,如class,等其它相關的屬性.
方向確定我們就可以確定著手寫正則式了
首先滿足第一條件頭就為<a\s+href=;就是這樣,很簡單吧,同樣,末尾為</a>也可以直接寫
應該說現在已經可以正常匹配了,不過他匹配了一個整個的<a>標籤,不是我們所想要的,我們只是想要其中的部分
所以還需要繼續修改,因為我們要在一個標籤中去取兩個部分,一個連結和描述文字,其最好的方法就是把他們放在一個分組當中,待我們使用時可以直接使用,關於建立分組,前面的資料說的很清楚.為了直觀,我們採用自定義分組,即(?<分組名>)格式
一起組織起來就成了我們想要的.

(?<=<a\s+href=(?<link>.*?(?=\starget=)).*?>(?<content>.*?)(?=</a>)

因為時間的關係,其中分析過程略的較多,不過具體大體思路就像如上所說.只不過具體的問題具體分析.