Python爬蟲學習(4): python中re模組中的向後引用以及零寬斷言

Amei1314發表於2016-10-19

  使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:

表4.常用分組語法
分類程式碼/語法說明
捕獲 (exp) 匹配exp,並捕獲文字到自動命名的組裡

(?<name>exp) 

{ python:  (?P<name>exp) }

匹配exp,並捕獲文字到名稱為name的組裡,也可以寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文字,也不給此分組分配組號
零寬斷言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋 (?#comment) 這種型別的分組不對正規表示式的處理產生任何影響,用於提供註釋讓人閱讀

 

1. 後向引用

  使用小括號指定一個子表示式後,匹配這個子表示式的文字(也就是此分組捕獲的內容)可以在表示式或其它程式中作進一步的處理。預設情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標誌,第一個出現的分組的組號為1,第二個為2,以此類推。

呃……其實,組號分配還不像我剛說得那麼簡單:

  • 分組0對應整個正規表示式
  • 實際上組號分配過程是要從左向右掃描兩遍的:第一遍只給未命名組分配,第二遍只給命名組分配--因此所有命名組的組號都大於未命名的組號
  • 你可以使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權.

  後向引用用於重複搜尋前面某個分組匹配的文字。例如,\1代表分組1匹配的文字。難以理解?請看示例:

  \b(\w+)\b\s+\1\b可以用來匹配重複的單詞,像go go, 或者kitty kitty。這個表示式首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),這個單詞會被捕獲到編號為1的分組中,然後是1個或幾個空白符(\s+),最後是分組1中捕獲的內容(也就是前面匹配的那個單詞)(\1)。

In [65]: pattern = re.compile(r"\b(\w+)\b\s+\1\b")
In [66]: str = "hello go go hello"
In [67]: re.findall(pattern,str)
Out[67]: ['go']

  你也可以自己指定子表示式的組名。要指定一個子表示式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。

  在python中指定子表示式的格式為: (?P<name>...),向後引用的格式為: (?P=name),所以上述所說的正規表示式在ptyon中正確表達為: r"\b(?P<word>\w+)\b\s+(?P=word)\b"。例項如下:

In [86]: str = "hello go go hello"
In [87]: pattern = re.compile(r"\b(?P<word>\w+)\b\s+(?P=word)\b")
In [88]: re.findall(pattern,str)
Out[88]: ['go']

 

2. 零寬斷言

  接下來的四個用於查詢在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們像\b,^,$那樣用於指定一個位置,這個位置應該滿足一定的條件(即斷言),因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

  斷言用來宣告一個應該為真的事實。正規表示式中只有當斷言為真時才會繼續進行匹配。

  (?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的後面能匹配表示式exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如查詢I'm singing while you're dancing.時,它會匹配sing和danc。

In [100]: str = "I'm singing while you're dancing."
In [101]: pattern = re.compile(r"\b\w+(?=ing\b)")
In [102]: re.findall(pattern,str)
Out[102]: ['sing', 'danc']

  (?<=exp)也叫零寬度正回顧後發斷言(- _ - positive lookbehind assertion),它斷言自身出現的位置的前面能匹配表示式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分),例如在查詢reading a book時,它匹配ading。

In [103]: str = "reading a book"
In [104]: pattern = re.compile(r"(?<=\bre)\w+\b")
In [105]: re.findall(pattern,str)
Out[105]: ['ading']

  下面這個例子同時使用了這兩種斷言:(?<=\s)\d+(?=\s)匹配以逗號間隔的數字(再次強調,不包括這些逗號)。

In [122]: str = "123,456,789"
In [123]: pattern = re.compile(r"(?<=,)?(\d+)(?=,)?")
In [124]: re.findall(pattern,str)
Out[124]: ['123', '456', '789']

3. 負向零寬斷言

  前面我們提到過怎麼查詢不是某個字元或不在某個字元類裡的字元的方法(反義)。但是如果我們只是想要確保某個字元沒有出現,但並不想去匹配它時怎麼辦?例如,如果我們想查詢這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣: \b\w*q[^u]\w*\b,匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表示式就會出錯。這是因為[^u]總要匹配一個字元,所以如果q是單詞的最後一個字元的話,後面的[^u]將會匹配q後面的單詞分隔符(可能是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向零寬斷言能解決這樣的問題,因為它只匹配一個位置,並不消費任何字元。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。

  零寬度負預測先行斷言(?!exp),斷言此位置的後面不能匹配表示式exp。例如:\d{3}(?!\d)匹配三位數字,而且這三位數字的後面不能是數字;\b((?!abc)\w)+\b匹配不包含連續字串abc的單詞。

同理,我們可以用(?<!exp),零寬度負回顧後發斷言來斷言此位置的前面不能匹配表示式exp:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字。

  請詳細分析表示式(?<=<(\w+)>).*(?=<\/\1>),這個表示式最能表現零寬斷言的真正用途。

  一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裡的內容。(?<=<(\w+)>)指定了這樣的字首:被尖括號括起來的單詞(比如可能是<span>),然後是.*(任意的字串),最後是一個字尾(?=<\/\1>)。注意字尾裡的\/,它用到了前面提過的字元轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果字首實際上是<span>的話,字尾就是</span>了。整個表示式匹配的是<span>和</span>之間的內容(再次提醒,不包括字首和字尾本身)。

  但是在python中這樣做會報 look-behind requires fixed-width pattern 的錯誤,以也就是在負向零寬斷言中不能有不確定長度的表示式:

In [128]: str = "<span> hello world </span>"

In [129]: pattern = re.compile(r"(?<=(<\w+>))(.*)(?=<\/\1>)")
---------------------------------------------------------------------------
error                                     Traceback (most recent call last)
......
error: look-behind requires fixed-width pattern

  為了能夠正確匹配需要將\w+改為\w{4}

In [130]: pattern = re.compile(r"(?<=<(\w{4})>)(.*)(?=<\/\1>)")
In [131]: re.findall(pattern,str)
Out[131]: [('span', ' hello world ')]

 

參考學習地址: http://deerchao.net/tutorials/regex/regex.htm  

相關文章