Python爬蟲學習（4）: python中re模組中的向後引用以及零寬斷言

Amei1314發表於2016-10-19

　　使用小括號的時候，還有很多特定用途的語法。下面列出了最常用的一些：

表4.常用分組語法
分類	程式碼/語法	說明
捕獲	(exp)	匹配exp,並捕獲文字到自動命名的組裡
	(?<name>exp) { python: (?P<name>exp) }	匹配exp,並捕獲文字到名稱為name的組裡，也可以寫成(?'name'exp)
	(?:exp)	匹配exp,不捕獲匹配的文字，也不給此分組分配組號
零寬斷言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp後面的位置
	(?!exp)	匹配後面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
註釋	(?#comment)	這種型別的分組不對正規表示式的處理產生任何影響，用於提供註釋讓人閱讀

1. 後向引用

　　使用小括號指定一個子表示式後，匹配這個子表示式的文字(也就是此分組捕獲的內容)可以在表示式或其它程式中作進一步的處理。預設情況下，每個分組會自動擁有一個組號，規則是：從左向右，以分組的左括號為標誌，第一個出現的分組的組號為1，第二個為2，以此類推。

呃……其實,組號分配還不像我剛說得那麼簡單：

分組0對應整個正規表示式
實際上組號分配過程是要從左向右掃描兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配－－因此所有命名組的組號都大於未命名的組號
你可以使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權．

　　後向引用用於重複搜尋前面某個分組匹配的文字。例如，\1代表分組1匹配的文字。難以理解？請看示例：

　　\b(\w+)\b\s+\1\b可以用來匹配重複的單詞，像go go, 或者kitty kitty。這個表示式首先是一個單詞，也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b)，這個單詞會被捕獲到編號為1的分組中，然後是1個或幾個空白符(\s+)，最後是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

In [65]: pattern = re.compile(r"\b(\w+)\b\s+\1\b")
In [66]: str = "hello go go hello"
In [67]: re.findall(pattern,str)
Out[67]: ['go']

你也可以自己指定子表示式的組名。要指定一個子表示式的組名，請使用這樣的語法：(?<Word>\w+)(或者把尖括號換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容，你可以使用\k<Word>,所以上一個例子也可以寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b。

在python中指定子表示式的格式為： (?P<name>...),向後引用的格式為： (?P=name)，所以上述所說的正規表示式在ptyon中正確表達為： r"\b(?P<word>\w+)\b\s+(?P=word)\b"。例項如下：

In [86]: str = "hello go go hello"
In [87]: pattern = re.compile(r"\b(?P<word>\w+)\b\s+(?P=word)\b")
In [88]: re.findall(pattern,str)
Out[88]: ['go']

2. 零寬斷言

　　接下來的四個用於查詢在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們像\b,^,$那樣用於指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。最好還是拿例子來說明吧：

　　斷言用來宣告一個應該為真的事實。正規表示式中只有當斷言為真時才會繼續進行匹配。

　　(?=exp)也叫零寬度正預測先行斷言，它斷言自身出現的位置的後面能匹配表示式exp。比如\b\w+(?=ing\b)，匹配以ing結尾的單詞的前面部分(除了ing以外的部分)，如查詢I'm singing while you're dancing.時，它會匹配sing和danc。

In [100]: str = "I'm singing while you're dancing."
In [101]: pattern = re.compile(r"\b\w+(?=ing\b)")
In [102]: re.findall(pattern,str)
Out[102]: ['sing', 'danc']

(?<=exp)也叫零寬度正回顧後發斷言(- _ - positive lookbehind assertion)，它斷言自身出現的位置的前面能匹配表示式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分)，例如在查詢reading a book時，它匹配ading。

In [103]: str = "reading a book"
In [104]: pattern = re.compile(r"(?<=\bre)\w+\b")
In [105]: re.findall(pattern,str)
Out[105]: ['ading']

下面這個例子同時使用了這兩種斷言：(?<=\s)\d+(?=\s)匹配以逗號間隔的數字(再次強調，不包括這些逗號)。

In [122]: str = "123,456,789"
In [123]: pattern = re.compile(r"(?<=,)?(\d+)(?=,)?")
In [124]: re.findall(pattern,str)
Out[124]: ['123', '456', '789']

3. 負向零寬斷言

　　前面我們提到過怎麼查詢不是某個字元或不在某個字元類裡的字元的方法(反義)。但是如果我們只是想要確保某個字元沒有出現，但並不想去匹配它時怎麼辦？例如，如果我們想查詢這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣：　\b\w*q[^u]\w*\b，匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳，直接就觀察出來了)，你會發現，如果q出現在單詞的結尾的話，像Iraq,Benq，這個表示式就會出錯。這是因為[^u]總要匹配一個字元，所以如果q是單詞的最後一個字元的話，後面的[^u]將會匹配q後面的單詞分隔符(可能是空格，或者是句號或其它的什麼)，後面的\w*\b將會匹配下一個單詞，於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向零寬斷言能解決這樣的問題，因為它只匹配一個位置，並不消費任何字元。現在，我們可以這樣來解決這個問題：\b\w*q(?!u)\w*\b。

　　零寬度負預測先行斷言(?!exp)，斷言此位置的後面不能匹配表示式exp。例如：\d{3}(?!\d)匹配三位數字，而且這三位數字的後面不能是數字；\b((?!abc)\w)+\b匹配不包含連續字串abc的單詞。

同理，我們可以用(?<!exp),零寬度負回顧後發斷言來斷言此位置的前面不能匹配表示式exp：(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字。

請詳細分析表示式(?<=<(\w+)>).*(?=<\/\1>)，這個表示式最能表現零寬斷言的真正用途。

一個更復雜的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裡的內容。(?<=<(\w+)>)指定了這樣的字首：被尖括號括起來的單詞(比如可能是)，然後是.*(任意的字串),最後是一個字尾(?=<\/\1>)。注意字尾裡的\/，它用到了前面提過的字元轉義；\1則是一個反向引用，引用的正是捕獲的第一組，前面的(\w+)匹配的內容，這樣如果字首實際上是的話，字尾就是了。整個表示式匹配的是和之間的內容(再次提醒，不包括字首和字尾本身)。

　　但是在python中這樣做會報 look-behind requires fixed-width pattern 的錯誤，以也就是在負向零寬斷言中不能有不確定長度的表示式：

In [128]: str = "<span> hello world </span>"

In [129]: pattern = re.compile(r"(?<=(<\w+>))(.*)(?=<\/\1>)")
---------------------------------------------------------------------------
error                                     Traceback (most recent call last)
......
error: look-behind requires fixed-width pattern

　　為了能夠正確匹配需要將\w+改為\w{4}

In [130]: pattern = re.compile(r"(?<=<(\w{4})>)(.*)(?=<\/\1>)")
In [131]: re.findall(pattern,str)
Out[131]: [('span', ' hello world ')]

參考學習地址： http://deerchao.net/tutorials/regex/regex.htm　　

【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
Python中爬蟲框架或模組的區別！
2021-04-30
Python爬蟲框架
Python中爬蟲框架或模組的區別
2021-04-07
Python爬蟲框架
Python爬蟲系統化學習(4)
2021-03-01
Python爬蟲
學習C語言還是學習Python爬蟲?
2020-11-23
C語言Python爬蟲
python爬蟲學習1
2020-11-29
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python案例學習——模組和包、爬蟲的基礎概念
2020-12-27
Python爬蟲
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
python爬蟲requests模組
2019-03-01
Python爬蟲
Python模組學習： re 正規表示式
2015-05-30
Python
python 在pycharm中爬蟲
2017-09-22
PythonPyCharm爬蟲
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
python中re模組的使用（正規表示式）
2021-01-17
Python
Python中爬蟲模組有哪些?優缺點介紹！
2021-04-21
Python爬蟲
Python爬蟲學習系列教程
2015-07-12
Python爬蟲
Python中斷言assert
2018-01-02
Python
python模組-re模組
2014-05-15
Python
python 代理在爬蟲中的作用
2020-10-18
Python爬蟲
Python爬蟲之路-lxml模組
2021-01-04
Python爬蟲XML
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
Python學習之如何引用Python自定義模組?
2021-01-08
Python
Python爬蟲學習（5）: 簡單的爬取
2016-10-20
Python爬蟲
Python零基礎爬蟲教學（實戰案例手把手Python爬蟲教學）
2020-04-17
Python爬蟲
python爬蟲的最佳實踐(六)--爬蟲中的多程式
2016-05-05
Python爬蟲
Python Re模組
2017-10-23
Python
python開發學習之如何更好的引用Python模組?
2019-11-21
Python
Python中的包模組引用成員的方法
2024-02-07
Python
Python爬蟲— 1.4 正規表示式：re庫
2019-02-28
Python爬蟲
python爬蟲之re正規表示式庫
2017-06-14
Python爬蟲
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
Python爬蟲學習（2）： httplib
2016-10-17
Python爬蟲HTTP
Python 爬蟲 (六) -- Scrapy 框架學習
2017-08-28
Python爬蟲框架
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記

Python爬蟲學習（4）: python中re模組中的向後引用以及零寬斷言

1. 後向引用

2. 零寬斷言

3. 負向零寬斷言

相關文章