1. 正規表示式
正規表示式是一種模板表示式語言
通過定義規則去匹配、查詢、替換、分割一個長字串中特定的子字元資訊。
如在一篇文章中查詢出所有合法的電子郵箱地址,則可以先用正規表示式定義一個電子郵箱規則,然後再使用這個規則在整個字串中查詢。
爬蟲程式一般都會藉助正規表示式定義的規則在爬出來的內容中做精細化篩檢。
正規表示式有自己獨立於其它計算機語言的語法結構,且大部分計算機程式語言都提供有對正規表示式的支援。如 Java、JavaScript、python……
1.1 正規表示式語法
普通字元匹配規則
普通字元指字母、數字、漢字、下劃線、以及沒有特殊定義的標點符號。正規表示式中的普通字元,在匹配一個字串的時候,匹配與之相同的一個字元。
如需在 “This is my love” 中匹配 “love” 子字串,則表示式就是 "love"。
轉義符匹配規則
在正規表示式語法中有很多字元除了其自身意義外,還有語法賦予的特殊意義。如:^、$、?、*……
如在 This is my lo$ve 中匹配出 lo$ve,則表示式不能寫成 lo$ve。預設情況下,正規表示式的語法解析器不會把 $ 其視為其自身含義,而是把它解析成特定的含義(邊界定義)。所以表示式中需使用轉義符 \ 進行轉義。需寫成 lo$ve
另,有些無法輸入的字元也需要通過轉義符進行轉義:
\n | 代表換行符 |
---|---|
\t | 製表符 |
\ | 代表**本身 |
^ ,$,.,(, ) , {,** } , ? , + , * , | ,[,** ] | 匹配這些字元本身 |
標準字符集
如果需要在一個字串中匹配一些具有共同特徵的字元,則可以使用字符集規則,如在一個 Firse 1,Second 2,Three 3……字串中匹配所有數字或所有空格。
\d | 任意一個數字,****0~9 中的任意一個 |
---|---|
\w | 任意一個字母或數字或下劃線,也就是 AZ,az,0~9,_ 中任意一個 |
\s | 包括空格、製表符、換行符等空白字元的其中任意一個 |
. | 小數點可以匹配任意一個字元 |
Tip: 標準字符集是區分大小寫的
大小寫都能描述特定的字元群體,互為相反關係。如 \d 指任意數字,\D 指除了數字之外的其它字元。
自定義字符集合
使用者可以定義自己的字符集合,用來滿足開發時的特定需要,如在 123456789ABaCbDEcdFG 中查詢或匹配奇數和小寫字母。
自定義集合使用 [ ] 來定義。
[ab5@] | 匹配 "a" 或 "b" 或 "5" 或 "@" |
---|---|
[^ abc] | 匹配 a,b,c 之外的任意一個字元 |
[f-k] | 匹配 "f"~"k" 之間的任意一個字母 |
[^A-F0-3] | 匹配 "A""F","0""3" 之外的任意一個字元 |
正規表示式中的特殊符號,如果被包含於中括號中,則失去特殊意義,但 \ [ ] : ^ - 除外。
比如:[\d.-+],將可以匹配數字,小數點和 + - 符號。(小數點和 + 號失去語法賦予的意義)
修飾匹配次數的特殊符號
{n} | **表示式重複 n次 ** |
---|---|
{m,n} | 表示式至少重複 m 次,最多重複 n 次 |
{m,} | 表示式至少重複 m 次 |
? | 匹配表示式 0 次或者 1 次,相當於 {0,1} |
+ | 表示式至少出現 1 次,相當於 {1,} |
* | 表示式不出現或出現任意次,相當於 {0,}** |
- 貪婪模式:匹配字元越多越好
- 非貪婪模式:匹配字元越少越好,需要在修飾匹配次數的特殊符號後再加上一個 "?" 號
正規表示式的語法相對而言較簡單,可以在使用過程中查閱相關文件
2. Python 中使用正規表示式
Python 提供有正規表示式模組,使用時只需要匯入即可。
import re
re 模組中提供了幾個常用方法
- re.match(p,text) 方法:匹配成功則返回一個 Match 匹配物件,匹配不成功則返回一個 None
- re.search(p,text) 方法:在 text 字串中查詢匹配的內容,如果找到則返回第1個匹配的 Match 物件,否則返回None
- re.findall() 方法:在 text 字串中查詢所有匹配的內容。如果找到,返回所有匹配的字串列表。否則,返回None
- re.sub(p,newstr,oldstr,count=0) 方法:替換匹配的子字串。返回值是替換之後的字串
- re.split(p,string,maxsplit=0) 方法: 對字串進行分割。返回值字串列表
2.1 re.match 方法
方法原型說明:
import re
re.match(pattern, string, flags=0)
- pattern 正規表示式
- string 要匹配的字串
- flags 用來控制正規表示式的匹配方式,如是否區分大小寫、多行匹配等
Tip:從字串起始位置匹配,如果從起始位置匹配不了,就返回 none。
案例一:
import re
m = re.match('www', 'www.baidu.com')
print ("結果: ", m)
print ("起始與終點:", m.span())
print ("起始位置:", m.start())
print ("終點位置:", m.end())
輸出結果:
結果: <re.Match object; span=(0, 3), match='www'>
起始與終點: (0, 3)
起始位置: 0
終點位置: 3
案例二:
import re
line = "You are just the person I want to see"
m = re.match(r'(.*) are (.*?) the', line)
print ("結果:", m)
# groups() 返回匹配的字元列表
for res in m.groups():
print(res)
print("匹配上的完整子字串",m.group(0))
# 和 groups() 中的結果一致
print("第一個匹配上的字元:",m.group(1))
print("第一個匹配上的字元:",m.group(2))
2.2 re.search 方法
原型說明:
import re
re.search(pattern, string, flags=0)
Tip: re.search 方法的引數語義和 re.match 方法相同
re.match 方法只能從字串的起始位置進行匹配 ,re.search掃描整個字串並返回第一個成功的匹配。其它的性質則是一樣的。
案例:
import re
m_match = re.match('baidu', 'www.baidu.com')
m_search = re.search('baidu', 'www.baidu.com')
print ("re.match 輸出結果:",m_match)
print ("re.search 輸出結果:",m_search)
輸出結果
re.match 輸出結果: None
re.search 輸出結果: <re.Match object; span=(4, 9), match='baidu'>
2.3 re.findall 方法
原型說明
import re
re.findall(pattern, string, flags=0)
Tip :re.findall 方法的引數說明和 re.search 相同
- re.search 方法匹配到一個結果後便結束
- re.findall 顧名思義,會找到所有符合規則的匹配項,並以列表型別返回
案例:
import re
#返回 Match 型別
re_match = re.match('[0-9]+', '12345 is the first number, 23456 is the sencond')
#返回 Match 型別
re_search = re.search('[0-9]+', 'The first number is 12345, 23456is the sencond')
# #返回列表型別
re_findall = re.findall('[0-9]+', '12345 is the first number,23456 is the sencond')
print ("re.match:",re_match.group())
print ("re_search",re_search.group())
print ("re_findall:",re_findall)
輸出結果:
re.match: 12345
re_search 12345
re_findall: ['12345', '23456']
2.4 re.sub 方法
方法原型說明:
import re
re.sub(pattern, repl, string, count=0, flags=0)
- pattern是正規表示式
- repl是用於替換的新字串
- string是即將被替換的舊字串
- count是要替換的最大數量,預設值為零
import re
p=r'\d+'
text="AB12CD34EF56HK"
replace_text=re.sub(p,' ',text)
print("預設替換所有:",replace_text)
replace_text=re.sub(p,' ',text,count=1)
print("僅替換一次:",replace_text)
replace_text=re.sub(p,' ',text,count=2)
print("僅替換二次:",replace_text)
輸出結果:
預設替換所有: AB CD EF HK
僅替換一次: AB CD34EF56HK
僅替換二次: AB CD EF56HK
2.5 re.split 方法
方法原型說明:
import re
re.split(pattern, string, maxsplit=0, flags=0)
- pattern是正規表示式
- string是要分割的字串
- maxsplit是最大分割次數。預設值為零,表示分割次數沒有限制
案例:
import re
p = r'\d+'
text = 'AB12CD34EF56GH'
lst = re.split(p, text)
print("預設對整個字串進行分割:", lst)
lst = re.split(p, text, maxsplit=1)
print("僅分割一次:", lst)
lst = re.split(p, text, maxsplit=2)
print("分割二次:", lst)
輸出結果
預設對整個字串進行分割: ['AB', 'CD', 'EF', 'GH']
僅分割一次: ['AB', 'CD34EF56GH']
分割二次: ['AB', 'CD', 'EF56GH']
總結
python 提供的 re 模組中有很多方法可藉助正規表示式方便、快捷地完成字串的相關操作,對於爬蟲程式來講正規表示式是其不可忽視的一部分。