Python——正規表示式

yucheng1998發表於2019-08-05

原文網址 : https://juejin.im/post/5d4830c7f265da03925a2c53

Python

序言

字串是程式設計時涉及到的最多的一種資料結構，對字串進行操作的需求幾乎無處不在。

正規表示式是一種用來匹配字串的強有力的武器。它的設計思想是用一種描述性的語言來給字串定義一個規則，凡是符合規則的字串，我們就認為它“匹配”了，否則，不匹配。

所以我們判斷一個字串是否是合法的Email的方法是：

建立一個匹配Email的正規表示式；
用該正規表示式去匹配使用者的輸入來判斷是否合法。

基礎知識

我們要首先了解如何用字元來描述字元。

\d可以匹配一個數字
\w可以匹配一個字母或數字
\s可以匹配一個空格（也包括Tab等空白符）
.可以匹配任意字元
如果匹配特殊字元例如‘-’等，需要在前面新增‘ \’轉義

'00\d'可以匹配'007'，但無法匹配'00A'；

'\d\d\d'可以匹配'010'；

'\w\w\d'可以匹配'py3'； 'py.'可以匹配'pyc'、'pyo'、'py!'

匹配變長的字串 在正規表示式中：

用*表示任意個字元（包括0個）
用+表示至少一個字元
用?表示0個或1個字元
用{n}表示n個字元
用{n,m}表示n-m個字元

下面看一個例子：\d{3}\s+\d{3,8}

\d{3}表示匹配3個數字，例如110
\w+表示至少匹配一個空格，例如‘ ’
\d{3,8}表示3-8個數字，例如12345678

如果要精確匹配 可以用[]表示範圍，比如：

[0-9a-zA-Z\_]可以匹配一個數字、字母或者下劃線；
[0-9a-zA-Z\_]+可以匹配至少由一個數字、字母或者下劃線組成的字串，比如'a100'，'0_Z'，'Py3000'等等；
[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下劃線開頭，後接任意個由一個數字、字母或者下劃線組成的字串，也就是Python合法的變數；
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精確地限制了變數的長度是1-20個字元（前面1個字元+後面最多19個字元）。

A|B可以匹配A或B，所以(P|p)ython可以匹配'Python'或者'python'。

^表示行的開頭，^\d表示必須以數字開頭。

$表示行的結束，\d$表示必須以數字結束。

^abc$就可知表示整行匹配‘abc’

re模組

Python提供re模組，包含所有正規表示式的功能。由於Python的字串本身也用\轉義，所以要特別注意：

s = 'ABC\\-001' # Python的字串
# 對應的正規表示式字串變成：
# 'ABC\-001'
複製程式碼

強烈建議使用Python的r字首，就不用考慮轉義的問題了：

s = r'ABC\-001' # Python的字串
# 對應的正規表示式字串不變：
# 'ABC\-001'
複製程式碼

這裡說的字串時要進行匹配的字串 match()方法判斷是否匹配，如果匹配成功，返回一個Match物件，否則返回None。常見的判斷方法就是：

test =r '使用者輸入的字串'
if re.match(r'正規表示式', test):
    print('ok')
else:
    print('failed')
複製程式碼

例：

import re

s = r'123-12345'
if re.match(r'\d{3}-\d{3,8}$', s):
    print("成功")
else:
    print("失敗")
複製程式碼

正規表示式切分字串

正常的切分程式碼：

print( 'a b   c'.split(' ')) #['a', 'b', '', '', 'c']

複製程式碼

無法識別連續的空格，若用正規表示式：

import re

print(re.split(r'\s+', 'a b   c')) #['a', 'b', 'c']
複製程式碼

無論多少個空格都可以正常分割。加入,試試：

import re

print(re.split(r'[\s\,]+', 'a,b, c  d')) #['a', 'b', 'c', 'd']

複製程式碼

正規表示式提取子串

用()表示的就是要提取的分組（Group）。比如：

^(\d{3})-(\d{3,8})$分別定義了兩個組：

import re

m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
print(m.group(0)) #010-12345
print(m.group(1)) #010
print(m.group(2)) #12345

複製程式碼

如果正規表示式中定義了組，就可以在Match物件上用group()方法提取出子串來。

注意到group(0)永遠是原始字串，group(1)、group(2)……表示第1、2、……個子串。

貪婪匹配

正則匹配預設是貪婪匹配，也就是匹配儘可能多的字元。舉例如下，匹配出數字後面的0：

import re

print(re.match(r'^(\d+)(0*)$', '102300').groups())
#('102300', '')

複製程式碼

由於\d+採用貪婪匹配，直接把後面的0全部匹配了，結果0*只能匹配空字串了。

必須讓\d+採用非貪婪匹配（也就是儘可能少匹配），才能把後面的0匹配出來，加個?就可以讓\d+採用非貪婪匹配

正規表示式的使用

當我們在Python中使用正規表示式時，re模組內部會幹兩件事情：

編譯正規表示式，如果正規表示式的字串本身不合法，會報錯；
用編譯後的正規表示式去匹配字串。如果一個正規表示式要重複使用幾千次，出於效率的考慮，我們可以預編譯(使用compile() 方法)該正規表示式，接下來重複使用時就不需要編譯這個步驟了，直接匹配：

import re
#預編譯
m = re.compile(r'^(\d+)(0*)$')
#使用
print(m.match(r'102300').groups())
複製程式碼

python正規表示式
2024-06-15
Python
Python 正規表示式
2021-09-09
Python
Python：正規表示式
2021-04-22
Python
python之正規表示式
2018-08-11
Python
python 正規表示式匹配
2024-04-19
Python
Python正規表示式手稿
2020-04-04
Python
Python正規表示式大全
2020-11-26
Python
Python正規表示式詳解
2023-11-24
Python
Python 正規表示式（RegEx）指南
2023-11-02
Python
詳解 Python 正規表示式
2020-11-20
Python
正規表示式（python3）
2021-03-11
Python
Python 正規表示式 re 模組
2018-10-12
Python
python re模組正規表示式
2018-09-12
Python
Python-day-15-正規表示式
2018-08-03
Python
Python 之 RE（正規表示式）常用
2020-03-16
Python
python正規表示式(re模組)
2020-08-08
Python
python 關於正規表示式re
2020-04-21
Python
Python基礎之正規表示式
2024-06-30
Python
Python正規表示式初識（四）
2021-09-09
Python
python基礎操作——正規表示式
2023-04-10
Python
python正規表示式（簡明版）
2020-12-19
Python
正規表示式
2024-10-30
正規表示式.
2019-11-10
Python正規表示式 findall函式詳解
2018-03-20
Python函式
Python 正規表示式模組詳解
2018-11-02
Python
Python學習筆記 - 正規表示式
2019-01-16
Python筆記
python正規表示式小例幾則
2018-08-09
Python
Python筆記五之正規表示式
2024-02-25
Python筆記
python爬蟲正規表示式詳解
2024-11-25
Python爬蟲
Python正規表示式提取車牌號
2024-08-22
Python
python正規表示式問號的使用
2021-09-11
Python
【正規表示式】常用的正規表示式（數字，漢字，字串，金額等的正規表示式）
2021-12-13
字串
Python學習筆記|Python之正規表示式
2018-12-18
Python筆記
php –正規表示式
2019-02-16
PHP
【Linux】正規表示式
2018-10-18
Linux
【JavaScript】正規表示式
2019-03-02
JavaScript
URL正規表示式
2019-04-11
正規表示式 split()
2018-09-07