python3: 字串和文字(2)

阿里瓜瓜發表於2019-01-29

原文網址 : https://www.cnblogs.com/xiyuan2016/p/10335401.html

6. 字串忽略大小寫的搜尋替換

>>> text = 'UPPER PYTHON, lower python, Mixed Python'
>>> re.findall('python', text, flags=re.IGNORECASE)
['PYTHON', 'python', 'Python']
>>> re.sub('python', 'snake', text, flags=re.IGNORECASE)
'UPPER snake, lower snake, Mixed snake'
>>>

7.最短匹配（？）

Q：你正在試著用正規表示式匹配某個文字模式，但是它找到的是模式的最長可能匹配。而你想修改它變成查詢最短的可能匹配。

S：這個問題一般出現在需要匹配一對分隔符之間的文字的時候(比如引號包含的字串)。為了說明清楚，考慮如下的例子：模式 r'\"(.*)\"' 的意圖是匹配被雙引號包含的文字。(.)匹配除了換行外的任何字元

>>> str_pat = re.compile(r'"(.*)"')
>>> text1 = 'Computer says "no."'
>>> str_pat.findall(text1)
['no.']
>>> text2 = 'Computer says "no." Phone says "yes."'
>>> str_pat.findall(text2)
['no." Phone says "yes.']

第二個例子中搜尋 text2 的時候返回結果並不是我們想要的。

為了修正這個問題，可以在模式中的*操作符後面加上?修飾符，就像這樣：

>>> str_pat = re.compile(r'"(.*?)"')
>>> str_pat.findall(text2)
['no.', 'yes.']
>>>

通過在 * 或者 + 這樣的操作符後面新增一個 ? 可以強制匹配演算法改成尋找最短的可能匹配。

8. 多行匹配模式

Q：你正在試著使用正規表示式去匹配一大塊的文字，而你需要跨越多行去匹配。

S：這個問題很典型的出現在當你用點(.)去匹配任意字元的時候，忘記了點(.)不能匹配換行符的事實。比如，假設你想試著去匹配C語言分割的註釋：

>>> comment = re.compile(r'/\*(.*?)\*/')
>>> text1 = '/* this is a comment */'
>>> text2 = '''/* this is a
... multiline comment */
... '''
>>>
>>> comment.findall(text1)
[' this is a comment ']
>>> comment.findall(text2)
[]
>>>

為了修正這個問題，你可以修改模式字串，增加對換行的支援。比如：

#(?:.|\n) 指定了一個非捕獲組 (也就是它定義了一個僅僅用來做匹配，而不能通過單獨捕獲或者編號的組)
>>> comment = re.compile(r'/\*((?:.|\n)*?)\*/')
>>> comment.findall(text2)
[' this is a\n multiline comment ']
>>>

(?:x)

匹配 'x' 但是不記住匹配項。這種叫作非捕獲括號，使得你能夠定義為與正規表示式運算子一起使用的子表示式。來看示例表示式 /(?:foo){1,2}/。如果表示式是 /foo{1,2}/，{1,2}將只對 ‘foo’ 的最後一個字元 ’o‘ 生效。如果使用非捕獲括號，則{1,2}會匹配整個 ‘foo’ 單詞。

re.compile() 函式接受一個標誌引數叫 re.DOTALL ，在這裡非常有用。它可以讓正規表示式中的點(.)匹配包括換行符在內的任意字元。比如：

>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL)
>>> comment.findall(text2)
[' this is a\n multiline comment ']

9. 將Unicode文字標準化

>>> s1 = 'Spicy Jalape\u00f1o'
>>> s2 = 'Spicy Jalapen\u0303o'
>>> s1
'Spicy Jalapeño'
>>> s2
'Spicy Jalapeño'
>>> s1 == s2
False
>>> len(s1)
14
>>> len(s2)
15


import unicodedata
>>> t1 = unicodedata.normalize('NFC', s1)
>>> t2 = unicodedata.normalize('NFC', s2)
>>> t1 == t2
True
>>> print(ascii(t1))
'Spicy Jalape\xf1o'
>>> t3 = unicodedata.normalize('NFD', s1)
>>> t4 = unicodedata.normalize('NFD', s2)
>>> t3 == t4
True
>>> print(ascii(t3))
'Spicy Jalapen\u0303o'
>>>

NFC表示字元應該是整體組成(比如可能的話就使用單一編碼)，而NFD表示字元應該分解為多個組合字元表示。Python同樣支援擴充套件的標準化形式NFKC和NFKD

10. 在正則式中使用Unicode

re 模組已經對一些Unicode字元類有了基本的支援。比如， \\d 已經匹配任意的unicode數字字元了

混合使用Unicode和正規表示式通常會讓你抓狂。 如果你真的打算這樣做的話，最好考慮下安裝第三方正則式庫， 它們會為Unicode的大小寫轉換和其他大量有趣特性提供全面的支援，包括模糊匹配。

python3: 字串和文字
2019-01-29
Python字串
python3: 字串和文字(3)
2019-01-30
Python字串
python3: 字串和文字(4)
2019-01-31
Python字串
python3 字串
2024-08-15
Python字串
Python3學習筆記-字串和編碼
2018-12-20
Python筆記字串
《Python Cookbook v3.0.0》Chapter2 字串、文字
2021-08-17
PythonAPT字串
python3 列表轉化成字串
2024-10-25
Python字串
windows下相容Python2和Python3
2018-12-05
WindowsPython
Python2和Python3的區別
2021-12-02
Python
python3 將bytes轉為字串
2024-09-02
Python字串
python3 筆記11.字串的切片和支援運算方法
2018-10-18
Python筆記字串
python3 拼接字串的7種方法
2018-07-30
Python字串
Mac OS下 Anaconda Python2 和 Python3 配置
2018-08-09
MacPython
Anaconda快捷搭建Python2和Python3環境
2020-10-07
Python
python3和python2中的filter區別
2019-02-01
PythonFilter
Mac安裝python2和python3，並配置
2020-12-27
MacPython
輸入流和字串互轉InputStream2String和String2InputStream
2024-04-11
字串
Python3 - 用Shell萬用字元匹配字串
2018-12-18
Python字元字串
python3字串垂直輸出教程
2020-12-31
Python字串
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
Swift 4.0 字串擷取,拼接，字串富文字顯示
2018-04-03
Swift字串
Python2 和 Python3 的區別及相容技巧
2018-10-26
Python
range方法在Python2和Python3中的不同
2020-01-06
Python
L2-008 最長對稱子串【最長迴文字串】
2019-03-27
字串
Python開發：Python2和Python3的共存和切換使用
2019-04-12
Python
Python3學習-（基本資料型別-字串）
2018-10-22
Python資料型別字串
python3中怎麼比較字串是否相等
2021-09-11
Python字串
linux中批量替換文字中字串
2018-08-17
Linux字串
Unity效能最佳化——字串和文字
2024-04-25
Unity字串
文字串接問題彙總
2024-11-22
字串
python3 筆記12.字串支援的函式
2018-10-18
Python筆記字串函式
shell(2)永久環境變數和字串顯位
2024-11-16
變數字串
JavaScript 擷取指定長度字串區分漢字和英文字元
2019-10-19
JavaScript字串字元
Python2和Python3有何區別？小白入門必看！
2021-04-20
Python
Python2和Python3的區別?Python入門學習
2021-01-11
Python
PHP中文字串轉陣列
2024-03-26
PHP字串陣列
e語言取文字右邊的字串
2024-05-24
字串
Python3 * 和 ** 運算子
2020-01-11
Python

python3: 字串和文字(2)

6. 字串忽略大小寫的搜尋替換

7.最短匹配（？）

9. 將Unicode文字標準化

10. 在正則式中使用Unicode

相關文章