正規表示式裡字串”不包含”匹配技巧
經常我們會遇到想找出不包含某個字串的文字,程式設計師最容易想到的是在正規表示式裡使用,^(hede)來過濾”hede”字串,但這種寫法是錯誤的。我們可以這樣寫:[^hede],但這樣的正規表示式完全是另外一個意思,它的意思是字串裡不能包含‘h’,‘e’,‘d’三個但字元。那什麼樣的正規表示式能過濾出不包含完整“hello”字串的資訊呢?
事實上,說正規表示式裡不支援逆向匹配並不是百分之百的正確。就像這個問題,我們就可以使用否定式查詢來模擬出逆向匹配,從而解決我們的問題:
^((?!hede).)*$
上面這個表示式就能過濾出不包含‘hede’字串的資訊。我上面也說了,這種寫法並不是正規表示式“擅長”的用法,但它是可以這樣用的。
解釋
一個字串是由n個字元組成的。在每個字元之前和之後,都有一個空字元。這樣,一個由n個字元組成的字串就有n+1個空字串。我們來看一下“ABhedeCD”這個字串:
+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+ S = |e1| A |e2| B |e3| h |e4| e |e5| d |e6| e |e7| C |e8| D |e9| +--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+ index 0 1 2 3 4 5 6 7
所有的e編號的位置都是空字元。表示式(?!hede).會往前查詢,看看前面是不是沒有“hede”字串,如果沒有(是其它字元),那麼.(點號)就會匹配這些其它字元。這種正規表示式的“查詢”也叫做“zero-width-assertions”(零寬度斷言),因為它不會捕獲任何的字元,只是判斷。
在上面的例子裡,每個空字元都會檢查其前面的字串是否不是‘hede’,如果不是,這.(點號)就是匹配捕捉這個字元。表示式(?!hede).只執行一次,所以,我們將這個表示式用括號包裹成組(group),然後用*(星號)修飾——匹配0次或多次:((?!hede).)*。
你可以理解,正規表示式((?!hede).)*匹配字串"ABhedeCD"的結果false,因為在e3位置,(?!hede)匹配不合格,它之前有"hede"字串,也就是包含了指定的字串。
在正規表示式裡, ?! 是否定式向前查詢,它幫我們解決了字串“不包含”匹配的問題。
英文原文:Regular expression to match string not containing a word?
相關文章
- 匹配不包含字母的字串的正規表示式字串
- 正規表示式如何匹配不包含指定字元的字串字元字串
- 字串——正規表示式匹配字串
- 使用正規表示式找出所有不包含某字串的行字串
- 演算法之字串——正規表示式匹配演算法字串
- 匹配雙位元組字串的正規表示式字串
- 正規表示式匹配原理
- [譯]正規表示式匹配
- iOS正規表示式匹配iOS
- Python正規表示式匹配字串中的數字Python字串
- 正規表示式支配匹配模式模式
- JavaScript匹配中文正規表示式JavaScript
- 模式匹配與正規表示式模式
- Swift 正規表示式匹配NSRegularExpressionSwiftExpress
- python 正規表示式匹配Python
- Java使用正規表示式判斷字串中是否包含某子字串Java字串
- 正規表示式:後面不要包含指定的字串內容字串
- 匹配html標籤正規表示式HTML
- 匹配空白字元正規表示式字元
- 匹配 XML 檔案正規表示式XML
- 匹配 HTML 標籤正規表示式HTML
- leetcode - 正規表示式匹配LeetCode
- 匹配空行正規表示式程式碼
- 常用正規表示式匹配模式(java)模式Java
- JavaScript匹配註釋正規表示式JavaScript
- 用正規表示式提取字串中的字元(包含數字)字串字元
- 第七章——字串(簡單的正規表示式匹配器)字串
- [JavaScript] 正規表示式單次匹配與多次匹配JavaScript
- javascript正規表示式小技巧JavaScript
- 【正規表示式】常用的正規表示式(數字,漢字,字串,金額等的正規表示式)字串
- sql裡的正規表示式SQL
- 匹配iphone手機序列正規表示式iPhone
- 匹配HTML註釋的正規表示式HTML
- 匹配A股程式碼的正規表示式
- 正規表示式匹配標點符號符號
- 匹配HTML標籤的正規表示式HTML
- 正規表示式匹配雙位元組字元字元
- js正規表示式如何匹配註釋JS