正規表示式學習教程之回溯引用backreference詳解

技術之光發表於2022-03-16

本文例項講述了正規表示式回溯引用backreference。分享給大家供大家參考,具體如下:

在所有例子中正規表示式匹配結果包含在源文字中的【和】之間,有的例子會使用Java來實現,如果是java本身正規表示式的用法,會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、問題引入

一個在HTML頁面中匹配標題標籤(H1—H6)的問題:

文字:

<body>
<h1>Welcome to my page</H1>
Content is divided into twosections:<br>
<h2>Introduction</h2>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h2>This is invalid HTML</h3>
</body>

正規表示式: <[hH][1-6]>.*?</[hH][1-6]>

結果:

<body>
【<h1>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h2>Introduction</h2>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
【<h2>This is invalid HTML</h3>】
</body>

分析:模式<[hH][1-6]>匹配任何一級標題的開始標籤,而且不區分大小寫,在這個例子中它匹配到了<h1>、<h2>,</[hH][1-6]>匹配到了</h1>、</h2>、</h3>;這裡使用了懶惰型元字元來匹配標籤中的文字,否則會匹配到從第一個開始標籤到最後一下結束標籤之間的內容。但是從結果可以看出,有一個無效的標籤也匹配上了,即<h2></h3>,它們根本不能配對。要解決這個問題,就需要使用到回溯引用(backreference)。

二、回溯引用匹配

回溯引用是指模式的後半部分引用在前半部分中定義的子表示式。至於子表示式的使用、劃分和引用,在前面已經介紹過了。現在來解決前面的例子:

文字:

<body>
<h1>Welcome to my page</H1>
Content is divided into twosections:<br>
<h2>Introduction</h2>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h2>This is invalid HTML</h3>
</body>

正規表示式: <[hH]([1-6])>.*?</[hH]\1>

結果:

<body>
【<h1>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h2>Introduction</h2>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
<h2>This is invalid HTML</h3>

分析:首先匹配開始標題標籤的模式<[hH]([1-6])>,使用括號把[1-6]做為子表示式,而匹配結束標題標籤模式為</[hH]\1>,其中\1表示引用第一個子表示式,即([1-6]),如果([1-6])匹配到的是1,那\1也匹配到1,如果匹配到2,那\1也匹配到2,所以最後一個無效的標題標籤就不會被匹配到了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015103/viewspace-2871363/,如需轉載,請註明出處,否則將追究法律責任。

相關文章