C++ 11 中正規表示式使用示例及原始碼分析

我是一隻C++小小鳥發表於2015-10-05

正規表示式Regex(regular expression)是一種強大的描述字元序列的工具。在許多語言中都存在著正規表示式，C++11中也將正規表示式納入了新標準的一部分，不僅如此，它還支援了6種不同的正規表示式的語法，分別是：ECMASCRIPT、basic、extended、awk、grep和egrep。其中ECMASCRIPT是預設的語法，具體使用哪種語法我們可以在構造正規表示式的時候指定。

注：ECMAScript是一種由Ecma國際（前身為歐洲計算機制造商協會,英文名稱是European Computer Manufacturers Association）通過ECMA-262標準化的指令碼程式設計語言。它往往被稱為JavaScript，但實際上後者是ECMA-262標準的實現和擴充套件。

下面我們就以本篇部落格的頁面（http://www.cnblogs.com/ittinybird/p/4853532.html）原始碼為例，從零開始演示如何在C++中使用正規表示式提取一個網頁原始碼中所有可用的http連結。如果有時間的話，近期我想用C++11的新特性，改寫一下以前的C++爬蟲程式，分享出來。

確保你的編譯器支援Regex

如果你的編譯器是GCC-4.9.0或者VS2013以下版本，請升級後，再使用。我之前使用的C++編譯器，是GCC 4.8.3，有regex標頭檔案，但是GCC很不厚道的沒有實現，語法完全支援，但是庫還沒跟上，所以編譯的時候是沒有問題的，但是一執行就會直接丟擲異常，非常完美的一個坑有木有！具體錯誤如下：

terminate called after throwing an instance of 'std::regex_error'
  what():  regex_error
Aborted (core dumped)

如果你也遇到了這個問題，請不要先懷疑自己，GCC這一點是非常坑爹的！！！我在這個上面浪費了半天的時間才找了出來。所以在嚐鮮C++的正規表示式之前，請升級你的編譯器，確保你的編譯器支援它。

regex庫概覽

在標頭檔案<regex>中包含了多個我們使用正規表示式時需要用到的元件，大致有：

basic_regex	正規表示式物件,是一個通用的模板，有typedef basic_regex<char> regex 和 typedef basic_regex<char_t>wregex；
regex_match	將一個字元序列和正規表示式匹配
regex_search	尋找字元序列中的子串中與正規表示式匹配的結果,在找到第一個匹配的結果後就會停止查詢
regex_replace	使用格式化的替換文字，替換正規表示式匹配到字元序列的地方
regex_iterator	迭代器，用來匹配所有的子串
match_results	容器類，儲存正規表示式匹配的結果。
sub_match	容器類，儲存子正規表示式匹配的字元序列.

ECMASCRIPT正規表示式語法

正規表示式式的語法基本大同小異，在這裡就浪費篇幅細摳了。ECMASCRIPT正規表示式的語法知識可以參考W3CSCHOOL。

構造正規表示式

構造正規表示式用到一個類：basic_regex。basic_regex是一個正規表示式的通用類别範本，對char和wchar_t型別都有對應的特化：

typedef basic_regex<char>    regex;
typedef basic_regex<wchar_t> wregex;

建構函式比較多，但是非常簡單：

//預設建構函式，將匹配任何的字元序列
basic_regex();
//用一個以‘\0’結束的字串s構造一個正規表示式
explicit basic_regex( const CharT* s,flag_type f =std::regex_constants::ECMAScript );
//同上，但是制定了用於構造的字串s的長度為count
basic_regex( const CharT* s, std::size_t count,flag_type f = std::regex_constants::ECMAScript );
//拷貝構造，不贅述
basic_regex( const basic_regex& other );
 //移動建構函式
basic_regex( basic_regex&& other );
//以basic_string型別的str構造正規表示式
template< class ST, class SA >
explicit basic_regex( const std::basic_string<CharT,ST,SA>& str, flag_type f = std::regex_constants::ECMAScript );
//指定範圍[first,last)內的字串構造正規表示式
template< class ForwardIt >
basic_regex( ForwardIt first, ForwardIt last, flag_type f = std::regex_constants::ECMAScript );
//使用initializer_list構造
basic_regex( std::initializer_list<CharT> init, flag_type f = std::regex_constants::ECMAScript );

以上除預設構造之外的建構函式，都有一個flag_type型別的引數用於指定正規表示式的語法，ECMASCRIPT、basic、extended、awk、grep和egrep均是可選的值。除此之外還有其他幾種可能的的標誌，用於改變正規表示式匹配時的規則和行為：

flag_type	effects
icase	在匹配過程中忽略大小寫
nosubs	不儲存匹配的子表示式
optimize	執行速度優於構造速度

有了建構函式之後，現在我們就可以先構造出一個提取http連結的正規表示式：

std::string pattern("http(s)?://([\\w-]+\\.)+[\\w-]+(/[\\w- ./?%&=]*)?");    //匹配規則很簡單，如果有疑惑，可以對照語法檢視
std::regex r(pattern);

值得一提的是在C++中’\'這個字元需要轉義，因此所有ECMASCRIPT正規表示式語法中的’\'都需要寫成“\\”的形式。我測試的時候，這段regex如果沒有加轉義，在gcc中會給出警告提示，vs2013編譯後後執行直接崩潰了。

正確地處理輸入

先扯一個題外話，假設我們不是使用了網路庫自動在程式中下載的網頁，在我們手動下載了網頁並儲存到檔案後，首先我們要做的還是先把網頁的內容(html原始碼)存入一個std::string中，我們可能會使用這樣的錯誤方式：

int main()
{
    std::string tmp,html;
    while(std::cin >> tmp)
        html += tmp;
}

這樣一來原始碼中所有的空白字元就無意中被我們全處理了，這顯然不合適。這裡我們還是使用getline()這個函式來處理：

int main()
{
    std::string tmp,html;
    while(getline(std::cin,tmp))
    {
        html += tmp;
        html += '\n';
    }
}

這樣一來原來的文字才能得到正確的輸入。當然個人以為這些小細節還是值得注意的，到時候出錯debug的時候，我想我們更多地懷疑的是自己的正規表示式是否是有效。

regex_search()只查詢到第一個匹配的子序列

根據函式的字面語義，我們可能會錯誤的選擇regex_search()這個函式來進行匹配。其函式原型也有6個過載的版本，用法也是大同小異，函式返回值是bool值，成功返回true，失敗返回false。鑑於篇幅，我們只看我們下面要使用的這個：

template< class STraits, class SAlloc,class Alloc, class CharT, class Traits >
bool regex_search( const std::basic_string<CharT,STraits,SAlloc>& s,
                   std::match_results<typename std::basic_string<CharT,STraits,SAlloc>::const_iterator, Alloc>& m,
                   const std::basic_regex<CharT, Traits>& e,
                   std::regex_constants::match_flag_type flags = std::regex_constants::match_default );

第一個引數s是std::basic_string型別的，它是我們待匹配的字元序列，引數m是一個match_results的容器用於存放匹配到的結果，引數e則是用來存放我們之前構造的正規表示式物件。flags引數值得一提，它的型別是std::regex_constants::match_flag_type，語義上匹配標誌的意思。正如在構造正規表示式物件時我們可以指定選項如何處理正規表示式一樣，在匹配的過程中我們依然可以指定另外的標誌來控制匹配的規則。這些標誌的具體含義，我從cppreference.com 引用過來，用的時候查一下就可以了：

Constant	Explanation
`match_not_bol`	The first character in [first,last) will be treated as if it is not at the beginning of a line (i.e. ^ will not match [first,first)
`match_not_eol`	The last character in [first,last) will be treated as if it is not at the end of a line (i.e. $ will not match[last,last)
`match_not_bow`	"\b" will not match [first,first)
`match_not_eow`	"\b" will not match [last,last)
`match_any`	If more than one match is possible, then any match is an acceptable result
`match_not_null`	Do not match empty sequences
`match_continuous`	Only match a sub-sequence that begins at first
`match_prev_avail`	--first is a valid iterator position. When set, causes match_not_bol and match_not_bow to be ignored
`format_default`	Use ECMAScript rules to construct strings in std::regex_replace (syntax documentation)
`format_sed`	Use POSIX sed utility rules in std::regex_replace. (syntax documentation)
`format_no_copy`	Do not copy un-matched strings to the output in std::regex_replace

根據引數型別，於是我們構造了這樣的呼叫：

std::smatch results;<br>regex_search(html,results,r);

不過，標準庫規定regex_search()在查詢到第一個匹配的子串後，就會停止查詢！在本程式中，results引數只帶回了第一個滿足條件的http連結。這顯然並不能滿足我們要提取網頁中所有HTTP連結需要。

使用regex_iterator匹配所有子串

嚴格意義上regex_iterator是一種迭代器介面卡，它用來繫結要匹配的字元序列和regex物件。regex_iterator的預設建構函式比較特殊，就直接構造了一個尾後迭代器。另外一個建構函式原型：

regex_iterator(BidirIt a, BidirIt b,                                                           //分別是待匹配字元序列的首迭代器和尾後迭代器
               const regex_type& re,                                                           //regex物件
               std::regex_constants::match_flag_type m = std::regex_constants::match_default); //標誌，同上面的regex_search()中的

和上邊的regex_search()一樣，regex_iterator的建構函式中也有std::regex_constants::match_flag_type型別的引數，用法一樣。其實regex_iterator的內部實現就是呼叫了regex_search()，這個引數是用來傳遞給regex_search()的。用gif或許可以演示的比較形象一點，具體是這樣工作的（顏色加深部分，表示可以匹配的子序列）：

首先在構造regex_iterator的時候，建構函式中首先就呼叫一次regex_search()將迭代器it指向了第一個匹配的子序列。以後的每一次迭代的過程中（++it），都會在以後剩下的子序列中繼續呼叫regex_search()，直到迭代器走到最後。it就一直“指向”了匹配的子序列。

知道了原理，我們寫起來程式碼就輕鬆多了。結合前面的部分我們，這個程式就基本寫好了：

#include <iostream>
#include <regex>
#include <string>

int main()
{
    std::string tmp,html;
    while(getline(std::cin,tmp))
    {
        tmp += '\n';
        html += tmp;
    }
    std::string pattern("http(s)?://([\\w-]+\\.)+[\\w-]+(/[\\w- ./?%&=]*)?”);
    pattern = “[[:alpha:]]*” + pattern + “[[:alpha:]]*”;
    std::regex r(pattern);
    for (std::sregex_iterator it(html.begin(), html.end(), r), end;     //end是尾後迭代器，regex_iterator是regex_iterator的string型別的版本
        it != end;
        ++it)
    {
        std::cout << it->str() << std::endl;
    }
}

下載本頁的html原始碼儲存為test.html，編譯這個原始碼測試一下，大功告成：

[regex]g++ regex.cpp  -std=c++11 -omain
[regex]main < test.html

http://www.cnblogs.com/ittinybird/rss


http://www.cnblogs.com/ittinybird/rsd.xml


http://www.cnblogs.com/ittinybird/wlwmanifest.xml


http://common.cnblogs.com/script/jquery.js


http://files.cnblogs.com/files/ittinybird/mystyle.css


http://www.cnblogs.com/ittinybird/


http://www.cnblogs.com/ittinybird/


http://www.cnblogs.com/ittinybird/


http://i.cnblogs.com/EditPosts.aspx?opt=1


http://msg.cnblogs.com/send/%E6%88%91%E6%98%AF%E4%B8%80%E5%8F%AAC%2B%2B%E5%B0%8F%E5%B0%8F%E9%B8%9F


http://www.cnblogs.com/ittinybird/rss


http://www.cnblogs.com/ittinybird/rss


http://www.cnblogs.com/images/xml.gif


http://i.cnblogs.com/


http://www.cnblogs.com/ittinybird/p/4853532.html


http://www.cnblogs.com/ittinybird/p/4853532.html


http://www.w3school.com.cn/jsref/jsref_obj_regexp.asp


http://www.cnblogs.com/ittinybird/


http://i.cnblogs.com/EditPosts.aspx?postid=4853532


http://www.cnblogs.com/


http://q.cnblogs.com/


http://news.cnblogs.com/


http://home.cnblogs.com/ing/


http://job.cnblogs.com/


http://kb.cnblogs.com/

regex和異常處理

如果我們的正規表示式存在錯誤，則在執行的時候標準庫會丟擲一個regex_error異常，他有一個名為code的成員，用於標記錯誤的型別，具體錯誤值和語義如下表所示：

code	含義
error_collate	無效的元素校對
error_ctype	無效的字元類
error_escape	無效的轉移字元或者無效的尾置轉義
error_backref	無效的向後引用
error_brack	方括號不匹配
error_paren	小括號不匹配
error_brace	大括號不匹配
error_badbrace	大括號中的範圍無效
error_range	無效的（不合法）字元範圍
error_space	記憶體不足
error_badrepeat	重複字元之前沒有正規表示式（* + ?）
error_complexity	太複雜了，標準庫君hold不住了
error_stack	棧空間不足了

有關異常處理的基本內容，不是本篇要討論的內容，就不贅述了。

小結

C++11標準庫中的正規表示式部分還有部分內容本文沒有涉及，個人以為掌握了以上的內容後，基本上看一看介面就知道怎麼使用了，這裡就不浪費篇幅了。

謝謝你的閱讀，錯誤之處還請您指正，我將萬分感謝。

postgres中正規表示式及轉義
2018-08-22
JavaScript中正規表示式的使用
2018-03-01
JavaScript
Java中正規表示式的使用
2012-08-07
Java
SQLSERVER中正規表示式封裝使用
2015-12-11
SQLServer封裝
詳解Javascript中正規表示式的使用
2015-11-02
JavaScript
JS中正規表示式研究（一）
2015-10-14
JS
JS 中正規表示式必知必會
2018-02-11
JS
php中正規表示式中的特殊符號
2017-11-12
PHP符號
javascript中正規表示式的基礎語法
2016-06-23
JavaScript
JScript中正規表示式用法詳解 replace
2007-09-03
JS
linux 中正規表示式中?號的作用
2024-03-04
Linux
C++ 11 新特性之正規表示式
2016-09-10
C++
Oracle SQL 語句中正規表示式的應用
2014-03-03
OracleSQL
java和js中正規表示式的用法和區別
2013-10-18
JavaJS
c#中正規表示式和集合的知識點
2012-07-27
C#
JAVA中正規表示式匹配，替換，查詢，切割的方法
2016-08-24
Java
asp.net中RegularExpressionValidator控制元件中正規表示式用法
2011-03-26
ASP.NETExpress控制元件
ABAP中正規表示式的簡單使用 --- 轉自老白的部落格 Barry.bai
2009-02-23
AI
OC 正規表示式的語法及使用
2017-12-22
Python 列表表示式中正確使用 dict.update
2019-08-29
Python
SDWebImage使用及原始碼分析
2017-11-07
Web原始碼
Flutter與Native通訊示例及原始碼分析
2020-06-14
Flutter原始碼
Java正規表示式的語法與示例
2018-08-02
Java
C++ 11: function & bind 使用示例
2014-05-07
C++Function
正規表示式案例分析（二）
2019-02-23
正規表示式案例分析（一）
2017-07-11
正規表示式匹配使用者密碼
2022-03-21
密碼
C++與正規表示式入門
2020-07-23
C++
密碼正規表示式
2024-09-09
密碼
JS常用正規表示式及驗證時間的正規表示式
2022-03-19
JS
區塊鏈主鏈開發規則及原始碼示例
2023-05-05
區塊鏈原始碼
文章 | 吃透 <正規表示式>（理論+多圖示例）
2020-01-13
【收藏】常用JavaScript正規表示式彙編與示例
2019-04-26
JavaScript
JS基礎教程——正規表示式示例(推薦)
2022-03-16
JS
劍指offer——正規表示式匹配C++
2021-01-05
C++
shell指令碼正規表示式
2024-04-21
指令碼
C++常用字串處理函式及使用示例(轉)
2007-08-15
C++字串函式
ThreadPoolExecutor的使用及原始碼分析
2018-09-14
thread原始碼