【Python3網路爬蟲開發實戰】3-基本庫的使用-3正規表示式

崔慶才丨靜覓發表於2018-03-19

原文網址 : https://juejin.im/post/5aaf752b518825558154c8bf

本節中，我們看一下正規表示式的相關用法。正規表示式是處理字串的強大工具，它有自己特定的語法結構，有了它，實現字串的檢索、替換、匹配驗證都不在話下。

當然，對於爬蟲來說，有了它，從HTML裡提取想要的資訊就非常方便了。

1. 例項引入

說了這麼多，可能我們對它到底是個什麼還是比較模糊，下面就用幾個例項來看一下正規表示式的用法。

開啟開源中國提供的正規表示式測試工具tool.oschina.net/regex/，輸入待匹配的文字，然後選擇常用的正規表示式，就可以得出相應的匹配結果了。例如，這裡輸入待匹配的文字如下：

Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.
複製程式碼

這段字串中包含了一個電話號碼和一個電子郵件，接下來就嘗試用正規表示式提取出來，如圖3-10所示。

圖3-10 執行頁面

在網頁右側選擇“匹配Email地址”，就可以看到下方出現了文字中的E-mail。如果選擇“匹配網址URL”，就可以看到下方出現了文字中的URL。是不是非常神奇？

其實，這裡就是用了正規表示式匹配，也就是用一定的規則將特定的文字提取出來。比如，電子郵件開頭是一段字串，然後是一個@符號，最後是某個域名，這是有特定的組成格式的。另外，對於URL，開頭是協議型別，然後是冒號加雙斜線，最後是域名加路徑。

對於URL來說，可以用下面的正規表示式匹配：

[a-zA-z]+://[^\s]*
複製程式碼

用這個正規表示式去匹配一個字串，如果這個字串中包含類似URL的文字，那就會被提取出來。

這個正規表示式看上去是亂糟糟的一團，其實不然，這裡面都是有特定的語法規則的。比如，a-z代表匹配任意的小寫字母，\s表示匹配任意的空白字元，*就代表匹配前面的字元任意多個，這一長串的正規表示式就是這麼多匹配規則的組合。

寫好正規表示式後，就可以拿它去一個長字串裡匹配查詢了。不論這個字串裡面有什麼，只要符合我們寫的規則，統統可以找出來。對於網頁來說，如果想找出網頁原始碼裡有多少URL，用匹配URL的正規表示式去匹配即可。

上面我們說了幾個匹配規則，表3-2列出了常用的匹配規則。

表3-2 常用的匹配規則

看完了之後，可能有點暈暈的吧，不過不用擔心，後面我們會詳細講解一些常見規則的用法。

其實正規表示式不是Python獨有的，它也可以用在其他程式語言中。但是Python的re庫提供了整個正規表示式的實現，利用這個庫，可以在Python中使用正規表示式。在Python中寫正規表示式幾乎都用這個庫，下面就來了解它的一些常用方法。

2. match()

這裡首先介紹第一個常用的匹配方法——match()，向它傳入要匹配的字串以及正規表示式，就可以檢測這個正規表示式是否匹配字串。

match()方法會嘗試從字串的起始位置匹配正規表示式，如果匹配，就返回匹配成功的結果；如果不匹配，就返回None。示例如下：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())
複製程式碼

執行結果如下：

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
複製程式碼

這裡首先宣告瞭一個字串，其中包含英文字母、空白字元、數字等。接下來，我們寫一個正規表示式：

^Hello\s\d\d\d\s\d{4}\s\w{10}
複製程式碼

用它來匹配這個長字串。開頭的^是匹配字串的開頭，也就是以Hello開頭；然後\s匹配空白字元，用來匹配目標字串的空格；\d匹配數字，3個\d匹配123；然後再寫1個\s匹配空格；後面還有4567，我們其實可以依然用4個\d來匹配，但是這麼寫比較煩瑣，所以後面可以跟{4}以代表匹配前面的規則4次，也就是匹配4個數字；然後後面再緊接1個空白字元，最後\w{10}匹配10個字母及下劃線。我們注意到，這裡其實並沒有把目標字串匹配完，不過這樣依然可以進行匹配，只不過匹配結果短一點而已。

而在match()方法中，第一個引數傳入了正規表示式，第二個引數傳入了要匹配的字串。

列印輸出結果，可以看到結果是SRE_Match物件，這證明成功匹配。該物件有兩個方法：group()方法可以輸出匹配到的內容，結果是Hello 123 4567 World_This，這恰好是正規表示式規則所匹配的內容；span()方法可以輸出匹配的範圍，結果是(0, 25)，這就是匹配到的結果字串在原字串中的位置範圍。

通過上面的例子，我們基本瞭解瞭如何在Python中使用正規表示式來匹配一段文字。

匹配目標

剛才我們用match()方法可以得到匹配到的字串內容，但是如果想從字串中提取一部分內容，該怎麼辦呢？就像最前面的例項一樣，從一段文字中提取出郵件或電話號碼等內容。

這裡可以使用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會依次對應每一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
複製程式碼

這裡我們想把字串中的1234567提取出來，此時可以將數字部分的正規表示式用()括起來，然後呼叫了group(1)獲取匹配結果。

執行結果如下：

<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)
複製程式碼

可以看到，我們成功得到了1234567。這裡用的是group(1)，它與group()有所不同，後者會輸出完整的匹配結果，而前者會輸出第一個被()包圍的匹配結果。假如正規表示式後面還有()包括的內容，那麼可以依次用group(2)、group(3)等來獲取。

通用匹配

剛才我們寫的正規表示式其實比較複雜，出現空白字元我們就寫\s匹配，出現數字我們就用\d匹配，這樣的工作量非常大。其實完全沒必要這麼做，因為還有一個萬能匹配可以用，那就是.*（點星）。其中.（點）可以匹配任意字元（除換行符），*（星）代表匹配前面的字元無限次，所以它們組合在一起就可以匹配任意字元了。有了它，我們就不用挨個字元地匹配了。

接著上面的例子，我們可以改寫一下正規表示式：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())
複製程式碼

這裡我們將中間部分直接省略，全部用.*來代替，最後加一個結尾字串就好了。執行結果如下：

<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)
複製程式碼

可以看到，group()方法輸出了匹配的全部字串，也就是說我們寫的正規表示式匹配到了目標字串的全部內容；span()方法輸出(0, 41)，這是整個字串的長度。

因此，我們可以使用.*簡化正規表示式的書寫。

貪婪與非貪婪

使用上面的通用匹配.*時，可能有時候匹配到的並不是我們想要的結果。看下面的例子：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))
複製程式碼

這裡我們依然想獲取中間的數字，所以中間依然寫的是(\d+)。而數字兩側由於內容比較雜亂，所以想省略來寫，都寫成 .*。最後，組成^He.*(\d+).*Demo$，看樣子並沒有什麼問題。我們看下執行結果：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
複製程式碼

奇怪的事情發生了，我們只得到了7這個數字，這是怎麼回事呢？

這裡就涉及一個貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下，.*會匹配儘可能多的字元。正規表示式中.*後面是\d+，也就是至少一個數字，並沒有指定具體多少個數字，因此，.*就儘可能匹配多的字元，這裡就把123456匹配了，給\d+留下一個可滿足條件的數字7，最後得到的內容就只有數字7了。

但這很明顯會給我們帶來很大的不便。有時候，匹配結果會莫名其妙少了一部分內容。其實，這裡只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是.*?，多了一個?，那麼它可以達到怎樣的效果？我們再用例項看一下：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
複製程式碼

這裡我們只是將第一個.*改成了.*?，轉變為非貪婪匹配。結果如下：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567
複製程式碼

此時就可以成功獲取1234567了。原因可想而知，貪婪匹配是儘可能匹配多的字元，非貪婪匹配就是儘可能匹配少的字元。當.*?匹配到Hello後面的空白字元時，再往後的字元就是數字了，而\d+恰好可以匹配，那麼這裡.*?就不再進行匹配，交給\d+去匹配後面的數字。所以這樣.*?匹配了儘可能少的字元，\d+的結果就是1234567了。

所以說，在做匹配的時候，字串中間儘量使用非貪婪匹配，也就是用.*?來代替.*，以免出現匹配結果缺失的情況。

但這裡需要注意，如果匹配的結果在字串結尾，.*?就有可能匹配不到任何內容了，因為它會匹配儘可能少的字元。例如：

import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))
複製程式碼

執行結果如下：

result1 
result2 kEraCN
複製程式碼

可以觀察到，.*?沒有匹配到任何結果，而.*則儘量匹配多的內容，成功得到了匹配結果。

修飾符

正規表示式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。我們用例項來看一下：

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))
複製程式碼

和上面的例子相仿，我們在字串中加了換行符，正規表示式還是一樣的，用來匹配其中的數字。看一下執行結果：

AttributeError Traceback (most recent call last)
<ipython-input-18-c7d232b39645> in <module>()
      5 '''
      6 result = re.match('^He.*?(\d+).*?Demo$', content)
----> 7 print(result.group(1))

AttributeError: 'NoneType' object has no attribute 'group'
複製程式碼

執行直接報錯，也就是說正規表示式沒有匹配到這個字串，返回結果為None，而我們又呼叫了group()方法導致AttributeError。

那麼，為什麼加了一個換行符，就匹配不到了呢？這是因為\.匹配的是除換行符之外的任意字元，當遇到換行符時，.*?就不能匹配了，所以導致匹配失敗。這裡只需加一個修飾符re.S，即可修正這個錯誤：

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
複製程式碼

這個修飾符的作用是使.匹配包括換行符在內的所有字元。此時執行結果如下：

1234567
複製程式碼

這個re.S在網頁匹配中經常用到。因為HTML節點經常會有換行，加上它，就可以匹配節點與節點之間的換行了。

另外，還有一些修飾符，在必要的情況下也可以使用，如表3-3所示。

表3-3 修飾符

在網頁匹配中，較為常用的有re.S和re.I。

轉義匹配

我們知道正規表示式定義了許多匹配模式，如.匹配除換行符以外的任意字元，但是如果目標字串裡面就包含.，那該怎麼辦呢？

這裡就需要用到轉義匹配了，示例如下：

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)
複製程式碼

當遇到用於正則匹配模式的特殊字元時，在前面加反斜線轉義一下即可。例如.就可以用\.來匹配，執行結果如下：

<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
複製程式碼

可以看到，這裡成功匹配到了原字串。

這些是寫正規表示式常用的幾個知識點，熟練掌握它們對後面寫正規表示式匹配非常有幫助。

3. search()

前面提到過，match()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。我們看下面的例子：

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
複製程式碼

這裡的字串以Extra開頭，但是正規表示式以Hello開頭，整個正規表示式是字串的一部分，但是這樣匹配是失敗的。執行結果如下：

None
複製程式碼

因為match()方法在使用時需要考慮到開頭的內容，這在做匹配時並不方便。它更適合用來檢測某個字串是否符合某個正規表示式的規則。

這裡就有另外一個方法search()，它在匹配時會掃描整個字串，然後返回第一個成功匹配的結果。也就是說，正規表示式可以是字串的一部分，在匹配時，search()方法會依次掃描字串，直到找到第一個符合規則的字串，然後返回匹配內容，如果搜尋完了還沒有找到，就返回None。

我們把上面程式碼中的match()方法修改成search()，再看下執行結果：

<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567
複製程式碼

這時就得到了匹配結果。

因此，為了匹配方便，我們可以儘量使用search()方法。

下面再用幾個例項來看看search()方法的用法。

首先，這裡有一段待匹配的HTML文字，接下來寫幾個正規表示式例項來實現相應資訊的提取：

html = '''<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但願人長久</a>
        </li>
    </ul>
</div>'''
複製程式碼

可以觀察到，ul節點裡有許多li節點，其中li節點中有的包含a節點，有的不包含a節點，a節點還有一些相應的屬性——超連結和歌手名。

首先，我們嘗試提取class為active的li節點內部的超連結包含的歌手名和歌名，此時需要提取第三個li節點下a節點的singer屬性和文字。

此時正規表示式可以以li開頭，然後尋找一個標誌符active，中間的部分可以用.*?來匹配。接下來，要提取singer這個屬性值，所以還需要寫入singer="(.*?)"，這裡需要提取的部分用小括號括起來，以便用group()方法提取出來，它的兩側邊界是雙引號。然後還需要匹配a節點的文字，其中它的左邊界是>，右邊界是</a>。然後目標內容依然用(.*?)來匹配，所以最後的正規表示式就變成了：

<li.*?active.*?singer="(.*?)">(.*?)</a>
複製程式碼

然後再呼叫search()方法，它會搜尋整個HTML文字，找到符合正規表示式的第一個內容返回。

另外，由於程式碼有換行，所以這裡第三個引數需要傳入re.S。整個匹配程式碼如下：

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
複製程式碼

由於需要獲取的歌手和歌名都已經用小括號包圍，所以可以用group()方法獲取。

執行結果如下：

齊秦 往事隨風
複製程式碼

可以看到，這正是class為active的li節點內部的超連結包含的歌手名和歌名。

如果正規表示式不加active（也就是匹配不帶class為active的節點內容），那會怎樣呢？我們將正規表示式中的active去掉，程式碼改寫如下：

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
複製程式碼

由於search()方法會返回第一個符合條件的匹配目標，這裡結果就變了：

任賢齊 滄海一聲笑
複製程式碼

把active標籤去掉後，從字串開頭開始搜尋，此時符合條件的節點就變成了第二個li節點，後面的就不再匹配，所以執行結果就變成第二個li節點中的內容。

注意，在上面的兩次匹配中，search()方法的第三個引數都加了re.S，這使得.*?可以匹配換行，所以含有換行的li節點被匹配到了。如果我們將其去掉，結果會是什麼？程式碼如下：

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))
複製程式碼

執行結果如下：

beyond 光輝歲月
複製程式碼

可以看到，結果變成了第四個li節點的內容。這是因為第二個和第三個li節點都包含了換行符，去掉re.S之後，.*?已經不能匹配換行符，所以正規表示式不會匹配到第二個和第三個li節點，而第四個li節點中不包含換行符，所以成功匹配。

由於絕大部分的HTML文字都包含了換行符，所以儘量都需要加上re.S修飾符，以免出現匹配不到的問題。

4. findall()

前面我們介紹了search()方法的用法，它可以返回匹配正規表示式的第一個內容，但是如果想要獲取匹配正規表示式的所有內容，那該怎麼辦呢？這時就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正規表示式的所有內容。

還是上面的HTML文字，如果想獲取所有a節點的超連結、歌手和歌名，就可以將search()方法換成findall()方法。如果有返回結果的話，就是列表型別，所以需要遍歷一下來依次獲取每組內容。程式碼如下：

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])
複製程式碼

執行結果如下：

[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但願人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風')
/3.mp3 齊秦 往事隨風
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但願人長久')
/6.mp3 鄧麗君 但願人長久
複製程式碼

可以看到，返回的列表中的每個元素都是元組型別，我們用對應的索引依次取出即可。

如果只是獲取第一個內容，可以用search()方法。當需要提取多個內容時，可以用findall()方法。

5. sub()

除了使用正規表示式提取資訊外，有時候還需要藉助它來修改文字。比如，想要把一串文字中的所有數字都去掉，如果只用字串的replace()方法，那就太煩瑣了，這時可以藉助sub()方法。示例如下：

import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)
複製程式碼

執行結果如下：

aKyroiRixLg
複製程式碼

這裡只需要給第一個引數傳入\d+來匹配所有的數字，第二個引數為替換成的字串（如果去掉該引數的話，可以賦值為空），第三個引數是原字串。

在上面的HTML文字中，如果想獲取所有li節點的歌名，直接用正規表示式來提取可能比較煩瑣。比如，可以寫成這樣子：

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])
複製程式碼

執行結果如下：

一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
但願人長久
複製程式碼

此時藉助sub()方法就比較簡單了。可以先用sub()方法將a節點去掉，只留下文字，然後再利用findall()提取就好了：

html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())
複製程式碼

執行結果如下：

<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            滄海一聲笑
        </li>
        <li data-view="4" class="active">
            往事隨風
        </li>
        <li data-view="6">光輝歲月</li>
        <li data-view="5">記事本</li>
        <li data-view="5">
            但願人長久
        </li>
    </ul>
</div>
一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
但願人長久
複製程式碼

可以看到，a節點經過sub()方法處理後就沒有了，然後再通過findall()方法直接提取即可。可以看到，在適當的時候，藉助sub()方法可以起到事半功倍的效果。

6. compile()

前面所講的方法都是用來處理字串的方法，最後再介紹一下compile()方法，這個方法可以將正則字串編譯成正規表示式物件，以便在後面的匹配中複用。示例程式碼如下：

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)
複製程式碼

例如，這裡有3個日期，我們想分別將3個日期中的時間去掉，這時可以藉助sub()方法。該方法的第一個引數是正規表示式，但是這裡沒有必要重複寫3個同樣的正規表示式，此時可以藉助compile()方法將正規表示式編譯成一個正規表示式物件，以便複用。

執行結果如下：

2016-12-15  2016-12-17  2016-12-22
複製程式碼

另外，compile()還可以傳入修飾符，例如re.S等修飾符，這樣在search()、findall()等方法中就不需要額外傳了。所以，compile()方法可以說是給正規表示式做了一層封裝，以便我們更好地複用。

到此為止，正規表示式的基本用法就介紹完了，後面會通過具體的例項來講解正規表示式的用法。

本資源首發於崔慶才的個人部落格靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

【Python3網路爬蟲開發實戰】3-基本庫的使用 2-使用requests 1-基本用法
2018-03-15
Python爬蟲
【Python3網路爬蟲開發實戰】3-基本庫的使用 1.1-傳送請求
2019-02-22
Python爬蟲
【Python3網路爬蟲開發實戰】3-基本庫的使用-4抓取貓眼電影排行
2019-02-13
Python爬蟲
《Python3網路爬蟲開發實戰程式碼》基本庫使用
2019-05-05
Python爬蟲
Python3網路爬蟲開發實戰——第3章基本庫的使用
2019-02-25
Python爬蟲
【Python3網路爬蟲開發實戰】3-基本庫的使用 2-使用requests 2-高階用法
2018-03-15
Python爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
[Python3網路爬蟲開發實戰] Charles 的使用
2019-12-08
Python爬蟲
[Python3網路爬蟲開發實戰] --Splash的使用
2019-06-10
Python爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
Python3網路爬蟲開發實戰
2021-04-15
Python爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-3 使用pyquery
2018-03-19
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
python3網路爬蟲開發實戰pdf
2021-11-30
Python爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPath
2019-02-26
Python爬蟲
《Python3網路爬蟲開發實戰》開源啦！
2019-10-23
Python爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-2 使用Beautiful Soup
2018-03-19
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 5-代理的基本原理
2019-02-17
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 1-HTTP基本原理
2018-03-08
Python爬蟲HTTP
《Python3 網路爬蟲開發實戰》—學習筆記
2019-07-30
Python爬蟲筆記
Python3網路爬蟲開發實戰（第二版）
2022-01-15
Python爬蟲
Python爬蟲— 1.4 正規表示式：re庫
2019-02-28
Python爬蟲
Golang爬蟲+正規表示式
2021-12-22
Golang爬蟲
面前最全《崔慶才python3網路爬蟲開發實戰》
2019-02-28
Python爬蟲
python3 網路爬蟲開發實戰貓眼top100
2020-02-15
Python爬蟲
Python3網路爬蟲開發實戰——第1章開發環境
2022-02-02
Python爬蟲開發環境
Python 3網路爬蟲開發實戰
2021-04-28
Python爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
正規表示式（python3）
2021-03-11
Python
Python3網路爬蟲開發實踐——第4章—解析庫的使用—4.3使用pyquery
2019-01-29
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
《Python3網路爬蟲開發實戰》抽獎贈書活動
2018-06-13
Python爬蟲
python3網路爬蟲開發實戰【高清掃描帶目錄】
2019-08-18
Python爬蟲
【閱讀筆記】《Python3網路爬蟲開發實戰》PDF文件
2020-01-14
筆記Python爬蟲
Java 的正規表示式與爬蟲
2023-03-10
Java爬蟲
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲

【Python3網路爬蟲開發實戰】3-基本庫的使用-3正規表示式

1. 例項引入

2. match()

匹配目標

通用匹配

貪婪與非貪婪

修飾符

轉義匹配

3. search()

4. findall()

5. sub()

6. compile()

相關文章