python:利用asyncio進行快速抓取

慕容老匹夫發表於2014-03-31

web資料抓取是一個經常在python的討論中出現的主題。有很多方法可以用來進行web資料抓取，然而其中好像並沒有一個最好的辦法。有一些如scrapy這樣十分成熟的框架，更多的則是像mechanize這樣的輕量級庫。DIY自己的解決方案同樣十分流行：你可以使用requests、beautifulsoup或者pyquery來實現。

方法如此多樣的原因在於，資料“抓取”實際上包括很多問題：你不需要使用相同的工具從成千上萬的頁面中抓取資料，同時使一些Web工作流自動化（例如填一些表單然後取回資料）。我喜歡DIY的原因在於其靈活性，但是卻不適合用來做大量資料的抓取，因為需要請求同步，所以大量的請求意味著你不得不等待很長時間。

在本文中，我將會為你展示一個基於新的非同步庫（aiohttp）的請求的代替品。我使用它寫了一些速度的確很快的小資料抓取器，下面我將會為你演示是如何做到的。

asyncio的基本概念
asyncio是在python3.4中被引進的非同步IO庫。你也可以通過python3.3的pypi來安裝它。它相當的複雜，而且我不會介紹太多的細節。相反，我將會解釋你需要知道些什麼，以利用它來寫非同步的程式碼。

簡而言之，有兩件事情你需要知道：協同程式和事件迴圈。協同程式像是方法，但是它們可以在程式碼中的特定點暫停和繼續。當在等待一個IO（比如一個HTTP請求），同時執行另一個請求的時候，可以用來暫停一個協同程式。我們使用關鍵字yield from來設定一個狀態，表明我們需要一個協同程式的返回值。而事件迴圈則被用來安排協同程式的執行。

關於asyncio還有很多很多，但是以上是我們到目前為止需要知道的。可能你還有些不清楚，那麼讓我們來看一些程式碼吧。

aiohttp
aiohttp是一個利用asyncio的庫，它的API看起來很像請求的API。到目前為止，相關文件還不健全。但是這裡有一些非常有用的例子。我們將會演示它的基本用法。

首先，我們會定義一個協同程式用來獲取頁面，並列印出來。我們使用 asyncio.coroutine將一個方法裝飾成一個協同程式。aiohttp.request是一個協同程式，所以它是一個可讀方法，我們需要使用yield from來呼叫它們。除了這些，下面的程式碼看起來相當直觀：

@asyncio.coroutine
def print_page(url):
    response = yield from aiohttp.request('GET', url)
    body = yield from response.read_and_close(decode=True)
    print(body)

@asyncio.coroutine

def print_page(url):

response = yield from aiohttp.request('GET', url)

body = yield from response.read_and_close(decode=True)

print(body)

如你所見，我們可以使用yield from從另一個協同程式中呼叫一個協同程式。為了從同步程式碼中呼叫一個協同程式，我們需要一個事件迴圈。我們可以通過asyncio.get_event_loop()得到一個標準的事件迴圈，之後使用它的run_until_complete()方法來執行協同程式。所以，為了使之前的協同程式執行，我們只需要做下面的步驟：

loop = asyncio.get_event_loop()
loop.run_until_complete(print_page('http://example.com'))

1 2	loop = asyncio.get_event_loop() loop.run_until_complete(print_page('http://example.com'))

一個有用的方法是asyncio.wait，通過它可以獲取一個協同程式的列表，同時返回一個將它們全包括在內的單獨的協同程式，所以我們可以這樣寫：

loop.run_until_complete(asyncio.wait([print_page('http://example.com/foo'),
                                      print_page('http://example.com/bar')]))

1 2	loop.run_until_complete(asyncio.wait([print_page('http://example.com/foo'), print_page('http://example.com/bar')]))

另一個是asyncio.as_completed，通過它可以獲取一個協同程式的列表，同時返回一個按完成順序生成協同程式的迭代器，因此當你用它迭代時，會盡快得到每個可用的結果。

資料抓取
現在我們知道了如何做非同步HTTP請求，因此我們可以來寫一個資料抓取器了。我們僅僅還需要一些工具來讀取html頁面，我使用了beautifulsoup來做這個事情，其餘的像 pyquery或lxml也可以實現。

在這個例子中，我們會寫一個小資料抓取器來從海盜灣抓取一些linux distributions的torrent 鏈路（海盜灣（英語：The Pirate Bay，縮寫：TPB）是一個專門儲存、分類及搜尋Bittorrent種子檔案的網站，並自稱“世界最大的BitTorrent tracker（BT種子伺服器）”，提供的BT種子除了有自由版權的收集外，也有不少被著作人聲稱擁有版權的音訊、視訊、應用軟體與電子遊戲等，為網路分享與下載的重要網站之一–譯者注來自維基百科）

首先，需要一個輔助協同程式來獲取請求：

@asyncio.coroutine
def get(*args, **kwargs):
    response = yield from aiohttp.request('GET', *args, **kwargs)
    return (yield from response.read_and_close(decode=True))

@asyncio.coroutine

def get(*args, **kwargs):

response = yield from aiohttp.request('GET', *args, **kwargs)

return (yield from response.read_and_close(decode=True))

解析部分。本文並非介紹beautifulsoup的，所以這部分我會簡寫：我們獲取了這個頁面的第一個磁鏈。

def first_magnet(page):
    soup = bs4.BeautifulSoup(page)
    a = soup.find('a', title='Download this torrent using magnet')
    return a['href']

def first_magnet(page):

soup = bs4.BeautifulSoup(page)

a = soup.find('a', title='Download this torrent using magnet')

return a['href']

在這個協同程式中，url的結果通過種子的數量進行排序，所以排名第一的結果實際上是種子最多的：

@asyncio.coroutine
def print_magnet(query):
    url = 'http://thepiratebay.se/search/{}/0/7/0'.format(query)
    page = yield from get(url, compress=True)
    magnet = first_magnet(page)
    print('{}: {}'.format(query, magnet))

@asyncio.coroutine

def print_magnet(query):

url = 'http://thepiratebay.se/search/{}/0/7/0'.format(query)

page = yield from get(url, compress=True)

magnet = first_magnet(page)

print('{}: {}'.format(query, magnet))

最後，用下面的程式碼來呼叫以上所有的方法。

distros = ['archlinux', 'ubuntu', 'debian']
loop = asyncio.get_event_loop()
f = asyncio.wait([print_magnet(d) for d in distros])
loop.run_until_complete(f)

distros = ['archlinux', 'ubuntu', 'debian']

loop = asyncio.get_event_loop()

f = asyncio.wait([print_magnet(d) for d in distros])

loop.run_until_complete(f)

結論
好了，現在我們來到了這個部分。你有了一個非同步工作的小抓取器。這意味著多個頁面可以同時被下載，所以這個例子要比使用請求的相同程式碼快3倍。現在你應該可以用相同的方法寫出你自己的抓取器了。

你可以在這裡找到生成的程式碼，也包括一些額外的建議。

你一旦熟悉了這一切，我建議你看一看asyncio的文件和aiohttp的範例，這些都能告訴你 asyncio擁有怎樣的潛力。

這種方法（事實上是所有手動的方法）的一個侷限在於，沒有一個獨立的庫可以用來處理表單。機械化的方法擁有很多輔助工具，這使得提交表單變得十分簡單，但是如果你不使用它們，你將不得不自己去處理這些事情。這可能會導致一些bug的出現，所以同時我可能會寫一個這樣的庫（不過目前為止無需為此擔心）。

額外的建議：不要敲打伺服器
同時做3個請求很酷，但是同時做5000個就不那麼好玩了。如果你打算同時做太多的請求，連結有可能會斷掉。你甚至有可能會被禁止連結網路。

為了避免這些，你可以使用semaphore。這是一個可以被用來限制同時工作的協同程式數量的同步工具。我們只需要在建立迴圈之前建立一個semaphore ，同時把我們希望允許的同時請求的數量作為引數傳給它既可：

sem = asyncio.Semaphore(5)

1	sem = asyncio.Semaphore(5)

然後，我們只需要將下面

page = yield from get(url, compress=True)

1	page = yield from get(url, compress=True)

替換成被semaphore 保護的同樣的東西。

with (yield from sem):
    page = yield from get(url, compress=True)

1 2	with (yield from sem): page = yield from get(url, compress=True)

這就可以保證同時最多有5個請求會被處理。

額外建議：進度條
這個東東是免費的哦：tqdm是一個用來生成進度條的優秀的庫。這個協同程式就像asyncio.wait一樣工作，不過會顯示一個代表完成度的進度條。

@asyncio.coroutine
def wait_with_progress(coros):
    for f in tqdm.tqdm(asyncio.as_completed(coros), total=len(coros)):
        yield from f

@asyncio.coroutine

def wait_with_progress(coros):

for f in tqdm.tqdm(asyncio.as_completed(coros), total=len(coros)):

yield from f

利用WebClient進行資料抓取
2011-08-15
Webclient
使用python進行web抓取
2016-03-21
PythonWeb
利用 Bootstrap 進行快速 Web開發
2013-12-24
bootWeb
建站教程：利用Bootstrap進行快速Web開發
2015-07-09
bootWeb
利用python指令碼（xpath）抓取資料
2017-04-13
Python指令碼
再次理解asyncio/await syntax and asyncio in Python
2020-12-19
AIPython
【Python】asyncio框架
2020-10-26
Python框架
python3 使用 asyncio 代替執行緒
2019-02-16
Python執行緒
用scrapy進行網頁抓取
2012-05-09
網頁
薦書 | 《利用Python進行資料分析》
2019-05-13
Python
python利用ffmpeg進行rtmp推流直播
2019-07-04
Python
利用python庫stats進行t檢驗
2020-12-01
Python
利用IP代理進行網路抓取可以幫助企業收集哪些資料？
2022-02-26
Python asyncio 爬蟲
2020-04-28
Python爬蟲
Python協程之asyncio
2020-08-31
Python
利用python指令碼（re）抓取美空mm圖片
2017-04-13
Python指令碼
利用python進行識別相似圖片(二)
2016-02-27
Python
手機爬蟲用Appium詳細教程：利用Python控制移動App進行自動化抓取資料
2023-10-16
爬蟲APPPython
Asyncio in Python and Concurrency tasks
2024-03-10
Python
asyncio的基本使用框架，python高效處理資料，asyncio.gather(),asyncio. create_task(),asyncio.run(main())
2023-04-26
框架PythonAI
《利用Python進行資料分析·第2版》轉
2019-02-19
Python
如何利用python原始碼下載進行下單？
2021-09-11
Python原始碼
使用代理進行抓取的四個優勢
2022-03-25
python中重要的模組--asyncio
2020-08-21
Python
Python學習筆記 - asyncio
2019-01-29
Python筆記
利用python進行資料分析之準備工作（1）
2018-08-10
Python
利用perf進行效能分析
2024-06-09
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS
python-利用ffmpeg快速提取影片的音訊檔案進階版（可以看到進度條）
2024-05-09
Python音訊
為什麼要選擇代理來進行抓取？
2022-02-07
如果利用 python 對 java 程式碼進行單元測試？
2020-10-20
PythonJava
如何利用python對HTTP代理進行自動化維護？
2023-03-03
PythonHTTP
利用Python Pandas進行資料預處理-資料清洗
2016-12-03
Python
python利用蒙版進行摳圖，背景透明和前景透明
2024-06-14
Python
python協程asyncio的個人理解
2022-06-26
Python
python非同步asyncio模組的使用
2018-03-13
Python非同步

python:利用asyncio進行快速抓取

相關文章