web資料抓取是一個經常在python的討論中出現的主題。有很多方法可以用來進行web資料抓取,然而其中好像並沒有一個最好的辦法。有一些如scrapy這樣十分成熟的框架,更多的則是像mechanize這樣的輕量級庫。DIY自己的解決方案同樣十分流行:你可以使用requests、beautifulsoup或者pyquery來實現。
方法如此多樣的原因在於,資料“抓取”實際上包括很多問題:你不需要使用相同的工具從成千上萬的頁面中抓取資料,同時使一些Web工作流自動化(例如填一些表單然後取回資料)。我喜歡DIY的原因在於其靈活性,但是卻不適合用來做大量資料的抓取,因為需要請求同步,所以大量的請求意味著你不得不等待很長時間。
在本文中,我將會為你展示一個基於新的非同步庫(aiohttp)的請求的代替品。我使用它寫了一些速度的確很快的小資料抓取器,下面我將會為你演示是如何做到的。
asyncio的基本概念
asyncio是在python3.4中被引進的非同步IO庫。你也可以通過python3.3的pypi來安裝它。它相當的複雜,而且我不會介紹太多的細節。相反,我將會解釋你需要知道些什麼,以利用它來寫非同步的程式碼。
簡而言之,有兩件事情你需要知道:協同程式和事件迴圈。協同程式像是方法,但是它們可以在程式碼中的特定點暫停和繼續。當在等待一個IO(比如一個HTTP請求),同時執行另一個請求的時候,可以用來暫停一個協同程式。我們使用關鍵字yield from來設定一個狀態,表明我們需要一個協同程式的返回值。而事件迴圈則被用來安排協同程式的執行。
關於asyncio還有很多很多,但是以上是我們到目前為止需要知道的。可能你還有些不清楚,那麼讓我們來看一些程式碼吧。
aiohttp
aiohttp是一個利用asyncio的庫,它的API看起來很像請求的API。到目前為止,相關文件還不健全。但是這裡有一些非常有用的例子。我們將會演示它的基本用法。
首先,我們會定義一個協同程式用來獲取頁面,並列印出來。我們使用 asyncio.coroutine將一個方法裝飾成一個協同程式。aiohttp.request是一個協同程式,所以它是一個可讀方法,我們需要使用yield from來呼叫它們。除了這些,下面的程式碼看起來相當直觀:
1 2 3 4 5 |
@asyncio.coroutine def print_page(url): response = yield from aiohttp.request('GET', url) body = yield from response.read_and_close(decode=True) print(body) |
如你所見,我們可以使用yield from從另一個協同程式中呼叫一個協同程式。為了從同步程式碼中呼叫一個協同程式,我們需要一個事件迴圈。我們可以通過asyncio.get_event_loop()得到一個標準的事件迴圈,之後使用它的run_until_complete()方法來執行協同程式。所以,為了使之前的協同程式執行,我們只需要做下面的步驟:
1 2 |
loop = asyncio.get_event_loop() loop.run_until_complete(print_page('http://example.com')) |
一個有用的方法是asyncio.wait,通過它可以獲取一個協同程式的列表,同時返回一個將它們全包括在內的單獨的協同程式,所以我們可以這樣寫:
1 2 |
loop.run_until_complete(asyncio.wait([print_page('http://example.com/foo'), print_page('http://example.com/bar')])) |
另一個是asyncio.as_completed,通過它可以獲取一個協同程式的列表,同時返回一個按完成順序生成協同程式的迭代器,因此當你用它迭代時,會盡快得到每個可用的結果。
資料抓取
現在我們知道了如何做非同步HTTP請求,因此我們可以來寫一個資料抓取器了。我們僅僅還需要一些工具來讀取html頁面,我使用了beautifulsoup來做這個事情,其餘的像 pyquery或lxml也可以實現。
在這個例子中,我們會寫一個小資料抓取器來從海盜灣抓取一些linux distributions的torrent 鏈路(海盜灣(英語:The Pirate Bay,縮寫:TPB)是一個專門儲存、分類及搜尋Bittorrent種子檔案的網站,並自稱“世界最大的BitTorrent tracker(BT種子伺服器)”,提供的BT種子除了有自由版權的收集外,也有不少被著作人聲稱擁有版權的音訊、視訊、應用軟體與電子遊戲等,為網路分享與下載的重要網站之一–譯者注來自維基百科)
首先,需要一個輔助協同程式來獲取請求:
1 2 3 4 |
@asyncio.coroutine def get(*args, **kwargs): response = yield from aiohttp.request('GET', *args, **kwargs) return (yield from response.read_and_close(decode=True)) |
解析部分。本文並非介紹beautifulsoup的,所以這部分我會簡寫:我們獲取了這個頁面的第一個磁鏈。
1 2 3 4 |
def first_magnet(page): soup = bs4.BeautifulSoup(page) a = soup.find('a', title='Download this torrent using magnet') return a['href'] |
在這個協同程式中,url的結果通過種子的數量進行排序,所以排名第一的結果實際上是種子最多的:
1 2 3 4 5 6 |
@asyncio.coroutine def print_magnet(query): url = 'http://thepiratebay.se/search/{}/0/7/0'.format(query) page = yield from get(url, compress=True) magnet = first_magnet(page) print('{}: {}'.format(query, magnet)) |
最後,用下面的程式碼來呼叫以上所有的方法。
1 2 3 4 |
distros = ['archlinux', 'ubuntu', 'debian'] loop = asyncio.get_event_loop() f = asyncio.wait([print_magnet(d) for d in distros]) loop.run_until_complete(f) |
結論
好了,現在我們來到了這個部分。你有了一個非同步工作的小抓取器。這意味著多個頁面可以同時被下載,所以這個例子要比使用請求的相同程式碼快3倍。現在你應該可以用相同的方法寫出你自己的抓取器了。
你可以在這裡找到生成的程式碼,也包括一些額外的建議。
你一旦熟悉了這一切,我建議你看一看asyncio的文件和aiohttp的範例,這些都能告訴你 asyncio擁有怎樣的潛力。
這種方法(事實上是所有手動的方法)的一個侷限在於,沒有一個獨立的庫可以用來處理表單。機械化的方法擁有很多輔助工具,這使得提交表單變得十分簡單,但是如果你不使用它們,你將不得不自己去處理這些事情。這可能會導致一些bug的出現,所以同時我可能會寫一個這樣的庫(不過目前為止無需為此擔心)。
額外的建議:不要敲打伺服器
同時做3個請求很酷,但是同時做5000個就不那麼好玩了。如果你打算同時做太多的請求,連結有可能會斷掉。你甚至有可能會被禁止連結網路。
為了避免這些,你可以使用semaphore。這是一個可以被用來限制同時工作的協同程式數量的同步工具。我們只需要在建立迴圈之前建立一個semaphore ,同時把我們希望允許的同時請求的數量作為引數傳給它既可:
1 |
sem = asyncio.Semaphore(5) |
然後,我們只需要將下面
1 |
page = yield from get(url, compress=True) |
替換成被semaphore 保護的同樣的東西。
1 2 |
with (yield from sem): page = yield from get(url, compress=True) |
這就可以保證同時最多有5個請求會被處理。
額外建議:進度條
這個東東是免費的哦:tqdm是一個用來生成進度條的優秀的庫。這個協同程式就像asyncio.wait一樣工作,不過會顯示一個代表完成度的進度條。
1 2 3 4 |
@asyncio.coroutine def wait_with_progress(coros): for f in tqdm.tqdm(asyncio.as_completed(coros), total=len(coros)): yield from f |