實戰 | 用aiohttp和uvloop實現一個高效能爬蟲

simpleapples發表於2018-04-10

原文網址 : https://juejin.im/post/5acca0275188251e655ae24a

asyncio於Python3.4引入標準庫，增加了對非同步I/O的支援，asyncio基於事件迴圈，可以輕鬆實現非同步I/O操作。接下來，我們用基於asyncio的庫實現一個高效能爬蟲。

準備工作

Earth View from Google Earth是一款Chrome外掛，會在開啟新標籤頁時自動載入一張來自Google Earth的背景圖片。

使用Chrome開發者工具觀察外掛的網路請求，我們發現外掛會請求一個地址如www.gstatic.com/prettyearth…的JSON檔案，檔案中包含了經過Base64的圖片內容，觀察發現，圖片的ID範圍大致在1000-8000之間，我們的爬蟲就要來爬取這些精美的背景圖片。

實現主要邏輯

由於爬取目標是JSON檔案，爬蟲的主要邏輯就變成了爬取JSON-->提取圖片-->儲存圖片。

requests是一個常用的http請求庫，但是由於requests的請求都是同步的，我們使用aiohttp這個非同步http請求庫來代替。

async def fetch_image_by_id(item_id):
	url = f'https://www.gstatic.com/prettyearth/assets/data/v2/{item_id}.json'
        # 由於URL是https的，所以選擇不驗證SSL
	async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(verify_ssl=False)) as session:
		async with session.get(url) as response:
            # 獲取後需要將JSON字串轉為物件
			try:
				json_obj = json.loads(await response.text())
			except json.decoder.JSONDecodeError as e:
				print(f'Download failed - {item_id}.jpg')
				return
            # 獲取JSON中的圖片內容欄位，經過Base64解碼成二進位制內容
			image_str = json_obj['dataUri'].replace('data:image/jpeg;base64,', '')
			image_data = base64.b64decode(image_str)
			save_folder = dir_path = os.path.dirname(
				os.path.realpath(__file__)) + '/google_earth/'
			with open(f'{save_folder}{item_id}.jpg', 'wb') as f:
				f.write(image_data)
			print(f'Download complete - {item_id}.jpg')
複製程式碼

aiohttp基於asyncio，所以在呼叫時需要使用async/await語法糖，可以看到，由於aiohttp中提供了一個ClientSession上下文，程式碼中使用了async with的語法糖。

加入並行邏輯

上面的程式碼是抓取單張圖片的邏輯，批量抓取圖片，需要再巢狀一層方法：

async def fetch_all_images():
    # 使用Semaphore限制最大併發數
	sem = asyncio.Semaphore(10)
	ids = [id for id in range(1000, 8000)]
	for current_id in ids:
		async with sem:
			await fetch_image_by_id(current_id)
複製程式碼

接下來，將這個方法加入到asyncio的事件迴圈中。

event_loop = asyncio.get_event_loop()
future = asyncio.ensure_future(fetch_all_images())
results = event_loop.run_until_complete(future)
複製程式碼

使用uvloop加速

uvloop基於libuv，libuv是一個使用C語言實現的高效能非同步I/O庫，uvloop用來代替asyncio預設事件迴圈，可以進一步加快非同步I/O操作的速度。

uvloop的使用非常簡單，只要在獲取事件迴圈前，呼叫如下方法，將asyncio的事件迴圈策略設定為uvloop的事件迴圈策略。

asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
複製程式碼

使用上面的程式碼，我們可以快速將大約1500張的圖片爬取下來。

效能對比

為了驗證aiohttp和uvloop的效能，筆者使用requests+concurrent庫實現了一個多程式版的爬蟲，分別爬取20個id，消耗的時間如圖。

可以看到，耗時相差了大概7倍，aiohttp+uvloop的組合在爬蟲這種I/O密集型的場景下，可以說具有壓倒性優勢。相信在不遠的將來，基於asyncio的庫會將無數爬蟲工程師從加班中拯救出來。

掃碼關注Python私房菜

網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
爬蟲——三個小實戰
2018-09-21
爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
Python爬取鏈家成都二手房源資訊 asyncio + aiohttp 非同步爬蟲實戰
2020-09-22
PythonAIHTTP非同步爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
Python非同步爬蟲（aiohttp版）
2022-12-06
Python非同步爬蟲AIHTTP
爬蟲實戰開發學習（一）
2021-07-06
爬蟲
爬蟲技術實戰
2020-08-19
爬蟲
Puppeteer爬蟲實戰(三)
2020-07-21
爬蟲
Python 實戰:用 Scrapyd 打造爬蟲控制檯
2018-10-30
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
想提高爬蟲效率？aiohttp 瞭解下
2018-08-08
爬蟲AIHTTP
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
大規模非同步新聞爬蟲：實現一個同步定向新聞爬蟲
2018-12-03
非同步爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲——實戰完整版
2018-09-25
爬蟲
基礎爬蟲案例實戰
2024-05-24
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
python 爬蟲實戰的原理
2021-10-29
Python爬蟲
Python爬蟲實戰之bilibili
2021-04-04
Python爬蟲
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
爬蟲 | 非同步請求aiohttp模組
2024-06-16
爬蟲非同步AIHTTP
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
Python網路爬蟲實戰(一)快速入門
2019-09-16
Python爬蟲
誰說爬蟲只能Python？看我用C#快速簡單實現爬蟲開發和演示！
2024-05-27
爬蟲PythonC#
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
大規模非同步新聞爬蟲：用asyncio實現非同步爬蟲
2018-12-03
非同步爬蟲
實用爬蟲-01-檢測爬蟲的 IP
2018-09-08
爬蟲
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲