Python3網路爬蟲開發實戰(第二版)

計量虐我千百遍發表於2022-01-15

爬蟲,是人工智慧行業獲取資料時最方便、最常用的一種手段。爬蟲,也是很多人文社科領域內,獲取資料的有效方法,比如使用者行為研究、傳播學研究、文字分析等等。學好爬蟲,找資料不求人。

 

 

 

厚厚的一本書,一共包括了17章,內容豐富:

第1章介紹學習爬蟲前需要了解的基礎知識,如HTTP、網頁結構、多執行緒等等,適合初學者。

第2章介紹了最基本的請求庫和正規表示式的基本用法。

第3章介紹了網頁解析庫,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取資訊更加方便快捷。

第4章介紹了資料儲存的常見形式及資料庫儲存操作,包括txt檔案、jason檔案、csv檔案的儲存,MySQL,MongoDB、Redis的基本儲存操作等等。

第5章介紹了Ajax資料爬取,適用於有些網頁是用Ajax請求API介面的方式載入的,所以常規方法無法獲取。

第6章講非同步爬蟲,爬取效率大大提高。

第7章講動態渲染頁面的爬取,介紹了使用Selenium、Splash、Playwright等工具模擬瀏覽器來進行資料爬取。

第8—11章分別介紹了驗證碼的處理方法、代理的使用、模擬瀏覽器登陸、JS逆向等知識。

第12章介紹了App的爬取方法,包括基本的抓包軟體如何使用等等。

第13章介紹了Android逆向的相關知識。

第14章介紹了頁面智慧解析技術,讓我大開眼界,推薦閱讀!

第15章介紹了目前使用最廣泛的Scrapy爬蟲框架及用法,包括其基本架構、原理及各個元件的使用方法,以及對接Selenium等的方法。

第16-17章介紹了分散式爬蟲,包括基本原理、實現方法、部署及管理,極大提高爬蟲效率。

作者還開發了一個爬蟲案例平臺,覆蓋了現在爬蟲和反爬蟲相關的大多數技術,在這也強烈推薦一下,這麼用心的書籍應該被大家看到!

相關文章