《Python3網路爬蟲開發實戰》抽獎贈書活動

Python之禪發表於2018-06-13

這本書之前在公眾號推薦過,這次慶才找到我想再幫忙宣傳一下,如果你的爬蟲還是徘徊在入門與放棄路上,這本書能給你一條指引。


上市兩月就已經重印 4 次的 Python 爬蟲書!它就是由靜覓部落格博主崔慶才所作的《Python3網路爬蟲開發實戰》!!!同時文末還有抽獎贈書活動,不容錯過!!!

640?wx_fmt=png

書籍介紹

本書《Python3網路爬蟲開發實戰》全面介紹了利用 Python3 開發網路爬蟲的知識,書中首先詳細介紹了各種型別的環境配置過程和爬蟲基礎知識,還討論了 urllib、requests 等請求庫和 Beautiful Soup、XPath、pyquery 等解析庫以及文字和各類資料庫的儲存方法,另外本書通過多個真實新鮮案例介紹了分析 Ajax 進行資料爬取,Selenium 和 Splash 進行動態網站爬取的過程,接著又分享了一些切實可行的爬蟲技巧,比如使用代理爬取和維護動態代理池的方法、ADSL 撥號代理的使用、各類驗證碼(圖形、極驗、點觸、宮格等)的破解方法、模擬登入網站爬取的方法及 Cookies 池的維護等等。

此外,本書的內容還遠遠不止這些,作者還結合移動網際網路的特點探討了使用 Charles、mitmdump、Appium 等多種工具實現 App 抓包分析、加密引數介面爬取、微信朋友圈爬取的方法。此外本書還詳細介紹了 pyspider 框架、Scrapy 框架的使用和分散式爬蟲的知識,另外對於優化及部署工作,本書還包括 Bloom Filter 效率優化、Docker 和 Scrapyd 爬蟲部署、分散式爬蟲管理框架Gerapy 的分享。

全書共 604 頁,足足兩斤重呢~ 定價為 99 元!

作者介紹

看書就先看看誰寫的嘛,我們來了解一下~

崔慶才靜覓部落格博主(https://cuiqingcai.com),部落格 Python 爬蟲博文閱讀量已過百萬,北京航空航天大學碩士,天善智慧、網易雲課堂講師,微軟小冰大資料工程師,有多個大型分散式爬蟲專案經驗,樂於技術分享,文章通俗易懂 ^_^

附皁片一張 ~(@^_^@)~

640?wx_fmt=jpeg

圖文介紹

嘔心瀝血設計的宣傳圖也得放一下~

640?wx_fmt=jpeg

專家評論

書是好是壞,得讓專家看評一評呀,那麼下面就是幾位專家的精彩評論,快來看看吧~

在網際網路軟體開發工程師的分類中,爬蟲工程師是非常重要的。爬蟲工作往往是一個公司核心業務開展的基礎,資料抓取下來,才有後續的加工處理和最終展現。此時資料的抓取規模、穩定性、實時性、準確性就顯得非常重要。早期的網際網路充分開放互聯,資料獲取的難度很小。隨著各大公司對資料資產日益看重,反爬水平也在不斷提高,各種新技術不斷給爬蟲軟體提出新的課題。本書作者對爬蟲的各個領域都有深刻研究,書中探討了Ajax資料的抓取、動態渲染頁面的抓取、驗證碼識別、模擬登入等高階話題,同時也結合移動網際網路的特點探討了App的抓取等。更重要的是,本書提供了大量原始碼,可以幫助讀者更好地理解相關內容。強烈推薦給各位技術愛好者閱讀!

——樑斌,八友科技總經理


資料既是當今大資料分析的前提,也是各種人工智慧應用場景的基礎。得資料者得天下,會爬蟲者走遍天下也不怕!一冊在手,讓小白到老司機都能有所收穫!

——李舟軍,北京航空航天大學教授,博士生導師


本書從爬蟲入門到分散式抓取,詳細介紹了爬蟲技術的各個要點,並針對不同的場景提出了對應的解決方案。另外,書中通過大量的例項來幫助讀者更好地學習爬蟲技術,通俗易懂,乾貨滿滿。強烈推薦給大家!

——宋睿華,微軟小冰首席科學家


有人說中國網際網路的頻寬全給各種爬蟲佔據了,這說明網路爬蟲的重要性以及中國網際網路資料封閉壟斷的現狀。爬是一種能力,爬是為了不爬。

——施水才,北京拓爾思資訊科技股份有限公司總裁

全書目錄

書的目錄也有~ 看這裡!

  • 1-開發環境配置

  • 1.1-Python3的安裝

  • 1.2-請求庫的安裝

  • 1.3-解析庫的安裝

  • 1.4-資料庫的安裝

  • 1.5-儲存庫的安裝

  • 1.6-Web庫的安裝

  • 1.7-App爬取相關庫的安裝

  • 1.8-爬蟲框架的安裝

  • 1.9-部署相關庫的安裝

  • 2-爬蟲基礎

  • 2.1-HTTP基本原理

  • 2.2-網頁基礎

  • 2.3-爬蟲的基本原理

  • 2.4-會話和Cookies

  • 2.5-代理的基本原理

  • 3-基本庫的使用

  • 3.1-使用urllib

  • 3.1.1-傳送請求

  • 3.1.2-處理異常

  • 3.1.3-解析連結

  • 3.1.4-分析Robots協議

  • 3.2-使用requests

  • 3.2.1-基本用法

  • 3.2.2-高階用法

  • 3.3-正規表示式

  • 3.4-抓取貓眼電影排行

  • 4-解析庫的使用

  • 4.1-使用XPath

  • 4.2-使用Beautiful Soup

  • 4.3-使用pyquery

  • 5-資料儲存

  • 5.1-檔案儲存

  • 5.1.1-TXT文字儲存

  • 5.1.2-JSON檔案儲存

  • 5.1.3-CSV檔案儲存

  • 5.2-關係型資料庫儲存

  • 5.2.1-MySQL儲存

  • 5.3-非關係型資料庫儲存

  • 5.3.1-MongoDB儲存

  • 5.3.2-Redis儲存

  • 6-Ajax資料爬取

  • 6.1-什麼是Ajax

  • 6.2-Ajax分析方法

  • 6.3-Ajax結果提取

  • 6.4-分析Ajax爬取今日頭條街拍美圖

  • 7-動態渲染頁面爬取

  • 7.1-Selenium的使用

  • 7.2-Splash的使用

  • 7.3-Splash負載均衡配置

  • 7.4-使用Selenium爬取淘寶商品

  • 8-驗證碼的識別

  • 8.1-圖形驗證碼的識別

  • 8.2-極驗滑動驗證碼的識別

  • 8.3-點觸驗證碼的識別

  • 8.4-微博宮格驗證碼的識別

  • 9-代理的使用

  • 9.1-代理的設定

  • 9.2-代理池的維護

  • 9.3-付費代理的使用

  • 9.4-ADSL撥號代理

  • 9.5-使用代理爬取微信公眾號文章

  • 10-模擬登入

  • 10.1-模擬登入並爬取GitHub

  • 10.2-Cookies池的搭建

  • 11-App的爬取

  • 11.1-Charles的使用

  • 11.2-mitmproxy的使用

  • 11.3-mitmdump爬取“得到”App電子書資訊

  • 11.4-Appium的基本使用

  • 11.5-Appium爬取微信朋友圈

  • 11.6-Appium+mitmdump爬取京東商品

  • 12-pyspider框架的使用

  • 12.1-pyspider框架介紹

  • 12.2-pyspider的基本使用

  • 12.3-pyspider用法詳解

  • 13-Scrapy框架的使用

  • 13.1-Scrapy框架介紹

  • 13.2-Scrapy入門

  • 13.3-Selector的用法

  • 13.4-Spider的用法

  • 13.5-Downloader Middleware的用法

  • 13.6-Spider Middleware的用法

  • 13.7-Item Pipeline的用法

  • 13.8-Scrapy對接Selenium

  • 13.9-Scrapy對接Splash

  • 13.10-Scrapy通用爬蟲

  • 13.11-Scrapyrt的使用

  • 13.12-Scrapy對接Docker

  • 13.13-Scrapy爬取新浪微博

  • 14-分散式爬蟲

  • 14.1-分散式爬蟲原理

  • 14.2-Scrapy-Redis原始碼解析

  • 14.3-Scrapy分散式實現

  • 14.4-Bloom Filter的對接

  • 15-分散式爬蟲的部署

  • 15.1-Scrapyd分散式部署

  • 15.2-Scrapyd-Client的使用

  • 15.3-Scrapyd對接Docker

  • 15.4-Scrapyd批量部署

  • 15.5-Gerapy分散式管理

購買連結

想必很多小夥伴已經等了很久了,之前預售那麼久也一直遲遲沒有貨,發售就有不少網店又售空了,不過現在起不用擔心了!

書籍現已在京東、天貓、噹噹等網店上架並全面供應啦,複製連結到瀏覽器開啟或掃描二維碼開啟即可購買了!


640?wx_fmt=png 京東商城

https://item.jd.com/12333540.html

640?wx_fmt=png

640?wx_fmt=png 天貓商城

https://detail.tmall.com/item.htm?id=566699703917

640?wx_fmt=png

640?wx_fmt=png 噹噹網

http://product.dangdang.com/25249602.html

640?wx_fmt=png

歡迎大家購買,O(∩_∩)O

免費預覽

不放心?想先看看有些啥,沒問題!看這裡:

免費章節試讀(複製貼上至瀏覽器開啟):

https://cuiqingcai.com/5052.html

將一直免費開放前7章節,歡迎大家試讀!

好了,接下來就是我們的福利環節啦~

福利一:抽獎送書!!!

恭喜你看到這裡了!那麼接下來的福利時間就到了!後面還有兩個福利不容錯過哦~

抽獎送書活動第二波來襲(後面還有很多波哦),公眾號抽獎送 30 本作者親筆簽名書籍!!!

活動流程(重要,請一定認真閱讀)

公眾號進擊的Coder回覆 “抽獎” 獲取抽獎碼,2018.6.24 22:00 截止,逾期參與無效,請記住您的抽獎碼,活動結束後會從參與活動的小夥伴中根據幸運值按照權重比例抽取 30 位並在微信公眾號公佈,屆時請關注公眾號抽獎結果的公佈!獲獎的小夥伴會獲得作者親筆簽名《Python3網路爬蟲開發實戰》一本。

福利二:獨家優惠!!!

等等,你以為這就是全部福利嗎?當然不是!除了抽獎送書,我們還拿到了撥號VPS知名品牌雲立方的獨家優惠,在公眾號(進擊的Coder )中回覆:“優惠券”,即可免費領取雲立方50元主機優惠券數量有限,先到先得!優惠券可在雲立方官網(www.yunlifang.cn)購買動態IP撥號VPS時抵扣現金,有了它,爬蟲代理易如反掌!

640?wx_fmt=png

你問我動態撥號VPS能做什麼?應該怎麼用在爬蟲裡?來這裡瞭解一下:

輕鬆獲得海量穩定代理!ADSL撥號代理的搭建

福利三:視訊課程!!!

當然除了書籍,也有配套的視訊課程,作者同樣是崔慶才,二者結合學習效果更佳!限時優惠折扣中!掃描下圖中二維碼即可瞭解詳情!

640?wx_fmt=png

最後也是最重要的就是參與活動的地址了!!!快來掃碼回覆領取屬於你的福利吧!!!


隱形字

進擊的Coder

640?wx_fmt=gif640?wx_fmt=jpeg640?wx_fmt=gif

長按識別二維碼關注

特別緻謝

最後特別感謝雲立方、天善智慧對本活動的大力支援!

640?wx_fmt=jpeg 640?wx_fmt=png

相關文章