Python新書上市,強烈推薦!《Python網路資料爬取及分析從入門到精通(爬取篇)》導讀

Eastmount發表於2018-06-15

Python新書上市,強烈推薦!

《Python網路資料爬取及分析從入門到精通(爬取篇)》導讀

 


 

 

內容簡介

本書主要包括上下兩冊:
    《Python網路資料爬取及分析從入門到精通(爬取篇)》
    《Python網路資料爬取及分析從入門到精通(分析篇)》

資料爬取篇: 詳細講解了正規表示式、BeautifulSoup、Selenium、Scrapy、資料庫儲存相關的爬蟲知識,並通過例項讓讀者真正學會如何分析網站,抓取自己所需的資料。

資料分析篇: 詳細講解了Python資料分析常用庫、視覺化分析、迴歸分析、聚類分析、分類分析、關聯規則挖掘、文字預處理、詞雲分析及主題模型、複雜網路和基於資料庫的分析。

上冊突出爬取,下冊側重分析,強烈推薦讀者兩本書結合起來學習。

 

PS:最近參加CSDN2018年部落格評選,希望您能投出寶貴的一票。我是59號,Eastmount,楊秀璋。投票地址:https://bss.csdn.net/m/topic/blog_star2018/index

 

五年來寫了314篇部落格,12個專欄,是真的熱愛分享,熱愛CSDN這個平臺,也想幫助更多的人,專欄包括Python、資料探勘、網路爬蟲、影象處理、C#、Android等。現在也當了兩年老師,更是覺得有義務教好每一個學生,讓貴州學子好好寫點程式碼,學點技術,"師者,傳到授業解惑也",提前祝大家新年快樂。2019我們攜手共進,為愛而生。
 

 

購買地址

新書將於6月18日前與大家見面,請讀者耐心等待,也推薦大家購買學習。
大家可以在購物網站搜尋 "Python網路資料爬取及分析" 關鍵字進行購買,如下圖所示:

 


購買地址請點選下面的連結:
 

京東購買地址

淘寶購買地址

噹噹購買地址

天貓購買地址

 

 

 

前言花絮

合上電腦,閉上雙眼,這已是一年之後,《Python網路資料爬取及分析從入門到精通》終於完稿。起初很多出版社找我寫書,我是拒絕的,一方面實在太忙,這一年自己被借調到省裡學習,又有學校的課程和專案,身兼雙職,無暇顧及;另一方面始終覺得自己只懂個皮毛,只是個初出茅廬的“青椒”,還有太多的知識需要去學習和消化,寫書,哪有資格。

"相識滿天下,知心能幾人",是北航出版社的編輯董哥說服了我,讓我決定寫一本關於Python資料爬取及分析例項的書籍。結合著五年來在CSDN寫過的280多篇部落格、敲打的無數Python爬蟲程式碼以及網路資料分析例項,我用心撰寫著這部著作,同時它也是我和她愛情的見證,開始下一步Python人工智慧學習的階段性總結。

本書主要分為上下兩冊——“資料爬取篇”和“資料分析篇”,強烈推薦讀者兩本書結合起來使用。

在上冊“資料爬取篇”中,作者首先引入了網路爬蟲概念,然後講解了Python基礎知識,最後結合正規表示式、BeautifulSoup、Selenium、Scrapy、資料庫等技術,詳細分析了線上百科、個人部落格、豆瓣電影、招聘資訊、圖集網站、新浪微博等爬蟲案例,讓讀者真正掌握網路爬蟲的分析方法,從而爬取所需資料集,併為後續資料分析提供保障。當您讀完上冊書籍之後,作者推薦您購買下冊“資料分析篇”,它將更好地為您的資料探勘研究和資料分析專案開發提供幫助。

多少次深夜無眠,年青的秀璋加班回家後又開啟了電腦,開始撰寫他心愛的書籍。那一刻,所有的煩惱與疲憊都早已忘卻,留下的只是幸福和享受,彷彿整個世界都靜止了,所有人都站在了秀璋的身旁,靜靜地看著他,塔塔地敲打著鍵盤,有時他又停了下來,右手撐著臉頰片刻思考,有時他又抄起鋼筆,刷刷畫著什麼。

就這樣,數不清經歷了多少個午間休息、多少夜凌晨燈火、多少次來回上班的路途,我構思著、敲打著,終於撰寫完成了這本書籍。書是寫完了,但這期間的艱辛、酸甜又有多少人知道?無人可以述衷腸,但那又何妨?留一段剪影,於心中回放。不論您讀這本書的時候,是否有所收穫,秀璋都很用心地在撰寫,不為別的,只為給自己一個交代,給女神一個驚喜,讓初學Python爬蟲和資料分析的新手品嚐下程式碼的美味,感受下IT技術的變革,足矣。更何況這本書確實普及了很多有用的例項,從方法到程式碼,從基礎講解到深入剖析,採用圖文結合、實戰為主的方式講解,也為後續的人工智慧、資料科學、大資料等領域研究打下基礎。整本書上下兩冊就像秀璋的兩個孩子,“資料爬取篇”是他的兒子,“資料分析篇”是他的女兒,讓他愛不釋手,哺育著他們一天天成長。
 

 

 

 

新書亮點

1.新穎系統。由於市場上缺少一本以例項為驅動,全面詳細地介紹Python網路爬蟲及資料分析的書籍,本書很好的填補了這一空白,它通過Python語言來教讀者編寫網路爬蟲並教大家針對不同的資料集做演算法分析。

2.例項覆蓋。本書涵蓋了Python基礎知識、資料爬取、資料分析、資料預處理、資料視覺化、資料儲存、演算法評估等多方面知識,每一部分知識都從安裝過程、匯入擴充套件包到演算法原理、基礎語法,再結合例項詳細講解。

3.通俗易懂。本書結合作者多年來的Python開發經驗以及在CSDN分享的三個Python系列文章,在網際網路上享譽良好。


4.Python優勢。由於Python具有語法清晰、程式碼友好、易讀易學等特點,同時擁有強大的第三方庫支援,包括網路爬取、資料分析、繪圖視覺化、機器學習等;從來沒有一種程式語言可以像Python這樣同時紮根在這麼多領域,所以本書選擇了Python作為資料爬取和資料分析的程式語言。

 

5.讀者建議。本書適合於電腦科學、軟體工程、資訊科技、統計數學、資料科學、資料探勘、大資料、人工智慧等專業的學生學習,也適合對網路資料爬取、資料分析、文字挖掘、統計分析等領域感興趣的讀者閱讀,同時推薦教師選擇該書作為資料探勘、資料分析、資料爬取、機器學習、大資料等技術相關課程的教材或實驗指南。

 

 

"爬取篇" 章節詳解

"爬取篇"主要講解Python網路資料爬取知識,如下圖所示,表示爬取的基本流程及核心內容。
 


具體章節如下:
第1章 網路資料爬取概述
    1.1 網路資料爬蟲  1.2 相關技術  1.3 本章小結

第2章 Python知識初學
    2.1 Python簡介  2.2 基礎語法  2.3 資料型別  2.4 條件語句  2.5 迴圈語句 
    2.6 函式  2.7 字串操作  2.8 檔案操作  2.9 物件導向  2.10 本章小結

第3章 正規表示式爬蟲之牛刀小試
    3.1 正規表示式  3.2 Python網路資料爬取的常用模組  3.3 正規表示式抓取網路資料的常見方法
    3.4 個人部落格爬取例項  3.5 本章小結

第4章 BeautifulSoup技術
    4.1 安裝BeautifulSoup  4.2 快速開始BeautifulSoup解析  4.3 深入瞭解BeautifulSoup爬蟲
    4.4 BeautifulSoup簡單爬取個人部落格網站  4.5 本章小結

第5章 BeautifulSoup爬取電影資訊
    5.1 分析網頁DOM樹結構  5.2 爬取豆瓣電影資訊  5.3 連結跳轉分析及詳情頁面爬取  5.4 本章小結

第6章 Python資料庫知識
    6.1 MySQL資料庫  6.2 Python操作MySQL資料庫  6.3 Python操作Sqlite3資料庫  6.4 本章小結

第7章 基於資料庫儲存的BeautifulSoup招聘爬蟲
    7.1 知識圖譜和智聯招聘  7.2 BeautifulSoup爬取招聘資訊  7.3 Navicat for MySQL工具運算元據庫
    7.4 MySQL資料庫儲存招聘資訊  7.5 本章小結

第8章 Selenium技術
    8.1 初識Selenium  8.2 快速開始Selenium解析  8.3 定位元素
    8.4 常用方法和屬性  8.5 鍵盤和滑鼠自動化操作  8.6 導航控制  8.7 本章小結

第9章 Selenium技術爬取線上百科知識
    9.1 三大線上百科  9.2 Selenium爬取維基百科  9.3 Selenium爬取百度百科
    9.4 Selenium爬取互動百科  9.5 本章小結

第10章 基於資料庫儲存的Selenium部落格爬蟲
    10.1 部落格網站  10.2 Selenium爬取部落格資訊  10.3 MySQL資料庫儲存部落格資訊  10.4 本章小結

第11章 基於登入分析的Selenium微博爬蟲
    11.1 登入驗證  11.2 初識微博爬蟲   11.3 爬取微博熱門資訊  11.4 本章小結

第12章 基於圖片抓取的Selenium爬蟲
    12.1 圖片爬蟲框架  12.2 圖片網站分析  12.3 程式碼實現  12.4 本章小結

第13章 Scrapy技術爬取網路資料
    13.1 安裝Scrapy  13.2 快速瞭解Scrapy  13.3 Scrapy爬取貴州農產品資料集  13.4 本章小結

 

原書試讀

封面:感謝董哥他們的精心設計與付出。

 


爬蟲篇:
 

 


 

 

分析篇:

 

 

 

 

 

再"序"前緣

下面讓我帶領大家看看別人眼中的《Python網路資料爬取及分析從入門到精通》。

 

楊老師是我認識的人裡,最能忠於自己內心的人。在青春年少時他便能抱定自己的理想,多年來一直不忘初心、心無旁騖地朝著目標踽踽前行,既仰望星空,又腳踏實地,直到達成所願。


相較於大多數與夢想漸行漸遠的人們而言,他是幸運的,這幸運離不開他多年的努力與堅持。年少時,他可能從未想過自己會成為一名“程式猿”,誤打誤撞進入程式設計領域,從此在程式碼的世界裡樂此不疲,越走越遠。對於他而言,重要的是學有所成,繼承父親遺志,做一名傳道授業解惑的教師。

為此,他勤奮學習,縱然辛勞卻樂在其中;他樂於助人,以幫助、輔導他人學習技術為傲,從不求回報;他常有危機感,擔心自己學得還不夠,不足以為人傳道授業解惑;他也常常感嘆,為自己能在普及程式設計知識上做一點貢獻感到自豪。這些,構成了他五年來堅持在CSDN更新部落格的堅強動力,也是他在出版社多番邀請下,終於下定決心要傾自己所學寫一本書的初衷。

 

                                                                                                              —— 娜 · 序一

 

楊老師是一個善良、純粹而又執著的人,日常交往中人們很容易在他身上建立起信任感,他對得失的毫不計較,對教育事業的虔誠,對他人的真摯友善,對知識的尊重與渴求,無不深深打動著身邊的人。程式設計師有很多種,他可能並不是技術最厲害的,但他選擇了一條更為艱難的路,學習積累,潛心創作,教書育人,用一篇篇文章,一個個精彩的案例去幫助更多人。

作為長期陪伴左右的人,我敬他、戀他,同時從心底深深感激他為我傾注的一切。抱歉的是,在寫作這本書的過程中,於創作於生活我並未給他帶來多少幫助,甚至在他疲憊不堪還堅持熬夜寫書時多有抱怨。善良的他往往還我以寬容,默默承受誤解。直到後來我才知道,他如此執著原來是想早日成書,將這寶貴的“孩子”署上我的名字,送予我。

作為全書的第一個讀者,我深深地知道他對整套書所傾注的熾熱情感與心血,我們一起查閱資料、一起校稿、一起默默付出,書中的每一段文字、每一行程式碼都閃現著我們生活和工作中的點點滴滴,希望您在閱讀過程中,也能體會到我們滿滿的誠意。

謝謝來自程式設計師的浪漫,此生幸事莫過得一知己共白首!也希望所有的讀者能包容本書的不足之處,如果此書能激發您對資料探勘與分析的興趣,給您的學習和工作帶來些靈感和幫助,我們將怡然自得、不勝歡喜。程式設計路漫漫,期待與各位讀者的交流學習,共同進步。

                                                                                                             —— 娜 · 序二

 

 

當我被秀璋邀請為這本書寫序時,我首先感到的是驚訝和榮幸。這本書的作者是我最好的朋友之一,在大學期間,每個人都知道他當老師的夢想,之後他也確實回到了家鄉貴州,做著他喜歡的事情。我希望他能在教育領域保持著那份激情和初心,即使這是一個漫長而艱難的過程,但我相信他會用他的熱情和愛意克服一切困難,教書育人。


這是一本關於Python技術的網路爬蟲書籍,包括很多有用的例項,比如抓取線上百科、爬取技術部落格或新浪微博資料、挖掘招聘網站或豆瓣網電影資訊等。現在我們都知道了一些電腦科學相關的熱門術語,如機器學習、大資料、人工智慧等。我們可以每天在新聞中聽到這些技術,許多像我們SAP這樣的公司也關注這些新興的技術,以便將來為客戶提供更好的軟體解決方案和服務,從海量資訊中挖掘出有價值的知識,更好地為客戶提供幫助,為公司決策提供支撐。


但我們從哪裡開始學習這些新知識呢?我想你可能會在這裡找到答案。在本書中,秀璋介紹了一種可用於資料探勘等應用的基本技能——網路爬蟲技術。一個網路爬蟲通常是從網際網路上提取有用的資訊,它可以用來抓取結構化/非結構化文字、圖片或各類資料。藉助這些資料,我們可以構建自己的應用,例如Google知識圖譜、輿情分析系統、智慧傢俱應用等。

對於初學者來說,學習這本書中內容並不難,即使是那些不瞭解Python的讀者,也可以從這本書中快速入門。它就是一步步的教程,包括基本的Python語法、BeautifulSoup技術、Selenium技術、Scrapy框架等等。書中許多生動而有趣的案例讓你永遠不會覺得無聊,還有詳細的圖形指南和程式碼註釋。本書真的是學習Python資料爬取和資料分析的不二選擇,同時推薦你上下兩冊(上冊“爬取篇”,下冊“分析篇”)一起購買,結合起來學習。

如果你真的是Python、網路爬蟲、資料分析或大資料的忠實粉絲,請不要猶豫,從本書開始吧!


                                                                                                              —— perry · 序三

 

 

作為與秀璋同窗同寢的10年老友,有幸見證秀璋與娜娜相識相知相愛。此書可以說是他們愛的結晶。秀璋是深受朋友信任的好兄弟,亦是深受學生愛戴的好老師,似乎永遠有用不完的熱情,這種熱情,帶給我們這個社會一絲絲的溫暖,在人與人之間傳遞著。當初在部落格上不斷寫文章,並耐心解答網友們的各種問題,還幫助許多網友學習程式設計,指導作業甚至畢業論文,所以,當教師這顆種子早已種下。畢業後的秀璋,拿著同學們羨慕的Offer,卻毅然決然踏上返鄉的路,這一走,走進了大山裡的貴州,成了一名受人尊敬的人民教師。生活平淡而辛苦,而樂觀的秀璋在此時收穫了愛情,時也命也。

拒絕了無數聚會邀請,見證了無數貴陽的凌晨燈火,秀璋孜孜不倦寫下這本好書。作為見證這本書從下筆到問世的讀者,作為一個Python愛好及有一定資料分析功底的學生,讀這本書真是如晤老友——大量的網路資料爬取例項。本書配以專業但不生澀的語言,將原本枯燥的學術知識娓娓道來,此時的秀璋不是老師,是一個熟悉的老友,用大家聽得懂的話,解釋著您需要了解的一切。

總之,再多讚美的語言,都比不上滴滴汗水凝結的成功帶來的滿足與喜悅。願你合上書時,亦能感受到秀璋的真誠。

                                                                                                             —— 文 · 序四

 

後記與致謝

"貴州縱美路迢迢,未付勞心此一遭。搜得破書三四本,也堪將去教爾曹。"這首詩是我選擇離開北京,回到家鄉貴州任教那天寫的。每當看到那一張張笑臉、一雙雙求知的雙眼,我都覺得回家很值,也覺得有義務教好身邊的每一個學生;每當幫好友或陌生博友解決一個程式問題,得到了他們的一個祝福、一句感謝,總感覺有一股暖流從腳底板竄到天靈蓋,讓我浮動嘴角,溫馨一笑。而當我寫完這本書籍之時,又能幫助多少人?它究竟能促進資料分析學科的發展嗎?或是為貴州家鄉大資料發展做出點貢獻?我不知道,但就覺得挺好。希望書能幫助更多的初學者或Python愛好者,如果這本書對您有所幫助,也懇請您推廣給周圍的朋友,謝謝。

有人說秀璋選擇回家教書是情懷,有人覺得是逃避北上廣,也有人認為是作秀或是初心。但這些都不重要,重要的是經歷,是爭朝夕,人是為自己而活,而不關乎其他人的看法。我們赤條條的來,赤條條的去,片片經歷都將化為點點詩意,享受其中,何樂而不為呢?但同樣,我們需要學會感恩,能完成這本書少不了很多人的幫助。

感謝北航出版社的董伯樂的相知與相識,沒有董哥這樣的知心人,這本書就不會面世;感謝北航孫老師默默的校稿,已經記不得修訂了多少版,但每一版、每一段都透露出她的認真與嚴謹,也是她的心血;感謝身邊朋友同學、老師和同事的幫助和支援,尤其是替我作序的幾個知己;感謝娜女神對我的賞識與關心,出書之時就是我求婚之時,書裡的每一段文字、每一行程式碼都藏著對她的思戀,對她的愛意,否則又有什麼力量能支撐著我把書寫完呢?感謝親人、我的學生以及很多素未謀面的網友,謝謝您們的建議與支援;最後感謝一下自己,書寫完的那天,不知道眼角怎麼就浸溼了,真的好想大哭一場,但突然又笑了,這或許就是付出的滋味,一年的收成吧!
未忘初心,歲月靜好。

 

由於本書是結合讀者Python實際抓取網路資料和分析資料的研究,以及多年撰寫部落格經歷而編寫的,作者才疏學淺,書籍中會存在很多不足或講得不夠透徹的地方,還請廣大的讀者原諒,同時如果發現書籍中的錯誤,還請聯絡作者或出版社,可以發郵件或打電話等形式聯絡,再次感激所有人。

作者部落格:https://blog.csdn.net/Eastmount
作者郵箱:1455136241@qq.com

 

最後以作者離開北京選擇回貴州財經大學資訊學院任教的一首詩結尾吧!
    貴州縱美路迢迢,未付勞心此一遭。
    收得破書三四本,也堪將去教爾曹。
    但行好事,莫問前程。
    待隨滿天桃李,再追學友趣事。

作者書已出版,開始默默記錄勘誤,書中不足或錯誤之處,也請廣大讀者海涵,作者不會斷分享知識、補充能量、教書育人。同時,也開始徵集全國每個省一個祝福視訊,最終制作求婚的視訊,稱之為“點亮中國”,望她喜歡。現在還差河北、天津、山西、新疆、寧夏好友的視訊,還請大家幫忙,再次感謝!

 

 

 

(By:Eastmount 2018-06-15 上午9點  http://blog.csdn.net/eastmount/ )

相關文章