O'Reilly精品圖書推薦:Python網路資料採集
書名:Python網路資料採集
作者:Ryan Mitchell 著
譯者:陶俊傑, 陳小莉 譯
國內出版社:人民郵電出版社
出版時間:2016年03月
頁數:200
書號:978-7-115-41629-2
原版書書名:Web Scraping with Python
原版書出版商:O'Reilly Media
內容介紹
網路上的資料量越來越大,單靠瀏覽網頁獲取資訊越來越困難,如何有效地提取並利用資訊已成為一個巨大的挑戰。本書採用簡潔強大的Python語言,全面介紹網路資料採集技術,教你從不同形式的網路資源中自由地獲取資料。你將學會如何使用Python指令碼和網路API一次性採集並處理成千上萬個網頁上的資料。
本書適合熟悉Python的程式設計師、安全專業人士、網路管理員閱讀。書中不僅介紹了網路資料採集的基本原理,還深入探討了更高階的主題,比如分析原始資料、用網路爬蟲測試網站等。此外,書中還提供了詳細的程式碼示例,以幫助你更好地理解書中的內容。
通過閱讀本書,你將能夠:
解析複雜的HTML頁面
遍歷多個網頁和網站
瞭解API的基本概念和工作原理
學習儲存資料的方法
下載、讀取並抽取網路文件中的資料
使用工具和方法清洗格式異常的資料
讀取並處理自然語言
越過表單和登入視窗採集資料
學習採集JavaScript的方法
學習影象處理和文字識別方法
作者介紹
Ryan Mitchell是資料科學家、軟體工程師,目前在波士頓LinkeDrive公司負責開發公司的API和資料分析工具。此前,曾在Abine公司構建網路爬蟲和網路機器人。她經常做網路資料採集專案的諮詢工作,主要面向金融和零售業。另著有Instant Web Scraping with Java。
相關文章
- [O'Reilly精品圖書推薦]社交媒體大資料分析大資料
- O'Reilly精品圖書推薦:Spark高階資料分析Spark
- O'Reilly精品圖書推薦:資料科學入門資料科學
- [O'Reilly精品圖書推薦]Hadoop生態系統Hadoop
- O'Reilly精品圖書推薦:大資料猩球:海量資料處理實踐指南大資料
- [O'Reilly精品圖書推薦]大資料倫理:平衡風險與創新大資料
- O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧演算法HadoopSpark大資料
- 資料那些書——O'Reilly
- Python網路資料採集(爬蟲)Python爬蟲
- O'Reilly圖書程式碼字型(附排版要求)
- 《Python網路資料採集》筆記一Python筆記
- python網路資料採集 - 讀書筆記 - 糾錯與記錄Python筆記
- 圖書網站資訊採集網站
- Python網路資料採集之審查元素Python
- 199IT推薦圖書:O2O:移動網際網路時代的商業革命–[平裝]
- 網站相關圖書推薦網站
- Python爬蟲初學二(網路資料採集)Python爬蟲
- 五款精品資料視覺化工具推薦視覺化
- 地圖資料採集,包括百度地圖採集,高德地圖採集,360地圖採集地圖
- MySQL精品學習資源合集 | 含學習教程筆記、運維技巧、圖書推薦MySql筆記運維
- 網際網路產品經理,全方位入門,圖書推薦
- 學習 Qt 程式設計的好書精品推薦!QT程式設計
- Python網路爬蟲資料採集實戰:Requests和Re庫Python爬蟲
- 深度學習實驗資料集網站推薦深度學習網站
- phpQuery採集網站資料PHP網站
- 網頁資料採集器網頁
- 網路分流器|網路分流器大資料採集方案大資料
- 網路分流器-移動信令採集裝置-大資料採集方案大資料
- 大資料_資料採集_網頁01大資料網頁
- [圖書] Golang 優質開源圖書推薦Golang
- python 書籍推薦 三Python
- 推薦研究網際網路必讀的10本書
- [翻譯]關於電子書的思考 by Tim O'Reilly
- O’Reilly:調查發現雲端計算採用率繼續上升
- O'Reilly副總裁Mike Hendrickson:技術圖書出版的未來(圖靈訪談)圖靈
- 機器學習和資料探勘的推薦書單機器學習
- .NET Core 網路資料採集 -- 使用AngleSharp做html解析HTML
- Python 閱讀書目推薦Python