O'Reilly精品圖書推薦:Python網路資料採集

OReillyData發表於2017-02-10

書名:Python網路資料採集

作者Ryan Mitchell 著

譯者:陶俊傑, 陳小莉 譯

國內出版社:人民郵電出版社

出版時間:2016年03月

頁數:200

書號:978-7-115-41629-2

原版書書名:Web Scraping with Python

原版書出版商:O'Reilly Media



內容介紹


網路上的資料量越來越大,單靠瀏覽網頁獲取資訊越來越困難,如何有效地提取並利用資訊已成為一個巨大的挑戰。本書採用簡潔強大的Python語言,全面介紹網路資料採集技術,教你從不同形式的網路資源中自由地獲取資料。你將學會如何使用Python指令碼和網路API一次性採集並處理成千上萬個網頁上的資料。

本書適合熟悉Python的程式設計師、安全專業人士、網路管理員閱讀。書中不僅介紹了網路資料採集的基本原理,還深入探討了更高階的主題,比如分析原始資料、用網路爬蟲測試網站等。此外,書中還提供了詳細的程式碼示例,以幫助你更好地理解書中的內容。

通過閱讀本書,你將能夠:

  • 解析複雜的HTML頁面

  • 遍歷多個網頁和網站

  • 瞭解API的基本概念和工作原理

  • 學習儲存資料的方法

  • 下載、讀取並抽取網路文件中的資料

  • 使用工具和方法清洗格式異常的資料

  • 讀取並處理自然語言

  • 越過表單和登入視窗採集資料

  • 學習採集JavaScript的方法

  • 學習影象處理和文字識別方法


作者介紹


Ryan Mitchell是資料科學家、軟體工程師,目前在波士頓LinkeDrive公司負責開發公司的API和資料分析工具。此前,曾在Abine公司構建網路爬蟲和網路機器人。她經常做網路資料採集專案的諮詢工作,主要面向金融和零售業。另著有Instant Web Scraping with Java。

640?wx_fmt=png


相關文章