《從零開始學Python網路爬蟲》概要

weixin_34075551發表於2018-08-29

概要


本文集詳解網路爬蟲的原理、工具、框架和方法。

詳解從簡單網頁到非同步載入網頁,從簡單儲存到資料庫儲存,從簡單爬蟲到框架爬蟲等技術。

類別:

  • 22個網路爬蟲綜合實戰案例、30個網站資訊提取
  • 詳解爬蟲的3大方法:正規表示式BeautifulSoup 4庫Lxml庫
  • 詳解爬取資料的4大儲存方式:TXTCSVMongoDBMySQL
  • 詳解Scrapy爬蟲框架的安裝、專案建立、檔案使用及爬取資料的儲存

引子

隨著Internet的飛速發展,網際網路中每天都會產生大量的非結構化資料。如何從這些非結構化資料中提取有效資訊,供人們在學習和工作中使用呢?這個問題促使網路爬蟲技術應運而生。

由於Python語言簡單易用,而且還提供了優秀易用的第三方庫和多樣的爬蟲框架,所以使得它成為了網路爬蟲技術的主力軍。

近年來,大資料技術發展迅速,資料爬取作為資料分析的一環也顯得尤為重要。程式設計師要進入與資料處理、分析和挖掘等相關的行業,就必須要掌握Python語言及其網路爬蟲的運用。

目錄

第 1 章 Python零基礎語法入門

本章介紹了Python和PyCharm的安裝及Python最為簡單的語法基礎,包括簡單的流程控制、資料結構、檔案操作和麵向物件的程式設計思想。

第 2 章 爬蟲原理和網頁構造

本章通過介紹網路連線原理,進而介紹了爬蟲的原理,講解了爬蟲的基本流程,另外還介紹瞭如何使用Chrome瀏覽器認識網頁構造和查詢網頁資訊。

第 3 章 我的第一個爬蟲程式

本章主要介紹了安裝請求和解析網頁的Python第三方庫、Requests庫和BeautifulSoup庫的使用方法,最後通過綜合案例手把手教會讀者編寫一個簡單的爬蟲程式。

第 4 章 正規表示式

本章主要介紹了正規表示式的常用符號及Python中re模組的使用方法,在不需要解析庫的情況下完成一個簡單的爬蟲程式。

第 5 章 Lxml庫與Xpath語法

本章主要介紹了Lxml庫在Mac和Linux環境中的安裝方法、Lxml庫的使用方法及Xpath語法知識,並且通過案例對正規表示式、BeautifulSoup和Lxml進行了效能對比,最後通過綜合案例鞏固Xpath語言的相關知識

第 6 章 使用API

本章主要介紹了API的使用和呼叫方法,對API返回的JSON資料進行解析,最後通過使用API完成一些有趣的綜合案例。

第 7 章 資料庫儲存

本章主要介紹了非關係型資料庫MongoDB和關係型資料庫MySQL的相關知識,並通過綜合案例展示了Python對兩種資料庫的儲存方法。

第 8 章 多程式爬蟲

本章主要介紹了多執行緒及其概念,並通過案例對序列爬蟲和多程式爬蟲的效能進行了對比,最後通過綜合案例介紹了多程式爬取資料的方法和技巧。

第 9 章 非同步載入

本章主要介紹了非同步載入的基本概念,以及如何針對非同步載入網頁使用逆向工程抓取資料,最後通過綜合案例講解了逆向工程的使用方法和常用技巧。

第 10 章 表單互動與模擬登入

本章主要介紹了Requests庫的POST方法,通過觀測表單原始碼和逆向工程來填寫表單以獲取網頁資訊,以及通過提交cookie資訊來模擬登入網站。

第 11 章 Selenium模擬瀏覽器

本章主要介紹了Selenium的模組的安裝、Selenium瀏覽器的選擇和安裝,以及Selenium模組的使用方法,最後通過綜合案例介紹瞭如何對採用非同步載入技術的網頁進行爬蟲。

第 12 章 Scrapy爬蟲框架
本章主要介紹了Windows 7環境中的Scrapy安裝和建立爬蟲專案的過程,並通過案例詳細講解了各個Scrapy檔案的作用和使用方法,而且通過多個綜合案例講解了如何通過Scrapy爬蟲框架把資料儲存到不同型別的檔案中,最後講解了如何編寫跨頁面網站的爬蟲程式碼。

相關文章