《從零開始學Python網路爬蟲》概要
概要
本文集詳解網路爬蟲的原理、工具、框架和方法。
詳解從簡單網頁到非同步載入網頁,從簡單儲存到資料庫儲存,從簡單爬蟲到框架爬蟲等技術。
類別:
- 22個網路爬蟲綜合實戰案例、30個網站資訊提取
- 詳解爬蟲的3大方法:
正規表示式
、BeautifulSoup 4庫
和Lxml庫
- 詳解爬取資料的4大儲存方式:
TXT
、CSV
、MongoDB
和MySQL
- 詳解Scrapy爬蟲框架的安裝、專案建立、檔案使用及爬取資料的儲存
引子
隨著Internet的飛速發展,網際網路中每天都會產生大量的非結構化資料
。如何從這些非結構化資料中提取有效資訊,供人們在學習和工作中使用呢?這個問題促使網路爬蟲技術應運而生。
由於Python語言簡單易用,而且還提供了優秀易用的第三方庫和多樣的爬蟲框架,所以使得它成為了網路爬蟲技術的主力軍。
近年來,大資料技術發展迅速,資料爬取作為資料分析的一環也顯得尤為重要。程式設計師要進入與資料處理、分析和挖掘等相關的行業,就必須要掌握Python語言及其網路爬蟲的運用。
目錄
本章介紹了Python和PyCharm的安裝及Python最為簡單的語法基礎,包括簡單的流程控制、資料結構、檔案操作和麵向物件的程式設計思想。
本章通過介紹網路連線原理,進而介紹了爬蟲的原理,講解了爬蟲的基本流程,另外還介紹瞭如何使用Chrome瀏覽器認識網頁構造和查詢網頁資訊。
本章主要介紹了安裝請求和解析網頁的Python第三方庫、Requests庫和BeautifulSoup庫的使用方法,最後通過綜合案例手把手教會讀者編寫一個簡單的爬蟲程式。
本章主要介紹了正規表示式的常用符號及Python中re模組的使用方法,在不需要解析庫的情況下完成一個簡單的爬蟲程式。
本章主要介紹了Lxml庫在Mac和Linux環境中的安裝方法、Lxml庫的使用方法及Xpath語法知識,並且通過案例對正規表示式、BeautifulSoup和Lxml進行了效能對比,最後通過綜合案例鞏固Xpath語言的相關知識
本章主要介紹了API的使用和呼叫方法,對API返回的JSON資料進行解析,最後通過使用API完成一些有趣的綜合案例。
本章主要介紹了非關係型資料庫MongoDB和關係型資料庫MySQL的相關知識,並通過綜合案例展示了Python對兩種資料庫的儲存方法。
本章主要介紹了多執行緒及其概念,並通過案例對序列爬蟲和多程式爬蟲的效能進行了對比,最後通過綜合案例介紹了多程式爬取資料的方法和技巧。
本章主要介紹了非同步載入的基本概念,以及如何針對非同步載入網頁使用逆向工程抓取資料,最後通過綜合案例講解了逆向工程的使用方法和常用技巧。
本章主要介紹了Requests庫的POST方法,通過觀測表單原始碼和逆向工程來填寫表單以獲取網頁資訊,以及通過提交cookie資訊來模擬登入網站。
本章主要介紹了Selenium的模組的安裝、Selenium瀏覽器的選擇和安裝,以及Selenium模組的使用方法,最後通過綜合案例介紹瞭如何對採用非同步載入技術的網頁進行爬蟲。
第 12 章 Scrapy爬蟲框架
本章主要介紹了Windows 7環境中的Scrapy安裝和建立爬蟲專案的過程,並通過案例詳細講解了各個Scrapy檔案的作用和使用方法,而且通過多個綜合案例講解了如何通過Scrapy爬蟲框架把資料儲存到不同型別的檔案中,最後講解了如何編寫跨頁面網站的爬蟲程式碼。
相關文章
- 【從零開始學爬蟲】建立模板爬蟲
- 《從零開始學習Python爬蟲:頂點小說全網爬取實戰》Python爬蟲
- 從零開始的Python爬蟲速成指南Python爬蟲
- 【從零開始學爬蟲】對任務的操作爬蟲
- PYTHON系列-從零開始的爬蟲入門指南Python爬蟲
- 【從零開始學爬蟲】模板的高階選項爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- Python爬蟲學習之旅-從基礎開始Python爬蟲
- 從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲Python爬蟲
- 【從零開始學爬蟲】模板的複製與貼上爬蟲
- 從零開始寫一個node爬蟲(一)爬蟲
- 從零開始學爬蟲(3):通過MongoDB資料庫獲取爬蟲資料爬蟲MongoDB資料庫
- 從零開始學機器學習——網路應用機器學習
- 【從零開始學爬蟲】採集全國高校導師資料爬蟲
- 【從零開始學爬蟲】採集收視率排行資料爬蟲
- 從零開始學PythonPython
- 【從零開始學爬蟲】採集全國曆史天氣資料爬蟲
- Python 從零開始爬蟲(六)——動態爬取解決方案 之 手動分析Python爬蟲
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- 【從零開始學爬蟲】任務屬性配置中的兩點技巧爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- 從零開始,如何用puppeteer寫一個爬蟲指令碼爬蟲指令碼
- 小白如何學習Python網路爬蟲?Python爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 零基礎自學用Python 3開發網路爬蟲(一)Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲
- python DHT網路爬蟲Python爬蟲
- 從零開始寫一個node爬蟲(上)—— 資料採集篇爬蟲
- Python 基礎學習 網路小爬蟲Python爬蟲
- 《Python深度學習從零開始學》簡介Python深度學習
- 從零開始用 Python 構建迴圈神經網路Python神經網路
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 從零開始內網滲透學習內網
- Python 3網路爬蟲開發實戰Python爬蟲
- [Python3網路爬蟲開發實戰] 分散式爬蟲原理Python爬蟲分散式
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 《用Python寫網路爬蟲》--編寫第一個網路爬蟲Python爬蟲