Python爬蟲學習之旅-從基礎開始

楠槡發表於2018-01-15

很早就想學習爬蟲了，但是一直沒有開始。18年給自己定了很多學習計劃，大體還是循序漸進的，整理下思路，Docker容器化和Python爬蟲應該是擺在前置位的，算是基礎。Web方面，dotNet Core感覺有點陷入僵局了，只好暫且放一放，轉而學習下Python的爬蟲和Web框架-Django等，算是換換思路。Talk is cheap，show me the code！

爬蟲原理

知其然，知其所以然。使用爬蟲，必須要先理解爬蟲的原理，先說下爬蟲的基本流程和基本策略。

爬蟲的基本流程

網路爬蟲的基本工作流程如下：

提供種子URL
任務佇列開始處理種子URL
根據URL，解析DNS，下載URL相對應的網頁，儲存已下載網頁，將URL歸入已抓取URL佇列。
分析已抓取URL佇列，將URL中的內鏈放入待抓取URL佇列，進行迴圈
解析下載網頁，獲取所需資料
存入資料庫，資料持久化處理

爬蟲的基本策略

在爬蟲系統中，待處理URL佇列是很重要的一部分。待處理URL佇列的處理順序也很重要，因為這涉及到抓取頁面的順序，而決定這些URL佇列排序的方法，叫做抓取策略。

這裡例舉兩種常用的策略方法：

DFS(深度優先策略) 深度優先策略是指爬蟲從某個URL開始，一個連結一個連結的爬取下去，直到處理完了某個連結所在的所有線路，才切換到其它的線路。此時抓取順序為：A -> B -> C -> D -> E -> F -> G -> H -> I -> J
BFS(廣度優先策略) 寬度優先遍歷策略的基本思路是，將新下載網頁中發現的連結直接插入待抓取URL佇列的末尾。也就是指網路爬蟲會先抓取起始網頁中連結的所有網頁，然後再選擇其中的一個連結網頁，繼續抓取在此網頁中連結的所有網頁。此時抓取順序為：A -> B -> E -> G -> H -> I -> C -> F -> J -> D

爬蟲工具

工欲善其事，必先利其器。

實現Python爬蟲，一些得力助手是必不可少的，下面一一介紹一下。

anaconda

anaconda官網 - 是Python的一個科學計算的發行版。

這裡以官方最新版本（18/1/10）3-5.0.1為例，通過安裝指令碼安裝(Ubuntu環境)。

事實上，win下的安裝更為簡單，也可以配合PyCharm食用更佳。

因為資源在國外，所以下載速度很慢，可以使用清華大學映象源

$ wget 
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh
$ bash Anaconda3-5.0.1-Linux-x86_64.sh
複製程式碼

下載並執行指令碼後，按照提示逐步安裝。

Requests

Requests官方文件 - 是一個urllib的升級版本打包了全部功能並簡化了使用方法。

python 安裝模組十分方便，直接使用pip指令安裝

$ pip install requests
複製程式碼

當然，因為安裝的是 python 的 anaconda 發行版，所以也可以使用 conda 指令進行安裝。

$ conda install requests
複製程式碼

LXML

一個HTML解析包用於輔助beautifulsoup解析網頁。

$ pip install lxml
複製程式碼

BeautifulSoup

BeautifulSoup官方文件 - 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式。對於初學者而言，體驗大大由於使用正規表示式自行匹配。

$ pip install beautifulsoup4
複製程式碼

簡單爬蟲測試

先來建立第一個指令碼，這裡預設已有Python基礎。

#!/usr/bin/env python
# coding=utf-8

import requests ## 匯入requests
from bs4 import BeautifulSoup ## 匯入bs4中的BeautifulSoup
import os

## 瀏覽器請求頭資訊，模擬瀏覽器
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

## 開始的URL地址
all_url = 'http://www.mzitu.com/all'  

## 使用requests中的get方法來獲取all_url
start_html = requests.get(all_url,headers=headers)  

## 列印出start_html 
print(start_html.text) 
複製程式碼

執行後獲取並列出妹子圖所有的標題和連結。

這就是一個最簡單的爬蟲示例。

從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
《從零開始學Python網路爬蟲》概要
2018-08-29
Python爬蟲
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
《從零開始學習Python爬蟲：頂點小說全網爬取實戰》
2024-07-06
Python爬蟲
Python爬蟲基礎學習，從一個小案例來學習xpath匹配方法
2018-06-19
Python爬蟲
【從零開始學爬蟲】建立模板
2023-01-06
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python：基礎&爬蟲
2023-10-29
Python爬蟲
Python基礎語法：開始你的Python之旅
2019-01-26
Python
python爬蟲基礎概念
2020-05-11
Python爬蟲
python_爬蟲基礎
2024-07-30
Python爬蟲
從零開始學 Python 之基礎語法
2018-03-27
Python
學爬蟲，我需要掌握哪些Python基礎？
2018-08-21
爬蟲Python
Python案例學習——模組和包、爬蟲的基礎概念
2020-12-27
Python爬蟲
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
【0基礎學爬蟲】爬蟲基礎之檔案儲存
2023-04-07
爬蟲
Python零基礎爬蟲教學（實戰案例手把手Python爬蟲教學）
2020-04-17
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
python爬蟲基礎之urllib
2020-11-26
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
【從零開始學爬蟲】對任務的操作
2022-12-07
爬蟲
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
python爬蟲學習1
2020-11-29
Python爬蟲
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
【從零開始學爬蟲】模板的高階選項
2023-01-06
爬蟲
0基礎學GUI，先從基礎開始1
2020-11-22
GUI
【Python】從0開始寫爬蟲——轉身扒豆瓣電影
2018-08-16
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
爬蟲基礎
2019-03-30
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Pyppeteer 的使用
2023-05-15
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Playwright 的使用
2023-04-28
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Selenium 的使用
2023-04-21
爬蟲
【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用
2023-03-26
爬蟲
從零開始的爬蟲專案（一）
2020-04-23
爬蟲