初探python之做一個簡單小爬蟲

SangSir發表於2019-03-02

原文網址 : https://flycode.co/archives/285395

準備工作

初探python，這個文章屬於自己的一個總結。所以教程面向新手，無技術含量。
python環境Linux基本都有，Windows下官網也提供了便利的安裝包，怎麼安裝配置網上有很多教程在此就不一一說明。
我使用的python版本為Python 3.6.4，後面的程式碼也是基於python3的。

分析需求

做一個小爬蟲離不開獲取網頁內容和匹配儲存內容，那麼我們先裝上python爬蟲的老朋友requests：
pip install requests
再裝上pymysql擴充套件，方便將匹配到的內容插入到mysql資料庫中：
pip install pymysql

第一步：獲取網頁內容

在python中有意思的是你需要什麼，就去import什麼，不像php一樣獲取網頁內容直接來個file_get_contents完事兒
廢話不多說，貼出程式碼來看一下：

# -*- coding:utf-8 -*-

# 載入 requests 模組
import requests
# GET方式獲取 Response 物件
response = requests.get(`https://www.xxx.com/`)
if response:
    # 輸出html程式碼到控制檯
    print(response.text)
else:
    # 輸出錯誤資訊
    print(`requests error`)
複製程式碼

在python中縮排一定要嚴格，初學者（4個空格為語句塊縮排）經常犯的錯誤是tab鍵和空間鍵混用，造成的縮排不一致。凡是報錯資訊看到：IndentationError: unexpected indent ，就是表示縮排不一致。
如果本身沒有編碼基礎，那麼我推薦你看一下python的基本概念：www.kuqin.com/abyteofpyth…
如果已經有了編碼基礎但對縮排這方面沒有深究，可以看python的縮排規範：www.kuqin.com/abyteofpyth…

好，寫完程式碼之後我們拿到控制檯試一下，完美輸出html程式碼

第二步：正則匹配內容

既然能夠獲取html程式碼，那我們就要找出需要的部分，這就用上了正則。Python 自1.5版本起增加了 re 模組，它提供 Perl 風格的正規表示式模式。具體細節可以在菜鳥教程中檢視：www.runoob.com/python/pyth…，話不多說再貼程式碼：

# -*- coding:utf-8 -*-
# 載入 requests 模組
import requests
# 載入 re 模組
import re

response = requests.get(`https://www.xxx.com/`)
# 正則匹配文字
match = re.findall(r`<p><!--markdown-->([sS]*?)</p>`, response.text)
if match:
    # 輸出匹配的內容到控制檯
    print(match[0])
else:
    # 輸出html程式碼到控制檯
    print(response.text)
複製程式碼

注：原網址為隨機一句文字顯示，每重新整理一次就會變化一次。

第三步：迴圈匹配並加入資料庫中

首先我們把資料庫和表做好，可以用sql語句建立：

CREATE DATABASE IF NOT EXISTS `sentence`;
USE `sentence`;

CREATE TABLE IF NOT EXISTS `sexy` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `content` varchar(50) NOT NULL,
  `datetime` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  UNIQUE KEY `content` (`content`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
複製程式碼

這裡將content設定為了UNIQUE KEY，是為了保證抓取到的內容不重複，如果有已存在的值便直接跳過

# -*- coding:utf-8 -*-
# 載入 requests 模組
import requests
# 載入 re 模組
import re
# 載入 pymysql 模組
import pymysql

# 開啟資料庫連線
db = pymysql.connect(`127.0.0.1`, `root`, `root`, `sentence`, charset=`utf8`)
# 使用cursor()方法獲取操作遊標
cursor = db.cursor()

#死迴圈到天長地久
while(True):
    response = requests.get(`https://www.xxx.com/`)
    # 正則匹配文字
    match = re.findall(r`<p><!--markdown-->([sS]*?)</p>`, response.text)
    if match:
        sql = "INSERT INTO `sexy` (`content`) VALUES (`%s`)" % (match[0])
        try:
           # 執行sql語句
           cursor.execute(sql)
           # 提交到資料庫執行
           db.commit()
        except:
           # 如果發生錯誤則回滾
           db.rollback()
        # 輸出sql語句到控制檯
        print(sql)
    else:
        # 輸出html程式碼到控制檯
        print(response.text)
複製程式碼

執行演示：

資料庫內容：

總結

python是個好東西，~~萬物based on python~~。
感覺教程貼比較難寫，每個地方都有細節，但如果講細了文章又太繁瑣，若簡單些不好取捨初學者又看不懂什麼意思，向那些寫易懂的入門教程文章的作者致敬。
注：由於原網址不方便公佈，程式碼中的網址全部替換為了xxx.com。
原始碼在Github中：github.com/st1ven/Pyth…，歡迎Star

nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
python最簡單的爬蟲 , 一看就會
2018-06-14
Python爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
Python爬蟲筆記（一）——基礎知識簡單整理
2018-07-08
Python爬蟲筆記
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
做個簡單的一年小結
2021-05-07
python爬蟲之抓取小說(逆天邪神)
2022-03-10
Python爬蟲
Python爬蟲可以做什麼？
2023-03-16
Python爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
Python爬蟲小結（轉）
2018-08-09
Python爬蟲
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
Python 爬蟲實戰之爬拼多多商品並做資料分析
2023-10-17
Python爬蟲
用Python做一個簡單的翻譯工具
2020-07-17
Python
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
python 爬蟲簡單實現百度翻譯
2020-04-14
Python爬蟲