Python爬蟲初學二（網路資料採集）

淺淺~Smile發表於2020-05-03

一、網路資料採集

1.什麼是網路資料採集

“網路資料採集”是指利用網際網路搜尋引擎技術實現有針對性、行業性、精準性的資料抓取，並按照一定規則和篩選標準進行資料歸類，並形成資料庫檔案的一個過程。

2.網路資料採集的特點

支援自定義表單。
支援自適應採集。
支援叢集採集。
支援各種報表匯出。
支援仿人工式的隨機採集資料。
支援自定義閱讀模板。
支援登陸、代理採集。
支援各種列表分頁採集。
支援各種內容分頁採集。
支援各種排重過濾。
各種採集日誌和採集源日誌監控。
支援採集網站、採集源管理。
支援採集圖片、附件、音訊，視訊等檔案或附件。附件與正文自動對映與關聯。
支援多種附件儲存方式，可儲存至磁碟或資料庫。
支援附件的壓縮儲存。
支援對採集來的資訊進行二次加工。支援採集內容的自動排版。
真正的多使用者採集系統，每個操作都要記錄操作內容、操作人以及操作時間。
真正的多線層、多工採集、叢集採集。
圖形監控網路使用情況、採集情況等。
支援海量資料採集。
軟體實用、易用、功能強大。
可移植、可擴充套件、可定製。

Python 給人的印象是抓取網頁非常方便，提供這種生產力的，主要依靠的就是 urllib、requests這兩個模組。

這裡重點介紹requests模組。

二、網路資料採集之urllib庫

官方文件地址：https://docs.python.org/3/library/urllib.html
urllib庫是python的內建HTTP請求庫，包含以下各個模組內容：
（1）urllib.request：請求模組
（2）urllib.error：異常處理模組
（3）urllib.parse：解析模組
（4）urllib.robotparser：robots.txt解析模組

urlopen進行簡單的網站請求，不支援複雜功能如驗證、cookie和其他HTTP高階功能，若要支援這些功能必須使用build_opener()函式返回的OpenerDirector物件。

很多網站為了防止程式爬蟲爬網站照成網站癱瘓，會需要攜帶一些headers頭部資訊才能訪問, 我們可以通過urllib.request.Request物件指定請求頭部資訊.

from urllib.request import urlopen, Request

# 方法一: 通過get方法請求url
with urlopen('http://www.python.org/') as f:
    # 預設返回的頁面資訊是bytes型別, bytes型別轉換成字串，decode方法。
    print(f.read(300).decode('utf-8'))

#  方法二: Request物件發起請求
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'
# 封裝請求頭部資訊， 模擬瀏覽器向伺服器發起請求
request = Request('http://www.python.org/', headers={'User-Agent': user_agent})
with urlopen(request) as f:
    # 預設返回的頁面資訊是bytes型別, bytes型別轉換成字串，decode方法。
    print(f.read(300).decode('utf-8'))

執行結果如下：

三、網路資料採集之requests庫

1.requests安裝

requests官方網址: https://requests.readthedocs.io/en/master/
安裝:

pip install -i http://pypi.douban.com/simple requests

2.request方法彙總

方法	說明
requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應於HTTP的GET
requests.head()	獲取HTML網頁頭資訊的方法
requests.post()	向HTML網頁提交POST請求的方法，對應於HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應於HTTP的PUT
requests.patch()	向HTML網頁提交區域性修改請求，對應於HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求，對應於HTTP的DELETE

3.response物件彙總

from urllib.error import HTTPError

import requests


def get():
    # get方法可以獲取頁面資料，也可以提交非敏感資料
    # url = 'http://127.0.0.1:5000/'
    # url = 'http://127.0.0.1:5000/?username=fentiao&page=1&per_page=5'
    url = 'http://127.0.0.1:5000/'
    try:
        params = {
            'username': 'lucky',
            'page': 1,
            'per_page': 5
        }
        response = requests.get(url, params=params)
        print(response.text, response.url)
        # print(response)
        # print(response.status_code)
        # print(response.text)
        # print(response.content)
        # print(response.encoding)
    except HTTPError as e:
        print("爬蟲爬取%s失敗: %s" % (url, e.reason))


def post():
    url = 'http://127.0.0.1:5000/post'
    try:
        data = {
            'username': 'admin',
            'password': 'westos12'
        }
        response = requests.post(url, data=data)
        print(response.text)
    except HTTPError as e:
        print("爬蟲爬取%s失敗: %s" % (url, e.reason))


if __name__ == '__main__':
    get()
    # post()

4.response物件

Response物件包含伺服器返回的所有資訊，也包含請求的Request資訊。

屬性	說明
r.status_code	HTTP請求的返回狀態，200表示連線成功，404失敗
r.text	HTTP響應內容的字串形式，URL對應的頁面內容
r.content	HTTP響應內容的二進位制形式
r.encoding	從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding	從內容中分析出的響應的編碼方式(備選編碼方式)

四.高階應用一：新增headers

有些網站訪問時必須帶有瀏覽器等資訊，如果不傳入headers就會報錯

headers = {'User=Agent':useragent}
response = requests.get(url, headers = heders)

UserAgent是識別瀏覽器的一串字串，相當於瀏覽器的身份證，在利用爬蟲爬取網站資料時，頻繁更換UserAgent可以避免觸發相應的反爬機制。
fake-useragent對頻繁更換UserAgent提供了很好的支援，可謂防反扒利器。

# 使用者代理
import requests
from fake_useragent import UserAgent

def add_headers():
    """
    封裝一個請求頭部，獲取頁面的時候加進去，get,post都可以
    不同的瀏覽器 請求頭部不同
    """
    #谷歌瀏覽器的請求頭部 拷貝過來
    # headers= {'user_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}
    # 預設情況下python爬蟲的使用者代理是：客戶端請求的user_agent: python-requests/2.22.0

    ua = UserAgent() # 從網路獲取所有的使用者代理
    # print(ua.random) #可以隨機拿出一個使用者代理
    headers = {'user_Agent': ua.random}
    response = requests.get('http://127.0.0.1:5000', headers=headers)
    print(response)

if __name__ == '__main__':
    add_headers()

五.高階應用二：IP代理設定

在進行爬蟲爬取時，有時候爬蟲會被伺服器給遮蔽掉，這時採用的方法主要有降低訪問時間，通過代理IP訪問。ip可以從網上抓取，或者某寶購買。

proxies = { "http": "http://127.0.0.1:9743", "https": "https://127.0.0.1:9743",} 
response = requests.get(url, proxies=proxies)

# IP代理
import requests
from fake_useragent import UserAgent

ua = UserAgent()
# 代理IP
proxies = {
    'http':'http://222.95.144.65:3000',
    'https':'https://182.92.220.212:8080'
}
response = requests.get('http://47.92.255.98:8000',
             headers = {'User-Agent':ua.random},
             proxies = proxies)

print(response)
# 這是因為伺服器端會返回資料：get提交的資料和請求的客戶端ip
#如何判斷是否成功：返回的客戶端IP剛好是代理IP
print(response.text)

六.專案案例一：京東商品的爬取

from urllib.error import HTTPError

import requests
from colorama import Fore
from fake_useragent import UserAgent


def download_page(url, parmas=None):
    try:
        ua = UserAgent()
        headers = {'User-Agent': ua.random}
        response = requests.get(url, params=parmas, headers=headers)
    except  HTTPError as e:
        print(Fore.RED + '[-] 爬取網站%s失敗: %s' % (url, e.reason))
        return None
    else:
        # content返回的是bytes型別
        return response.content


def download_file(content=b'', filename='hello.html'):
    """
    :param content: 要寫入本地的html字元bytes型別
    :param filename: 寫入本地的檔名
    :return:
    """
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN + '[+]寫入檔案%s成功' % (filename))


if __name__ == '__main__':
    # url = 'https://item.jd.com/100012015170.html'
    # html = download_page(url)
    # download_file(content=html)
    url = 'https://www.so.com/s'
    params = {
        'q': 'python'
    }
    content = download_page(url, params)
    download_file(content)

測試結果：

七.專案案例二：百度/360搜尋關鍵字提交百度/360搜尋關鍵字提交

百度的關鍵詞介面：https://www.baidu.com/baidu?wd=xxx&tn=monline_4_dg
360的關鍵詞介面：http://www.so.com/s?q=keyword

from urllib.error import HTTPError
from colorama import Fore
import requests
from fake_useragent import UserAgent

def download_page(url, params=None):
        try:
            ua = UserAgent()
            headers = {'User-Agent': ua.random}
            response = requests.get(url, params=params, headers = headers)
        except HTTPError as e:
            print(Fore.RED + '[-] 爬取網站失敗:%s' %(url, e.reason) )
            return None
        else:
            return response.content  #content 返回的是bytes型別

def download_file(content = b'' ,filename='craw.html'):
    """
    :param filename: 寫入本地的檔名
    :param content: 要寫入本地的html字串  bytes型別
    :return:
    """
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN+'[+] 寫入檔案%s成功' %(filename))

if __name__ == '__main__':
    url = 'https://www.so.com/s'
    params = {
        'q':'python'
    }
    content = download_page(url,params)
    download_file(content)