Python爬蟲筆記（一）——基礎知識簡單整理

菜到懷疑人生發表於2018-07-08

原文網址 : https://blog.csdn.net/dhaiuda/article/details/80905434

Python爬蟲筆記

登陸時候的使用者名稱和密碼可以放在http的頭部也可以放在http的body部分。

HTTPS是否可以抓取

由於https運用的加密策略是公開的，所以即使網站使用https加密仍然可以獲得資料，但是類似於微信這樣的app，它自己實現了一套加密演算法，想要抓取資料就變得比較困難。

製作爬蟲時需要注意的HTTP欄位

HTTP請求頭部分欄位解釋：

accept：表明請求的資源型別

accept-charset：表示請求的資源的編碼方式

accept-encoding：表明傳送方可以支援的編碼方式，需要注意gzip，它表示的是壓縮，伺服器為了節省空間可能就會壓縮資源，如果我們的http頭部含有gzip，在爬蟲中要記得用gzip解碼。

connection：keep-alive：避免建立的TCP連線被關閉，當載入完所需要的全部資源後，會傳送一個頭部帶有connection：close的http報文關閉TCP連線，因為爬蟲不需要多次請求資料（例如載入網頁時，獲得了html檔案後，還會請求獲得css、js等檔案），所以可以直接去掉，或者將值設定為close

cookie：一般的登陸策略是把登陸的資訊寫入cookie，伺服器把cookie返回給客戶端，客戶端每次請求資料都會帶上cookie，cookie中儲存的資料一般比較小

HTTP響應頭部分欄位解釋：

set—cookie：設定cookie

status：狀態碼，表明伺服器響應請求的狀態，狀態碼返回403，可能是需要登陸，或者是IP被封禁（如果是撥號上網（通過DHCP動態分配IP），一般等待十秒左右再次撥號即可分到不同的公網IP），狀態碼錶示重定向時，在urllib2會自動對重定向做處理，如果狀態碼為5xx，不一定就是伺服器當機，在分散式爬蟲中，如果爬取同一伺服器的不同網頁的多個爬蟲連續收到5XX，則可能是伺服器當機

爬取網頁的HTTP方法

網頁的靜態部分直接採用get方法即可獲得

網頁動態部分的ajax請求可能採用的get方法也可能採用post方法，可以使用web容器自動處理ajax

爬蟲爬取網頁的策略

爬蟲爬取頁面時，可以採用深度優先搜尋（採用棧）或是廣度優先搜尋（採用佇列）的策略（請檢視圖的遍歷方式），不斷爬取外連結，要注意外連結是否被訪問過，可以採用BoomFilter

記錄抓取過的網頁的策略

1、將其抓取過的URL儲存到資料庫中，將url設定為不允許重複的主鍵，每次都查詢資料庫中是否存在該URL來防止URL重複，由於資料庫是對磁碟進行操作，因此效率低下

2、將爬取過的url儲存在雜湊表中，雜湊表位於記憶體中，且雜湊表的查詢速度快，從而提高效率，由於一個URL可能比較長，為了節省記憶體，可以採用MD5（將任意長度的資料量轉換為一個固定長度的數字，通常是4個整型）等摘要演算法，對URL進行壓縮後儲存。在百度谷歌上可以通過輸入site：+域名來獲得網站url的個數，根據網站的大小來進行雜湊演算法和儲存資料結構的選擇，從而初步確定儲存url需要開闢的記憶體空間

簡單練習——用python實現的BFS爬取豆瓣電影首頁超連結

from urllib import request
from collections import deque
from pybloom_live import BloomFilter
from lxml import etree
import hashlib

class crawel_bfs:  
    request_header={
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Encoding': 'br',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Cache-Control': 'max-age=0',
            'Connection': 'keep-alive',
            'Cookie': 'bid=Kn9AT5duD7k; gr_user_id=32e433a7-19f0-4e17-80c4-56b58d7c0056; _vwo_uuid_v2=5985FEE132C29EC9C840D6C5EDD95323|67c2ccc8467fc02a9cce6928e86ea013; ll="118281"; __yadk_uid=I4Ki5RUaEWOUdpVIjJfRYo1MEuaW36hA; __utmv=30149280.16369; viewed="10483489_1115600_2230208_26857712_1569487_1623164_26708119_26677686"; __utma=30149280.965685249.1516632348.1528892392.1530880979.81; __utmc=30149280; __utmz=30149280.1530880979.81.57.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt=1; __utmb=30149280.1.10.1530880979; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1530880982%2C%22https%3A%2F%2Fwww.douban.com%2F%22%5D; _pk_ses.100001.4cf6=*; __utma=223695111.2038558801.1520348154.1528892435.1530880982.55; __utmb=223695111.0.10.1530880982; __utmc=223695111; __utmz=223695111.1530880982.55.51.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; _pk_id.100001.4cf6=da4243a2a9e242f1.1520348154.54.1530881042.1528892472.',
            'Host': 'movie.douban.com',
            'Referer': 'https://www.douban.com/',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
            }
    
    cur_level=0
    max_level=2
        
    download_bf=BloomFilter(1024*1024,0.01)
    
    childque=deque()
    nowque=deque()
    
    def __init__(self,url,file_md5name,file_urlname):
        self.file_urlNameMd5_name=file_md5name
        self.file_urlName_name=file_urlname
        self.deal_file_md5=open(self.file_urlNameMd5_name,'r')
        self.file_md5=self.deal_file_md5.readlines()
        #用於輸入現有的檔案
        for url_md5_name in self.file_md5:
            #-1表示的是換行符,讀入時換行符不會佔據兩個字元
            self.download_bf.add(url_md5_name[:-1])
        self.deal_file_md5.close()
        self.file_md5=open(self.file_urlNameMd5_name,'a')     
        self.file_url=open(self.file_urlName_name,'a')
        self.nowque.append(url)
    
    def indeque(self,url):
        self.nowque.append(url)
        
    def outdeque(self):
        try:
            url=self.nowque.popleft()
            return url
        except Exception:
            self.cur_level+=1
            if self.cur_level==self.max_level:
                return None
            if len(self.childque)==0:
                return None
            self.nowque=self.childque
            self.childque=deque()
            return self.nowque.popleft()
        
    def crawler(self,url):
          try:
            #建立一個request物件，封裝一個報文物件
            req=request.Request(url,headers=self.request_header)
            #傳送報文
            response=request.urlopen(req)
            html_page=response.read()
            #按照固定編碼解碼
            html=etree.HTML(html_page.lower().decode('utf-8'))
            url_list=html.xpath('//a/@href')
            for url in url_list:
                if url.find('javascript:')!=-1:
                    continue
                if url.startswith('http://') is False:
                    if url.startswith('/') is True:
                        url='http://movie.douban.com'+url
                    else:
                        continue
                if url[-1]=='/':
                    url=url[:-1]
                temp=hashlib.md5(url.encode('utf-8')).hexdigest()
                if temp not in self.download_bf:
                    self.download_bf.add(url)
                    self.childque.append(url)
                    self.file_md5.write(temp+'\n')
                    self.file_url.write(url+'\n')
          except Exception:
            print("出現異常")
        
    def startcrawler(self):
        while True:
            url=self.outdeque()
            if url!=None:
                print("現在爬取"+url+"的超連結")
                self.crawler(url)
            else:
                break
        self.file_md5.close()
        self.file_url.close()
        
crawel=crawel_bfs("https://movie.douban.com/",'urlmd5.txt',
                  'urlname.txt')
crawel.startcrawler()

由於是簡單練習，所以沒有過分在意反爬蟲策略

效果如下：

urlname.txt檔案

urlmd5.txt檔案

Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
爬蟲基礎知識
2023-03-15
爬蟲
Python基礎知識整理
2019-03-08
Python
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
sql基礎知識（筆記）（一）
2020-12-29
SQL筆記
【爬蟲】第一章-Web基礎知識
2024-04-02
爬蟲Web
Python：基礎&爬蟲
2023-10-29
Python爬蟲
爬蟲開發知識入門基礎（1）
2020-06-22
爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
python簡單爬蟲(二)
2018-04-18
Python爬蟲
Python爬蟲從入門到精通系列──第1課基礎知識
2019-01-17
Python爬蟲
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
學 Java 網路爬蟲，需要哪些基礎知識？
2021-09-09
Java爬蟲
python爬蟲基礎概念
2020-05-11
Python爬蟲
python_爬蟲基礎
2024-07-30
Python爬蟲
Python學習筆記—day1—基礎知識
2019-02-27
Python筆記
vueX基礎知識點筆記
2020-06-27
Vue筆記
基礎知識學習筆記
2020-09-28
筆記
Babel基礎知識整理
2019-06-20
Babel
JS基礎知識整理
2022-03-16
JS
爬蟲筆記（一）
2019-03-27
爬蟲筆記
零基礎入門學習Python爬蟲必備的知識點！
2018-09-26
Python爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲
【Python基礎知識】Django框架簡介
2020-05-16
PythonDjango框架
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
python爬蟲基礎之urllib
2020-11-26
Python爬蟲
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
RxJava 學習筆記 -- 基礎知識
2018-09-06
RxJava筆記
iOS | 面試知識整理 - OC基礎 (一)
2019-09-17
iOS面試
Servlet基礎知識點整理
2018-12-14
Servlet
C++基礎知識整理
2024-04-06
C++