Python網路爬蟲實戰

咕咚與隨從發表於2022-03-18

1. 確定 URL

from urllib import request
import re
#定義url
page=50
url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)

2.新增headers並抓取頁面程式碼

try:
    #定義請求頭
    headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
    #定義請求,傳入請求頭
    req=request.Request(url,headers=headrs)
    #開啟網頁
    resp=request.urlopen(req)
    #列印響應碼,解碼
    # print(resp.read().decode('utf-8'))
   

3. 使用正規表示式提取某一頁的所有段子

 

 content=resp.read().decode('utf-8')
    #定義正規表示式
    #<a rel="noopener" 具體的東西
    #.*? 匹配沒用的資料
    #(.*?)匹配有用資料分組
    #\s 空格
    pattern=re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
    #匹配html
    items=re.findall(pattern,content)
    #列印解析的內容
    for i in items:
        print("標題:"+i[0]+" 內容:"+i[1])

except request.URLError as e:
    #列印響應碼
    if hasattr(e,'code'):
        print(e.code)
    #列印異常原因
    if hasattr(e,'reason'):
        print(e.reason)

物件導向模式

from urllib import request
import re

class tieba:
    #初始化
    def __init__(self):
        # 定義url
        self.url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="
        # 定義請求頭
        self.headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
        #列表,儲存解析後的結果
        self.stories=[]
    #下載頁面
    def getPage(self,page_number):
        try:
            # 定義請求,傳入請求頭
            req=request.Request(self.url+str(page_number),headers=self.headrs)
            # 開啟網頁
            resp=request.urlopen(req)
            # 列印響應碼,解碼
            content=resp.read().decode("utf-8")
            return content
        except request.URLError as e:
            # 列印響應碼
            if hasattr(e, 'code'):
                print(e.code)
            # 列印異常原因
            if hasattr(e, 'reason'):
                print(e.reason)
    #解析頁面
    def rexgPage(self,content):
        # 定義正規表示式
        # <a rel="noopener" 具體的東西
        # .*? 匹配沒用的資料
        # (.*?)匹配有用資料分組
        # \s 空格
        pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
        # 匹配html
        items = re.findall(pattern, content)
        # 新增解析的內容
        for i in items:
            # print("標題:" + i[0] + " 內容:" + i[1])
            self.stories.append("標題:" + i[0] + " 內容:" + i[1])
    #顯示解析的內容
    def getContent(self):
        for i in self.stories:
            print(i)


#建立物件
c=tieba()
#呼叫方法
c.rexgPage(c.getPage(100))
c.getContent()

相關文章