Python網路爬蟲實戰

咕咚與隨從發表於2022-03-18

原文網址 : https://blog.csdn.net/qq_46351339/article/details/123584145

1. 確定 URL

from urllib import request
import re
#定義url
page=50
url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)

2.新增headers並抓取頁面程式碼

try:
    #定義請求頭
    headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
    #定義請求，傳入請求頭
    req=request.Request(url,headers=headrs)
    #開啟網頁
    resp=request.urlopen(req)
    #列印響應碼，解碼
    # print(resp.read().decode('utf-8'))

3. 使用正規表示式提取某一頁的所有段子

 content=resp.read().decode('utf-8')
    #定義正規表示式
    #<a rel="noopener" 具體的東西
    #.*? 匹配沒用的資料
    #(.*?)匹配有用資料分組
    #\s 空格
    pattern=re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
    #匹配html
    items=re.findall(pattern,content)
    #列印解析的內容
    for i in items:
        print("標題:"+i[0]+" 內容:"+i[1])

except request.URLError as e:
    #列印響應碼
    if hasattr(e,'code'):
        print(e.code)
    #列印異常原因
    if hasattr(e,'reason'):
        print(e.reason)

物件導向模式

from urllib import request
import re

class tieba:
    #初始化
    def __init__(self):
        # 定義url
        self.url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="
        # 定義請求頭
        self.headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
        #列表，儲存解析後的結果
        self.stories=[]
    #下載頁面
    def getPage(self,page_number):
        try:
            # 定義請求，傳入請求頭
            req=request.Request(self.url+str(page_number),headers=self.headrs)
            # 開啟網頁
            resp=request.urlopen(req)
            # 列印響應碼，解碼
            content=resp.read().decode("utf-8")
            return content
        except request.URLError as e:
            # 列印響應碼
            if hasattr(e, 'code'):
                print(e.code)
            # 列印異常原因
            if hasattr(e, 'reason'):
                print(e.reason)
    #解析頁面
    def rexgPage(self,content):
        # 定義正規表示式
        # <a rel="noopener" 具體的東西
        # .*? 匹配沒用的資料
        # (.*?)匹配有用資料分組
        # \s 空格
        pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
        # 匹配html
        items = re.findall(pattern, content)
        # 新增解析的內容
        for i in items:
            # print("標題:" + i[0] + " 內容:" + i[1])
            self.stories.append("標題:" + i[0] + " 內容:" + i[1])
    #顯示解析的內容
    def getContent(self):
        for i in self.stories:
            print(i)


#建立物件
c=tieba()
#呼叫方法
c.rexgPage(c.getPage(100))
c.getContent()

python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
乾貨分享！Python網路爬蟲實戰
2020-08-07
Python爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python 3網路爬蟲開發實戰
2021-04-28
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python網路爬蟲實戰(一)快速入門
2019-09-16
Python爬蟲
Python3網路爬蟲開發實戰
2021-04-15
Python爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
python3網路爬蟲開發實戰pdf
2021-11-30
Python爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
python實現selenium網路爬蟲
2021-03-11
Python爬蟲
Python3網路爬蟲快速入門實戰解析
2020-04-23
Python爬蟲
《Python 3網路爬蟲開發實戰》chapter3
2019-07-09
Python爬蟲APT
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲實戰之叩富網
2021-04-04
Python爬蟲
[Python3網路爬蟲開發實戰] Charles 的使用
2019-12-08
Python爬蟲
《Python3網路爬蟲開發實戰》開源啦！
2019-10-23
Python爬蟲
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
[Python3網路爬蟲開發實戰] --Splash的使用
2019-06-10
Python爬蟲
視訊教程-Python網路爬蟲開發與專案實戰-Python
2020-05-28
Python爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
精通 Python 網路爬蟲：核心技術、框架與專案實戰
2018-11-06
Python爬蟲框架
《Python3 網路爬蟲開發實戰》—學習筆記
2019-07-30
Python爬蟲筆記
Python網路爬蟲資料採集實戰：Requests和Re庫
2020-03-22
Python爬蟲
Python3網路爬蟲開發實戰（第二版）
2022-01-15
Python爬蟲
python 爬蟲實戰的原理
2021-10-29
Python爬蟲
Python爬蟲實戰之bilibili
2021-04-04
Python爬蟲
《網路爬蟲開發實戰案例》筆記
2020-08-10
爬蟲筆記
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java

Python網路爬蟲實戰

1. 確定 URL

2.新增headers並抓取頁面程式碼

3. 使用正規表示式提取某一頁的所有段子

物件導向模式

相關文章