爬蟲 | 基本步驟和解析網頁的幾種方法

abloger發表於2024-06-05

原文網址 : https://www.cnblogs.com/abloger/p/18233524

爬蟲的步驟可以簡單的概括為：

獲取網頁並拿到HttpResponse物件，一般都是urllib庫或者requests庫

    # 設定要爬取的網頁，以及headers偽裝瀏覽器（最基本防反扒手段）
    url = 'https://example.com'
    headers = {
"User-Agent":"裡面的內容在瀏覽器--network--選擇一個html檢視Headers -- requests headers -- User-Agent"
}

    # urllib
    import urllib.request
    response = urllib.request.urlopen(url = url, headers = headers)
    response.read()  #>>>> 讀取網頁內容

    # requests
    import requests
    response = requests.get(url = url, headers = headers)
    response.text()  #>>>> 讀取網頁內容

解析網頁（正則、bs4、xpath）

"""正規表示式"""

# 先用compile預載入自定義的正規表示式（這樣速度快點）
 entity_regex = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'
                                  r'.*?<br>(?P<year>.*?)&nbsp'
                                  r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
                                  r'.*?<span>(?P<number>\d+)人評價</span>', flags=re.S)
        
        # 用迭代器獲取，還可以寫作re.finditer(entity_regex, page_content)
        entity_iter = entity_regex.finditer(page_content)

# 從迭代器中將各組資料單獨提取，則是group，如果直接提取字典，則是groupdict
        for entity in entity_iter:
        # print(entity.group('name'))
        # print(entity.group('year').strip())  # 因為年份前面有空格，所以用strip
        # # print(type(name.group('year').strip()))  # 用.*？匹配到的數字，格式是str字串
        # print(entity.group('score'))
        # print(entity.group('number'))
        # # print(type(name.group('number')))  # 用\d+匹配到的數字，格式依舊是str字串，因為正則匹配到的內容都用str返回

            dic = entity.groupdict()
            dic['year'] = dic['year'].strip()  # 單獨處理一下year的空白

儲存（csv）

  最好是一開始就設定好儲存檔案路徑等，如果不想用with open，那就直接用open+close
"""這裡最需要注意的就是處理with open 和 for迴圈的關係，否則一不留神就容易導致dic的值或者檔案被反覆覆蓋，只剩下最後一點資料"""
  
  # 用with open
    with open('top250.csv', 'w', encoding='utf-8') as f:  # 1) 建立一個文件
      csv_writer = csv.writer(f)                          # 2) 建立一個可寫物件
      csv_writer.writerow(dic.values())                   # 3）寫入

  # 用open + close
      f = open('top250.csv', 'w', encoding='utf-8')       # 1) 建立一個文件
      csv_writer = csv.writer(f)                          # 2) 建立一個可寫物件
      csv_writer.writerow(dic.values())                   # 3）寫入
      f.close()                                           # 4) 關閉檔案

關閉響應

   response.close() 
'''別忘了！'''

爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
網站建設製作網頁的基本步驟
2024-10-13
網站網頁
《網頁爬蟲》
2018-11-26
網頁爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
網頁設計的步驟和標準
2020-12-19
網頁
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
python爬蟲步驟是什麼呢？
2021-09-25
Python爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲 | 處理cookie的基本方法——session
2024-06-12
爬蟲CookieSession
解決目標網站封爬蟲的3步方法
2022-05-13
網站爬蟲
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
防止爬蟲被限制的三種方法
2022-06-13
爬蟲
網頁爬蟲--未完成
2020-10-04
網頁爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
頁面跳轉的幾種方法
2020-11-09
Python爬蟲精簡步驟1 獲取資料
2020-02-17
Python爬蟲
基本的爬蟲工作原理
2023-11-24
爬蟲
Linux上安裝MySQL的幾種常見方式的過程和步驟
2020-09-25
LinuxMySql
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
【教程】Debug 的基本步驟
2019-01-29
爬蟲智慧解析庫 Readability 和 Newspaper 的用法
2022-12-06
爬蟲
css網頁的幾種佈局
2019-02-27
CSS網頁
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
網路爬蟲技術是什麼，網路爬蟲的基本工作流程是什麼？
2019-03-03
爬蟲
【知識分享】dns解析伺服器的幾個步驟
2023-01-14
DNS伺服器
爬取資料時防止爬蟲被限制的四種方法
2022-06-07
爬蟲
獲取爬蟲動態IP的三種方法
2022-06-06
爬蟲
保障爬蟲穩定執行的四種方法
2022-07-04
爬蟲
解決DNS解析故障的幾種方法
2022-02-11
DNS

爬蟲 | 基本步驟和解析網頁的幾種方法

相關文章