北郵《Python程式設計與實踐》——爬蟲學習

declandragon發表於2021-12-14

原文網址 : https://learnku.com/articles/63626

豆瓣讀書列表採集程式碼

import requests
from requests.structures import CaseInsensitiveDict
from lxml import etree
import csv

book_info = []
page = 1
while 1:
    page_url = f"https://book.douban.com/tag/%E7%BC%96%E7%A8%8B?start={(page-1)*20}&type=T"
    print(page_url)
    headers = CaseInsensitiveDict()
    headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
    res = requests.get(page_url, headers=headers)
    sel = etree.HTML(res.text)

    for block in sel.xpath("//li[@class='subject-item']"):
        title = ''
        elem_title = block.xpath('.//h2/a')
        if elem_title:
            title = ''.join(elem_title[0].itertext()).replace('\n', '').replace(' ', '')

        price = -1
        elem_price = block.xpath(".//span[@class='buy-info']/a/text()")
        if elem_price:
            s = elem_price[0].strip()
            price = float(s[s.find('版')+2:s.find('元')])

        cover = ''
        elem_cover = block.xpath(".//img/@src")
        if elem_cover:
            cover = elem_cover[0]

        book_info.append([title, cover, price])
    page += 1
    if page > 5:
        break

# windows下要傳 encoding  newline 
# 不傳 encoding 預設 gbk 直接亂碼
# 不傳 newline 預設 \n 寫一行空一行
with open('book.csv', 'w',  encoding ='utf-8', newline='') as f:
    csv_writer = csv.writer(f)
    csv_writer.writerows(book_info)

B站熱門列表採集程式碼

import requests
import csv

hot_list = []
page = 1
while 1:
    page_url = f"https://api.bilibili.com/x/web-interface/popular?ps=20&pn={page}"
    print(page_url)
    res = requests.get(page_url)
    json_content = res.json()
    for item in json_content['data']['list']:
        hot_list.append([
            item['bvid'],
            item['pic'],
            item['title'],
            item['owner']['name']
        ])

    page += 1
    if page > 11:
        break

with open('bilibili.csv', 'w', encoding='utf-8', newline='') as f:
    csv_writer = csv.writer(f)
    csv_writer.writerows(hot_list)

本作品採用《CC 協議》，轉載必須註明作者和本文連結

感謝閱讀，有收穫的話不妨點個贊:smiling_imp:

【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
好程式設計師Python學習路線之python爬蟲入門
2019-08-14
程式設計師Python爬蟲
Python《爬蟲初實踐》
2020-12-11
Python爬蟲
程式設計平臺-北郵
2024-10-14
程式設計
Python爬蟲開發與專案實踐（3）
2020-10-26
Python爬蟲
python爬蟲學習1
2020-11-29
Python爬蟲
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
好程式設計師Python培訓分享零基礎Python爬蟲學習線路
2020-06-22
程式設計師Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
什麼是爬蟲?學習Python爬蟲難不難?
2019-11-05
爬蟲Python
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
python程式設計：從入門到實踐學習筆記-字典
2018-11-05
Python程式設計筆記
《python 程式設計從入門到實踐》序：學習目標
2018-12-17
Python程式設計
Python爬蟲實踐--爬取網易雲音樂
2022-02-15
Python爬蟲
Python爬蟲入門學習實戰專案（一）
2020-02-18
Python爬蟲
python如何實現簡單的爬蟲功能?Python學習教程!
2021-01-12
Python爬蟲
Python爬蟲實戰系列3：今日BBNews程式設計新聞採集
2024-03-15
Python爬蟲程式設計
Python爬蟲實踐-網易雲音樂
2018-09-09
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python 程式設計學習
2019-09-24
Python程式設計
python程式設計：從入門到實踐學習筆記-函式
2018-11-05
Python程式設計筆記函式
學習C語言還是學習Python爬蟲?
2020-11-23
C語言Python爬蟲
Python爬蟲系統化學習(3)
2021-02-25
Python爬蟲
Python爬蟲系統化學習(4)
2021-03-01
Python爬蟲
Python爬蟲程式設計常見問題解決方法
2018-09-07
Python爬蟲程式設計
@程式設計師，一文讓你掌握Python爬蟲！
2020-04-08
程式設計師Python爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
好程式設計師Python培訓分享Python爬蟲工具列表大全
2020-08-03
程式設計師Python爬蟲
好程式設計師Python培訓分享Python爬蟲相關框架
2020-07-28
程式設計師Python爬蟲框架
Python爬蟲開發與專案實戰--分散式程式
2018-07-31
Python爬蟲分散式
Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記

北郵《Python程式設計與實踐》——爬蟲學習

豆瓣讀書列表採集程式碼

B站熱門列表採集程式碼

相關文章