【Python】從0開始寫爬蟲——轉身扒豆瓣電影

豆瓣就比較符合這個“明人不說暗話”的原則。所以我們扒豆瓣，不多說，直接上程式碼

from scrapy import app
import re

header = {
    `User-Agent`:
        `Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36`,
    `Host`: `movie.douban.com`,
    `Accept-Language`: `zh-CN,zh;q=0.9`
}

movie_url = "https://movie.douban.com/subject/26985127/?from=showing"

m_id = re.search("[0-9]+", movie_url).group()

# 獲取soup物件
soup = app.get_soup(url=movie_url, headers=header, charset="utf-8")
content = soup.find(id="content")

# 抓取電影名字和上映年份
m_name = content.find("h1").find("span").string
m_year = content.find(class_="year").string

# 抓取導演
info = content.find(id="info")
m_directer = info.find(attrs={"rel": "v:directedBy"}).string
# 上映日期
m_date = info.find(attrs={"property": "v:initialReleaseDate"}).string

# 型別
types = info.find_all(attrs={"property": "v:genre"}, limit=2)
m_types = []
for type_ in types:
    m_types.append(type_.string)


# 抓取主演，只取前面五個
actors = info.find(class_="actor").find_all(attrs={"rel": "v:starring"}, limit=5)
m_actors = []
for actor in actors:
    m_actors.append(actor.string)

# 片長
m_time = info.find(attrs={"property": "v:runtime"}).string
# m_adaptor = info.select()

print("id", m_id, "名稱", m_name, "年份 ", m_year, "導演 ", m_directer, "主演", m_actors)
print("上映日期", m_date, "型別", m_types, "片長", m_time)

輸出：

id 26985127 名稱 一出好戲 年份  (2018) 導演  黃渤 主演 [`黃渤`, `舒淇`, `王寶強`, `張藝興`, `於和偉`]
上映日期 2018-08-10(中國大陸) 型別 [`劇情`, `喜劇`] 片長 134分鐘

簡單粗暴

Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
Python爬取分析豆瓣電影Top250
2018-09-07
Python
使用python爬取豆瓣電影TOP250
2021-03-11
Python
從零開始寫一個node爬蟲(一)
2019-04-09
爬蟲
《從零開始學Python網路爬蟲》概要
2018-08-29
Python爬蟲
python更換代理爬取豆瓣電影資料
2019-08-03
Python
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
scrapy爬取豆瓣電影資料
2021-09-11
爬蟲豆瓣美女
2018-11-28
爬蟲
06、豆瓣爬蟲
2019-04-11
爬蟲
豆瓣電影TOP250爬蟲及視覺化分析筆記
2021-11-09
爬蟲視覺化筆記
從零開始，如何用puppeteer寫一個爬蟲指令碼
2018-08-17
爬蟲指令碼
python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單
2023-04-05
Python爬蟲CSS
【從零開始學爬蟲】建立模板
2023-01-06
爬蟲
python初級爬蟲之貓眼電影
2019-02-23
Python爬蟲
Python電影爬蟲之身體每況愈下
2020-05-23
Python爬蟲
Python爬蟲批次下載電影連結
2021-09-09
Python爬蟲
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集
2021-09-09
Python爬蟲
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
從零開始的爬蟲專案（一）
2020-04-23
爬蟲
從零開始寫一個node爬蟲（上）—— 資料採集篇
2021-09-09
爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
Python爬蟲例項：爬取貓眼電影——破解字型反爬
2019-02-26
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
Python 從零開始爬蟲(六)——動態爬取解決方案之手動分析
2018-05-09
Python爬蟲
《從零開始學習Python爬蟲：頂點小說全網爬取實戰》
2024-07-06
Python爬蟲
5分鐘上手Python爬蟲：從乾飯開始，輕鬆掌握技巧
2024-03-15
Python爬蟲
從0開始用python寫一個命令列小遊戲（二）
2019-02-16
Python命令列遊戲
從0開始用python寫一個命令列小遊戲（十）
2019-02-16
Python命令列遊戲
從0開始用python寫一個命令列小遊戲（六）
2018-08-10
Python命令列遊戲
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
Python 從底層結構聊 Beautiful Soup 4（內建豆瓣最新電影排行榜爬取案例）
2022-03-15
Python

【Python】從0開始寫爬蟲——轉身扒豆瓣電影

相關文章