python爬蟲知識點三--解析豆瓣top250資料

LHBlog發表於2017-11-19

一。利用cookie訪問
import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
cookies = {'cookie': 'bid=a3MhK2YEpZw; ll="108296"; ps=y; ue="t.t.panda@hotmail.com"; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1482650884%2C%22https%3A%2F%2Fwww.so.com%2Fs%3Fie%3Dutf-8%26shb%3D1%26src%3Dhome_so.com%26q%3Dpython%2B%25E8%25B1%2586%25E7%2593%25A3%25E6%25BA%2590%22%5D; _gat_UA-7019765-1=1; ap=1; __utmt=1; _ga=GA1.2.1329310863.1477654711; dbcl2="2625855:/V89oXS4WD4"; ck=EePo; push_noty_num=0; push_doumail_num=0; _pk_id.100001.8cb4=40c3cee75022c8e1.1477654710.8.1482652441.1482639716.; _pk_ses.100001.8cb4=*; __utma=30149280.1329310863.1477654711.1482643456.1482650885.10; __utmb=30149280.19.10.1482650885; __utmc=30149280; __utmz=30149280.1482511651.7.6.utmcsr=blog.csdn.net|utmccn=(referral)|utmcmd=referral|utmcct=/alanzjl/article/details/50681289; __utmv=30149280.262; _vwo_uuid_v2=64E0E442544CB2FE2D322C59F01F1115|026be912d24071903cb0ed891ae9af65'}
url = 'http://www.douban.com'
r = requests.get(url, cookies = cookies, headers = headers)
with open('douban_2.txt', 'wb+') as f:
    f.write(r.content)

二。利用Xpath搜尋

import requests
from lxml import etree

s = requests.Session()
for id in range(0, 251, 25):
    print (id)

    url = 'https://movie.douban.com/top250/?start-' + str(id)
    r = s.get(url)
    r.encoding = 'utf-8'
    root = etree.HTML(r.content)
    items = root.xpath('//ol/li/div[@class="item"]') //利用xpath的標籤選擇




    # print(len(items))
    for item in items:
        title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')//如下找到中文名字


        name = title[0].encode('gb2312', 'ignore').decode('gb2312')//title是一個陣列  先encoding 再decode確保字元不混在一起
        # rank = item.xpath('./div[@class="pic"]/em/text()')[0]
        rating = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]

print(name, rating)

結果：成功爬取前250個評分

ps:必須知道網頁的結構

豆瓣top250資料爬取
2020-11-09
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
python——豆瓣top250爬取
2021-01-02
Python
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
爬蟲練手-豆瓣top250（go版以及python版）
2017-11-11
爬蟲GoPython
Python爬蟲知識點二
2017-11-16
Python爬蟲
Python爬蟲知識點一
2017-11-15
Python爬蟲
專案之爬蟲入門（豆瓣TOP250）
2020-11-19
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
爬取豆瓣電影Top250和資料分析
2022-06-20
[python爬蟲] BeautifulSoup和Selenium對比爬取豆瓣Top250電影資訊
2016-12-30
Python爬蟲
Python爬蟲知識點四--scrapy框架
2017-11-27
Python爬蟲框架
使用python爬取豆瓣電影TOP250
2021-03-11
Python
Python爬取分析豆瓣電影Top250
2018-09-07
Python
Python3爬蟲知識點總結
2017-10-25
Python爬蟲
Python爬蟲知識梳理
2017-09-21
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
豆瓣電影TOP250爬蟲及視覺化分析筆記
2021-11-09
爬蟲視覺化筆記
Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
06、豆瓣爬蟲
2019-04-11
爬蟲
爬蟲豆瓣美女
2018-11-28
爬蟲
python 爬蟲基礎知識一
2017-05-17
Python爬蟲
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
scrapy入門：豆瓣電影top250爬取
2019-02-16
資料視覺化豆瓣電影 TOP250
2019-02-23
視覺化
爬蟲基礎知識
2023-03-15
爬蟲
豆瓣top250（go版以及python版）
2018-10-22
GoPython
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
逆向爬蟲知識學習
2022-03-21
爬蟲
正規表示式_爬取豆瓣電影排行Top250
2021-07-07
Python爬蟲需要學哪些東西？這些知識點必須掌握！
2021-05-25
Python爬蟲
Python爬蟲需要了解的代理IP知識
2023-04-04
Python爬蟲
Python相關爬蟲的框架有哪些?Python知識
2020-09-24
Python爬蟲框架
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲

python爬蟲知識點三--解析豆瓣top250資料

相關文章