使用Scrapy抓取優酷視訊列表頁（電影/電視）

libbit702發表於2019-02-16

原文網址 : https://flycode.co/archives/78709

具體程式碼可參看Knowsmore

這裡列表頁是指PC端的入口，如電影

抓取後資料如下：

{
    "link" : "//v.youku.com/v_show/id_XMzMyMzE2MTMxNg==.html",
    "thumb_img" : "http://r1.ykimg.com/051600005AD944F0859B5E040E03BD62",
    "title" : "大毛狗",
    "tag" : [
        "VIP"
    ],
    "actors" : [
        "何明翰",
        "張璇"
    ],
    "play_times" : " 歷史 2,236萬次播放 "
}

# -*- coding: utf-8 -*-
import scrapy
import re
import json
from scrapy import Selector, Request
from knowsmore.items import YoukuListItem
from ..common import *
from ..model.mongodb import *

class YoukuListSpider(scrapy.Spider):
    name = "youku_list"

    custom_settings = {
        `DOWNLOADER_MIDDLEWARES` : {
        }
    }

    start_urls = [
        `https://list.youku.com/category/show/c_96_s_1_d_4_p_29.html`
    ]

    def parse(self, response):
        GRID_SELECTOR = `.panel .mr1`        
        for grid in response.css(GRID_SELECTOR):
            THUMB_IMG_SELECTOR = `.p-thumb img::attr(_src)`
            LINK_SELECTOR = `.info-list .title a::attr(href)`
            TITLE_SELECTOR = `.info-list .title a::text`
            ACTORS_SELECTOR = `.info-list .actor a::text`
            TAG_SELECTOR = `.p-thumb .p-thumb-tagrt span::text`
            PLAY_TIMES_SELECTOR = `.info-list li:nth-child(3)::text`

            item_thumb_img = grid.css(
                THUMB_IMG_SELECTOR).extract_first()
            item_link = grid.css(
                LINK_SELECTOR).extract_first()
            item_title = grid.css(
                TITLE_SELECTOR).extract_first()
            item_actors = grid.css(
                ACTORS_SELECTOR).extract()
            item_tag = grid.css(
                TAG_SELECTOR).extract()
            item_play_times = grid.css(
                PLAY_TIMES_SELECTOR).extract_first()

            # Build Scrapy Item
            youku_item = YoukuListItem(
                thumb_img = item_thumb_img,
                link =  item_link,
                title = item_title,
                actors = item_actors,
                play_times = item_play_times,
                tag = item_tag
            )

            # Send to Pipelines
            yield youku_item


        NEXT_PAGE_SELECTOR = `.yk-pages .next a::attr(href)`
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page is not None:
            print next_page
            yield response.follow(next_page)

使用scrapy抓取Youtube播放列表資訊
2019-02-16
THINKPHP開發優酷視訊網|線上視訊|
2019-05-11
PHP
手把手教你爬取優酷電影資訊-2
2021-02-26
手把手教你爬取優酷電影資訊 -1
2021-02-26
Python抓取VIP電影
2019-01-22
Python
PHP輕量級影視電影視訊搜尋播放器原始碼
2022-02-13
PHP播放器原始碼
1.HtmlAgilityPack爬取優酷電影名
2018-04-23
HTML
React Native——使用SectionList改造電影列表
2019-03-04
React Native
Coming soon 3 for Mac - 電影資訊檢視工具
2021-12-31
Mac
Coming soon mac(最新電影資訊檢視工具)
2022-02-17
Mac
win10電影和電視在哪_win10電影和電視檔案位置怎麼開啟
2020-07-16
Win10
win10中的電影和電視不能播放rmvb視訊檔案如何解決
2020-04-23
Win10
2019騰訊視訊年度指數報告–電影篇
2019-12-29
2018-07-05-電影電視截圖
2018-07-05
長視訊的“生態”，優酷的“大局”
2022-03-18
批量抓取豆瓣電影圖片
2021-11-15
美國電視、電影、遊戲分級制度
2024-06-15
遊戲
JW Player：75%的電視和電影廣播公司將使用者參與視為重中之重
2021-03-22
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
酷雲互動：泛北京電視使用者行為指南
2019-10-22
scrapy爬取豆瓣電影資料
2021-09-11
Win10預設視訊播放器總是被改回電影和電視的解決方法
2020-05-28
Win10播放器
如何可以開柳州加油發票-優酷視訊
2020-11-09
如何可以開惠州加油發票-優酷視訊
2020-11-09
如何可以開佛山加油發票-優酷視訊
2020-11-09
如何可以開珠海加油發票-優酷視訊
2020-11-09
如何可以開中山加油發票-優酷視訊
2020-11-09
MUSO：2022年電影和電視盜版報告
2023-09-25
電視機頂盒視訊播放外掛
2018-07-06
Android 列表視訊的全屏、自動小視窗優化實踐
2019-03-01
Android優化
如何可以開東莞加油發票-優酷視訊
2020-11-09
如何可以開上饒汽油發票-優酷視訊
2020-11-09
如何可以開北京汽油費發票-優酷視訊
2020-11-09
如何可以開上海汽油費發票-優酷視訊
2020-11-09
如何可以開深圳汽油費發票-優酷視訊
2020-11-09
如何可以開天津汽油費發票-優酷視訊
2020-11-09
如何可以開太原汽油費發票-優酷視訊
2020-11-09
如何可以開西安汽油費發票-優酷視訊
2020-11-09

使用Scrapy抓取優酷視訊列表頁（電影/電視）

相關文章