爬蟲實戰scrapy

艾利金德發表於2018-03-11

原文網址 : https://juejin.im/post/5aa50e5af265da239e4db313

# -*- coding: utf-8 -*-
import scrapy
import re


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        
        url_list = response.css('div.post-meta p a.archive-title::attr(href)').extract()
        # url_list = response.xpath("//div[@class='post-meta']/p/a[@class='archive-title']/@href").extract()
        # url_list = response.xpath("//a[@class='archive-title']/@href").extract()
        # xpath
        # 注意在用屬性選擇器的時候儘量選擇class屬性，因為id屬性選擇器可擴充套件性不強
        # 即id選擇器只對當前頁有效，對其他頁面可能就沒有這個id,就可能報錯
        # //*[@id="post-113735"]/div[1]
        # 獲取標題
        title = response.xpath("//div[@class='entry-header']/h1/text()").extract()[0]
        # 獲取日期
        crat_time = response.xpath('//p[@class="entry-meta-hide-on-mobile"]/text()').extract()[0]
        # 刪除空白字元
        crat_time = crat_time.strip()
        # 刪除點
        crat_time = crat_time.strip('·')
        # 刪除空白字元
        crat_time =crat_time.strip()
        # 獲取關鍵字標籤
        biao_qian = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
        # biao_qian = response.css("p.entry-meta-hide-on-mobile a::text")
        if biao_qian:
            biao_qian = ','.join(biao_qian)
        else:
            biao_qian = ''

        # 獲取點贊數
        dian_zan = response.xpath('//span[@class=" btn-bluet-bigger href-style vote-post-up   register-user-only "]/h10/text()').extract()[0]
        # 收藏數
        shou_cang = response.xpath('//span[@class=" btn-bluet-bigger href-style bookmark-btn  register-user-only "]/text()').extract()[0]
        ret = re.match(r'.*?(\d+).*?', shou_cang)
        if ret:
            shou_cang = int(ret.group(1))
        else:
            shou_cang = 0

        # 獲取評論
        comment = response.xpath('//span[@class="btn-bluet-bigger href-style hide-on-480"]/text()').extract()[0]
        # re.findall得到的是列表
        comment = re.findall(r'.*(\d).*?', comment)
        if comment:
            comment = int(comment[0])
        else:
            comment = 0

        # 以下是運用css 選擇器提取資料
        # 獲取文章內容
        # bood_commemt = response.css("div.entry").extract()[0]
        # 獲取標題
        # title_css = response.css(".entry-header h1::text").extract()[0]
        # 獲取日期
        # crat_time_css = response.css("p.entry-meta-hide-on-mobile::text").extract()[0].strip().strip('·').strip()

        pass

複製程式碼

Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊
2018-06-12
框架爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
爬蟲技術實戰
2020-08-19
爬蟲
Puppeteer爬蟲實戰(三)
2020-07-21
爬蟲
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
《Python3網路爬蟲開發實戰》PDF+原始碼+《精通Python爬蟲框架Scrapy》中英文PDF原始碼...
2018-12-23
Python爬蟲原始碼框架
爬蟲實戰專案集合
2019-02-28
爬蟲

爬蟲實戰scrapy

相關文章