隨堂筆記

hcxuke發表於2020-11-11

原文網址 : https://blog.csdn.net/hcxuke/article/details/109619841

隨堂筆記

scrapy框架使用基本流程

建立專案: scrapy startproject dushu
建立爬蟲: cd /dushu; scrapy genspider guoxue ““www.dushu.com””

開啟guoxue.py,開始寫程式碼.

class GuoxueSpider(scrapy.Spider):
    name = 'guoxue'
    allowed_domains = ['www.dushu.com']
    # 起始地址,一般需要修改.
    start_urls = ['https://www.dushu.com/book/1617.html']

    def parse(self, response):
        # 找到詳情頁的超連結
        detail_url_list = response.xpath('//div[@class="book-info"]//h3/a/@href')
        for detail_url in detail_url_list.getall():
            detail = 'https://www.dushu.com' + detail_url
            yield scrapy.Request(url=detail, callback=self.detail_parse)
		
        # 下一頁地址.
        for i in range(2, 11):
            next_page = 'https://www.dushu.com/book/1617_%d.html' % i
            yield scrapy.Request(url=next_page, callback=self.parse)
	
    # 解析詳情頁的內容
    def detail_parse(self, response):
        book_title = response.xpath('string(//div[@class="book-title"])').extract_first()
        book_img = response.xpath('//div[@class="book-pic"]//img/@src').extract_first()
        price = response.xpath('//p[@class="price"]/span/text()').extract_first()
        author = response.xpath('string(//div[@class="book-details-left"]//table/tbody/tr[1]/td[2])').extract_first()
        book_brief, author_brief = response.xpath('//div[contains(@class, "txtsummary")]/text()')[:2].extract()
        book_brief, author_brief = book_brief.strip(), author_brief.strip()
        item = DushuItem()
        item['book_title'] = book_title
        item['book_img'] = book_img
        item['price'] = price
        item['author'] = author
        item['book_brief'] = book_brief
        item['author_brief'] = author_brief
        yield item

scrapy shell,利用這個shell可以進行程式碼除錯.


- scrapy shell,利用這個shell可以進行程式碼除錯.

- crawler spider

java常用修飾符（隨堂筆記）
2020-10-03
Java筆記
Java中的異常處理（隨堂筆記）
2020-10-08
Java筆記
隨堂
2024-04-29
hadoop課堂筆記
2018-12-20
Hadoop筆記
課堂筆記4
2024-03-22
筆記
隨筆記
2018-08-06
筆記
隨記筆記未整理
2024-05-25
筆記
隨堂練習
2024-04-03
隨堂作業
2024-04-03
2024/06/25筆記隨筆
2024-06-26
筆記
2024/06/26筆記隨筆
2024-06-26
筆記
2024/06/23筆記隨筆
2024-06-23
筆記
2024/06/22筆記隨筆
2024-06-22
筆記
2024/07/03筆記隨筆
2024-07-04
筆記
SpringBoot隨手筆記
2024-05-09
Spring Boot筆記
網路協議課堂筆記
2020-09-24
協議筆記
雜湊表hashtable課堂筆記
2024-08-31
筆記
Java集合List隨堂
2020-04-07
Java
知識盲點隨筆筆記
2019-03-03
筆記
Bitbucket / Sourcetree 隨手筆記
2021-05-13
筆記
IOC隨筆小記錄
2021-05-19
Java課堂筆記（二）：物件導向
2019-05-09
Java筆記物件
課堂筆記 - C++ 位運算子
2024-07-31
筆記C++
eviews時間序列分析課堂筆記
2020-12-12
View筆記
2020.10.8 效能課堂筆記-記憶體瓶頸分析
2020-10-08
筆記記憶體
2020.10.6 效能課堂筆記-cpu 瓶頸分析
2020-10-06
筆記
辜老師的C++課堂筆記
2024-09-21
C++筆記
ios layoutSubviews呼叫隨手筆記
2018-10-30
iOSView筆記
有感而發，隨筆記錄
2018-04-14
筆記
今日隨筆-構建之法讀書筆記
2024-06-09
筆記
js隨堂初體驗（一）
2018-08-26
JS
隨堂練習第7周
2024-04-03
20240505記錄《程式碼隨想錄》筆記
2024-05-05
筆記
【遊戲設計隨筆10】解密遊戲設計的30堂課
2024-07-31
遊戲設計解密
【筆記】如何產生隨機數
2020-11-19
筆記隨機
筆記：追隨雲原生的Java
2022-07-19
筆記Java
隨機過程複習筆記
2021-01-05
隨機筆記
黑馬筆記--C++基礎篇--隨筆
2024-07-04
筆記C++

隨堂筆記

隨堂筆記

scrapy框架使用基本流程

相關文章