隨堂筆記
隨堂筆記
scrapy框架使用基本流程
-
建立專案: scrapy startproject dushu
-
建立爬蟲: cd /dushu; scrapy genspider guoxue ““www.dushu.com””
-
開啟guoxue.py,開始寫程式碼.
class GuoxueSpider(scrapy.Spider): name = 'guoxue' allowed_domains = ['www.dushu.com'] # 起始地址,一般需要修改. start_urls = ['https://www.dushu.com/book/1617.html'] def parse(self, response): # 找到詳情頁的超連結 detail_url_list = response.xpath('//div[@class="book-info"]//h3/a/@href') for detail_url in detail_url_list.getall(): detail = 'https://www.dushu.com' + detail_url yield scrapy.Request(url=detail, callback=self.detail_parse) # 下一頁地址. for i in range(2, 11): next_page = 'https://www.dushu.com/book/1617_%d.html' % i yield scrapy.Request(url=next_page, callback=self.parse) # 解析詳情頁的內容 def detail_parse(self, response): book_title = response.xpath('string(//div[@class="book-title"])').extract_first() book_img = response.xpath('//div[@class="book-pic"]//img/@src').extract_first() price = response.xpath('//p[@class="price"]/span/text()').extract_first() author = response.xpath('string(//div[@class="book-details-left"]//table/tbody/tr[1]/td[2])').extract_first() book_brief, author_brief = response.xpath('//div[contains(@class, "txtsummary")]/text()')[:2].extract() book_brief, author_brief = book_brief.strip(), author_brief.strip() item = DushuItem() item['book_title'] = book_title item['book_img'] = book_img item['price'] = price item['author'] = author item['book_brief'] = book_brief item['author_brief'] = author_brief yield item
-
scrapy shell,利用這個shell可以進行程式碼除錯.
em
- scrapy shell,利用這個shell可以進行程式碼除錯.
- crawler spider
相關文章
- java常用修飾符(隨堂筆記)Java筆記
- Java中的異常處理(隨堂筆記)Java筆記
- 隨堂
- 課堂筆記4筆記
- 隨筆記筆記
- hadoop課堂筆記Hadoop筆記
- 隨堂練習
- 隨堂作業
- 程式訊號課堂筆記筆記
- 隨記筆記未整理筆記
- Java集合List隨堂Java
- 網路協議課堂筆記協議筆記
- 雜湊表hashtable課堂筆記筆記
- 知識盲點 隨筆筆記筆記
- Python學習筆記(隨筆)Python筆記
- Java課堂筆記(二):物件導向Java筆記物件
- eviews時間序列分析課堂筆記View筆記
- 辜老師的C++課堂筆記C++筆記
- 課堂筆記 - C++ 位運算子筆記C++
- Bitbucket / Sourcetree 隨手筆記筆記
- 【遊戲設計隨筆10】解密遊戲設計的30堂課遊戲設計解密
- 敏捷開發讀書筆記——隨筆敏捷筆記
- 2024/06/22筆記隨筆筆記
- 2024/06/23筆記隨筆筆記
- 2024/06/25筆記隨筆筆記
- 2024/06/26筆記隨筆筆記
- 2024/07/03筆記隨筆筆記
- ios layoutSubviews呼叫隨手筆記iOSView筆記
- 有感而發,隨筆記錄筆記
- oracle commit隨筆記載OracleMIT筆記
- SpringBoot隨手筆記Spring Boot筆記
- js隨堂初體驗(一)JS
- 隨堂練習第7周
- 今日隨筆-構建之法讀書筆記筆記
- 【筆記】如何產生隨機數筆記隨機
- 隨機過程複習筆記隨機筆記
- 筆記:追隨雲原生的Java筆記Java
- 有關AsyncTask的一些隨筆筆記筆記