Python scrapy爬蟲框架簡介

卒跡發表於2017-04-06

原文網址 : https://blog.csdn.net/u010129985/article/details/69396592

安裝準備

需要安裝Python2.7/3.5 需要安裝scrapy庫：pip install scrapy
Windows下還需要安裝win32py擴充套件包：安裝參考另一篇文章http://blog.csdn.net/u010129985/article/details/69257887

scrapy

scrapy的每個item物件都表示一個網頁，裡面可以定義各種屬性，比如：標題，時間，內容等自定義的item一般都會繼承Item
items.py

class Article(Item):
    title=Field()

詳細文章參考：
整體專案結構介紹：（包含專案，但是虎嗅網好像限制爬蟲，所以執行不了）
https://www.xncoding.com/2016/03/10/scrapy-02.html

參考二：http://www.pythontip.com/blog/post/1985/

已測試可用示例：

維基百科採集

1 生成專案
scrapy startproject wikiSpider wikiSpider是專案名稱
2 編輯items.py檔案

import scrapy
from scrapy import Item,Field

class Article(Item):
    title=Field()

在spiders資料夾下建一個處理檔案articleSpider.py

from scrapy.contrib.spiders import CrawlSpider, Rule
from wikiSpider.items import Article
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy import log

class ArticleSpider(CrawlSpider):
    #log.start(logfile='log.txt', loglevel=log.CRITICAL)
    name="article"
    allowed_domains = ["en.wikipedia.org"]
    start_urls = ["http://en.wikipedia.org/wiki/Python_%28programming_language%29"]
    rules = [
        Rule(SgmlLinkExtractor(allow=('(/wiki/)((?!:).)*$'),), callback="parse_item", follow=True)
    ]

    def parse_item(self, response):
        item = Article()
        title = response.xpath('//h1/text()')[0].extract()
        print("Title is: "+title)
        item['title'] = title
        return item

介紹：name很關鍵 scrapy crawl article 執行爬蟲專案時指定的引數就是這個name，allowed_domains表示能夠被採集的站點；在piplines.py檔案裡可定義一定不會採集的站點；start_urls說明該爬蟲從哪個URL開始爬；parse()是預設的採集回撥，當採集到一個網頁後自動呼叫該方法，該方法只接受一個response參數列示網頁體；CrawlSpider是框架提供的一個爬蟲基礎類(Spider>BaseSpider>CrawlSpider) ; Rule為規則物件，主要用來篩選網頁元素；SgmlLinkExtractor實現規則allow表示允許通過的連結，deny=(‘deny.php’, )表示不被允許的連結；callback指定回撥函式，上面放棄了預設的回撥parse() ；response是下載的網頁流（字串）本咧中用的Xpath選擇器，同時還可以用beautifulsoup來解析，lxml來解析（Scrapy選擇器構建在lxml基礎之上，所以可以保證速度和準確性。）

Xpath語法

//div/li 選擇所有div下的li標籤
a/@href  選擇所有a標籤的屬性href 
a/text() 選擇a標籤的文字
a[@href="/abc"] 選擇a標籤且href屬性為“/abc”
text()表示選擇文字
//div[@class="mod-info-flow"]/div/div[@vlass="mob-ctt"] 表示選擇所有div標籤且div的class為mod-info-flow再選擇該div下的div再下面的div且該div class為mod-ctt
Xpath選擇器返回的是一個序列
item['link']=sel.xpath('h2/a/@href')[0].extract() 表示選擇序列第一個物件，extract()表示提取出結果

callback指定的回撥都會返回一個結果序列，這個序列可以用來輸出到檔案；如果是全網站爬蟲，需要對xpath解析後的連結再次執行需要返回一個Request序列進行下一步處理，如：
yield scrapy.Request(url,callback=self.parse_article) 把xpath提取出來的URL交付給下一個回撥處理，yield表示提供一個生成器，這個生成器可以用來迭代

輸出日誌

scrapy crawl article -s LOG_FILE=wiki.log

輸出採集結果到檔案

scrapy crawl article -o articles.json/csv/xml -t json/csv/xml

Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
介紹一款能取代 Scrapy 的 Python 爬蟲框架 - feapder
2021-04-24
Python爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Scrapy框架簡介
2019-01-06
框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
學好Python不加班系列之SCRAPY爬蟲框架的使用
2021-11-09
Python爬蟲框架
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
Python爬蟲教程-20-xml 簡介
2018-09-06
Python爬蟲XML
Python爬蟲教程-04-response簡介
2018-09-06
Python爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
python簡介怎麼寫-python爬蟲簡歷怎麼寫
2020-11-01
Python爬蟲