接下來介紹一個簡單的專案,完成一遍Scrapy抓取流程。通過這個過程,我們可以對Scrapy的基本用法和原理有大體瞭解。
一,準備工作
本節要完成的任務如下。
- 建立一個Scrapy專案。
- 建立一個蜘蛛來抓取站點和處理資料。
- 通過命令列將抓取的內容匯出。
- 將抓取的內容儲存的到的MongoDB資料庫。
二,準備工作
我們需要安裝好Scrapy框架,MongoDB的和PyMongo庫。
三,建立專案
建立一個Scrapy專案,檔案專案可以直接用
scrapy
命令生成,命令如下所示:
scrapy startproject教程複製程式碼
這個命令可以在任意資料夾執行如果提示許可權問題,可以加須藤執行該命令這個命令將會建立一個名為教程的資料夾,資料夾結構如下所示。:
scrapy.cfg#Scrapy部署時的配置檔案
教程#專案的模組,需要從這裡引入
__init__.py
items.py#Items的定義,定義爬取的資料結構
middlewares.py#Middlewares的定義,定義爬取時的中介軟體
pipelines.py#管道的定義,定義資料管道
settings.py#配置檔案
蜘蛛#放置蜘蛛的資料夾
__init__.py複製程式碼
四,建立蜘蛛
蜘蛛是自己定義的類,Scrapy用它來從網頁裡抓取內容,並解析抓取的結果。不過這個類必須繼承Scrapy提供的蜘蛛類
scrapy.Spider
,還要定義蜘蛛的名稱和起始請求,以及怎樣處理爬取後的結果的方法。
也可以使用命令列建立一個蜘蛛比如要生成行情這個蜘蛛,可以執行如下命令:
光碟教程
scrapy genspider報價複製程式碼
進入剛才建立的教程資料夾,執行然後
genspider
命令。第一個引數是蜘蛛的名稱,第二個引數是網站域名。執行完畢之後,蜘蛛資料夾中多了一個quotes.py,它就是剛剛建立的蜘蛛,內容如下所示:
import scrapy
class QuotesSpider (scrapy.Spider):
name = “quotes”
allowed_domains = [ “quotes.toscrape.com” ]
start_urls = [ 'http://quotes.toscrape.com/' ]
def parse (self,response):
通過複製程式碼
這裡有三個屬性 -
name
,
allowed_domains
和
start_urls
,還有一個方法
parse
。
name
,它是每個專案唯一的名字,用來區分不同的蜘蛛。allowed_domains
,它是允許爬取的域名,如果初始或後續的請求連結不是這個域名下的,則請求連結會被過濾掉。start_urls
,它包含了蜘蛛在啟動時爬取的URL列表,初始請求是由它來定義的。parse
,它是蜘蛛的一個方法。預設情況下,呼叫被時start_urls
裡面的連結構成的請求完成下載執行後,返回的響應就會作為唯一的引數傳遞給這個函式。該方法負責解析返回的響應,提取資料或者進一步生成要處理的請求。
五,建立專案
專案是儲存爬取資料的容器,它的使用方法和字典類似。不過,相比字典,專案多了額外的保護機制,可以避免拼寫錯誤或者定義欄位錯誤。
建立專案繼承需要
scrapy.Item
類,定義並且型別為
scrapy.Field
的欄位。觀察目標網站,我們可以獲取到到內容有
text
,
author
,
tags
。
定義項,此時將items.py修改如下:
import scrapy
class QuoteItem (scrapy.Item):
text = scrapy.Field()
author = scrapy.Field()
tags = scrapy.Field()複製程式碼
這裡定義了三個欄位,接下來爬取時我們會使用到這個專案。
六,解析響應
上文中我們看到,
parse()
方法的引數
resposne
的英文
start_urls
裡面的連結爬取後的查詢查詢結果。在所以
parse
方法中,可以我們直接對
response
變數所有遊戲的內容進行解析,比如瀏覽請求結果的網頁原始碼,或者進一步分析原始碼內容,或者找出結果中的連結而得到下一個請求
。
我們可以看到網頁中既有我們想要的結果,又有下一頁的連結,這兩部分內容我們都要進行處理。
首先看看網頁結構,如下圖所示。頁每一都有多個
class
為
quote
的區塊,每個區塊內都包含
text
, ,
author
。
tags
那麼我們先找出所有的
quote
,提取然後每一個
quote
中的內容。
。提取的方式可以是CSS選擇器或XPath的選擇器在這裡我們使用CSS選擇器進行選擇,
parse()
方法的改寫如下所示:
高清 解析(個體經營,響應):
報價= response.css( '.quote' )
的報價在報價:
文字= quote.css( ':: .text區段文字').extract_first()
作者= quote.css( ”。 author'text ').extract_first()
tags = quote.css( '.tags .tag :: text').extract()複製程式碼
這裡首先利用選擇器選取所有的報價,其並將賦值為
quotes
變數,利用然後
for
迴圈對每個
quote
遍歷,每個解析
quote
的內容。
對
text
來說,到觀察它的
class
為
text
,所以用可以
.text
選擇器來選取,這個結果實際上是整個帶有標籤的節點
,要獲取它的正文內容,加可以
::text
來電子雜誌。這時的結果是長度為1的列表,還需所以要用
extract_first()
方法來第電子雜誌一個元素。對於而
tags
來說,由於我們要獲取所有的標籤,所以用
extract()
方法電子雜誌整個列表即可。
第以一個
quote
的查詢查詢結果為例,各個選擇方法及結果的說明如下內容
。
原始碼如下:
< div class = “quote” itemscope = “” itemtype = “http://schema.org/CreativeWork” >
< span class = “text” itemprop = “text” > “我們創造它的世界是一個過程,我們的想法。“ </ span >
< span > by < small class = ”author“ itemprop = ”author“ >阿爾伯特愛因斯坦<
一個 HREF = “/作者/阿爾伯特-愛因斯坦” >(約) </ 一 >
</ 跨度 >
< DIV 類 = “標籤” >
標籤:
< 元 類 = “關鍵詞” itemprop = “關鍵詞” 內容 = “變化,深的思想,思維,世界” >
< 一 類 = “標籤” HREF = “/標籤/變更/頁/ 1 /” >變更 </ 一 >
<一個 class =“標記” HREF = “/標記/深想法/頁面/ 1 /” >深思想 </ 一 >
< 一 類 = “標籤” HREF = “/標籤/思維/頁面/ 1 /” >思 </ 一 >
< 一 類 = “標籤” HREF = “/標籤/世界/頁面/ 1 /” >世界 </ 一 >
</ DIV >
</ DIV >複製程式碼
不同選擇器的返回結果如下內容。
1。 quote.css('.text')
[<Selector xpath =“descendant-or-self :: * [@ class and contains(concat('',normalize-space(@class),''),'text')]”data ='<span class = “text”itemprop =“text”>“The'>]複製程式碼
2。 quote.css('.text::text')
[<Selector xpath =“descendant-or-self :: * [@ class and contains(concat('',normalize-space(@class),''),'text')] / text()”data =' “我們創造它的世界是一個公關>]複製程式碼
3。 quote.css('.text').extract()
['span class =“text”itemprop =“text”>“我們創造它的世界是我們思考的過程。不改變我們的想法就無法改變。“</ span>']複製程式碼
4。 quote.css('.text::text').extract()
[''我們創造的世界是我們思考的過程。不改變我們的想法就無法改變。“']複製程式碼
5。 quote.css('.text::text').extract_first()
“我們創造它的世界是我們思考的過程。如果不改變我們的想法,它就不能改變。“複製程式碼
所以,對於
text
,獲取結果的第一個元素即可,使用所以
extract_first()
方法,對於
tags
,要獲取所有結果組成的列表,使用所以
extract()
方法。
七,使用專案
上文定義了專案,接下來就要使用它了.Item可以理解為一個字典,不過在宣告的時候需要例項化。然後依次用剛才解析的結果賦值專案的每一個欄位,最後將產品返回即可。
QuotesSpider
的改寫如下所示:
進口 scrapy
從 tutorial.items 匯入 QuoteItem
類 QuotesSpider (scrapy.Spider) :
名稱= “引號”
allowed_domains = [ “quotes.toscrape.com” ]
start_urls = [ 'http://quotes.toscrape.com/' ]
DEF 解析(個體,響應):
報價= response.css('.quote' )
用於引用在引號:
項= QuoteItem()
項[ '文字' ] = quote.css(':: .text區段文字')。extract_first()
專案['author' ] = quote.css('.author :: text').extract_first()
item [ 'tags' ] = quote.css('.tags .tag :: text').extract()
yield item複製程式碼
如此一來,首頁的所有內容被解析出來,並被賦值成了一個個
QuoteItem
。
八,後續請求
上面的操作實現了從初始頁面抓取內容。那麼,下一頁的內容該如何抓取?這就需要我們從當前頁面中找到資訊來生成下一個請求,然後在下一個請求的頁面裡找到資訊再構造再下一個請求。這樣迴圈往復迭代,從而實現整站的爬取。
將剛才的頁面拉到最底部,如下圖所示。
這裡有一個接著按鈕檢視它的原始碼,可以發現它的連結是/頁/ 2 /,全連結就是:HTTP://quotes.toscrape.com/page/2,通過這個連結我們就可以構造下一個請求。
構造請求時需要用到scrapy.Request這裡我們傳遞兩個引數-
url
和
callback
,這兩個引數的說明如下。
url
:它是請求連結。callback
:。它是回撥函式當指定了該回撥函式的請求完成之後,獲取到響應,引擎會將該響應作為引數傳遞給這個回撥函式回撥函式進行解析或生成下一個請求,函式回撥文如上的parse()
所示。
由於
parse()
就是解析
text
,
author
,
tags
的方法,而下一頁的結構和剛才已經解析的頁面結構是一樣的
,所以可以我們再次使用
parse()
方法來做頁面解析。
接下來我們要做的就是利用選擇器得到下一頁連結並生成請求
,在
parse()
方法後追加如下的程式碼:
next = response.css('.pager .next a :: attr(href)').extract_first()
url = response.urljoin(next)
yield scrapy.Request(url = url,callback = self.parse)複製程式碼
第一句程式碼首先通過CSS選擇器獲取下一個頁面的連結,即要獲取一個連結超中的
href
屬性。用到這裡了
::attr(href)
操作。再然後呼叫
extract_first()
方法電子雜誌內容。
句第二程式碼呼叫了
urljoin()
方法,
urljoin()
方法可以將相對URL構造成一個絕對的URL例如,獲取到的下一頁地址/是/第2頁。
urljoin()
方法處理後得到的結果就是:HTTP://quotes.toscrape .COM /頁/ 2 /。
句第三程式碼通過
url
狀語從句:
callback
變數構造了一個新的請求,函式回撥
callback
依然使用
parse()
方法。這個請求完成後,會響應重新經過
parse
方法處理,得到第二頁的解析結果,然後生成第二頁的下一頁,也就是第三頁的請求。這樣爬蟲就進入了一個迴圈,直到最後一頁。
通過幾行程式碼,我們就輕鬆實現了一個抓取迴圈,將每個頁面的結果抓取下來了。
現在,之後改寫整個的
Spider
類如下所示:
進口 scrapy
從 tutorial.items 匯入 QuoteItem
類 QuotesSpider (scrapy.Spider) :
名稱= “引號”
allowed_domains = [ “quotes.toscrape.com” ]
start_urls = [ 'http://quotes.toscrape.com/' ]
DEF 解析(個體,響應):
報價= response.css('.quote' )
用於引用在引號:
項= QuoteItem()
項[ '文字' ] = quote.css(':: .text區段文字')。extract_first()
專案['author' ] = quote.css('.author :: text').extract_first()
item [ 'tags' ] = quote.css('.tags .tag :: text').extract()
yield item
next = response.css('.pager .next a :: attr(“href”)').extract_first()
url = response.urljoin(next)
yield scrapy.Request(url = url,callback = self.parse)複製程式碼
九,執行
接下來,進入目錄,執行如下命令:
scrapy抓取報價複製程式碼
就可以看到Scrapy的執行結果了。
2017-02-19 13:37:20 [scrapy.utils.log]資訊:Scrapy 1.3.0開始(bot:教程)
2017-02-19 13:37:20 [scrapy.utils.log]資訊:重寫設定:{'NEWSPIDER_MODULE':'tutorial.spiders','SPIDER_MODULES':['tutorial.spiders'],'ROBOTSTXT_OBEY':True ,'BOT_NAME':'教程'}
2017-02-19 13:37:20 [scrapy.middleware]資訊:啟用擴充套件:
[ 'scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2017-02-19 13:37:20 [scrapy.middleware]資訊:啟用下載中介軟體:
[ 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-02-19 13:37:20 [scrapy.middleware]資訊:啟用蜘蛛中介軟體:
[ 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-02-19 13:37:20 [scrapy.middleware]資訊:啟用專案管道:
[]
2017-02-19 13:37:20 [scrapy.core.engine]資訊:蜘蛛開啟
2017-02-19 13:37:20 [scrapy.extensions.logstats]資訊:爬行0頁(0頁/分鐘),刮0項(0項/分鐘)
2017-02-19 13:37:20 [scrapy.extensions.telnet] DEBUG:Telnet控制檯監聽127.0.0.1:6023
2017-02-19 13:37:21 [scrapy.core.engine] DEBUG:Crawled(404)<GET http://quotes.toscrape.com/robots.txt>(referer:無)
2017-02-19 13:37:21 [scrapy.core.engine] DEBUG:Crawled(200)<GET http://quotes.toscrape.com/>(referer:無)
2017-02-19 13:37:21 [scrapy.core.scraper]除錯:從<200 http://quotes.toscrape.com/刮掉>
{'作者':愛因斯坦愛因斯坦',
'標籤':[u'change',u'deep-thoughts',u'thinking',u'world'],
'文字':u'\ u201c我們創造它的世界是我們思考的過程。不改變我們的想法就不能改變。\ u201d'}
2017-02-19 13:37:21 [scrapy.core.scraper]除錯:從<200 http://quotes.toscrape.com/刮掉>
{'作者':u'JK羅琳',
'tags':[u'abilities',u'choices'],
'文字':你是我們的選擇,哈利,這表明我們真正的存在,遠遠超過我們的能力。\ u201d'}
...
2017-02-19 13:37:27 [scrapy.core.engine]資訊:關閉蜘蛛(完成)
2017-02-19 13:37:27 [scrapy.statscollectors]資訊:傾銷Scrapy統計資訊:
{'downloader / request_bytes':2859,
'downloader / request_count':11,
'downloader / request_method_count / GET':11,
'downloader / response_bytes':24871,
'downloader / response_count':11,
'downloader / response_status_count / 200':10,
'downloader / response_status_count / 404':1,
'dupefilter / filtered':1,
'finish_reason':'完成',
'finish_time':datetime.datetime(2017,2,19,5,37,27,227438),
'item_scraped_count':100,
'log_count / DEBUG':113,
'log_count / INFO':7,
'request_depth_max':10,
'response_received_count':11,
'排程程式/出隊':10,
'scheduler / dequeued / memory':10,
'排程程式/入隊':10,
'scheduler / enqueued / memory':10,
'start_time':datetime.datetime(2017,2,19,5,37,20,321557)}
2017-02-19 13:37:27 [scrapy.core.engine]資訊:蜘蛛關閉(完成)複製程式碼
這裡只是部分執行結果,中間一些抓取結果已省略。
首先,Scrapy輸出了當前的版本號以及正在啟動的專案名稱。接著輸出了當前settings.py中一些重寫後的配置。然後輸出了當前所應用的中介軟體和Pipelines.Middlewares預設是啟用的,可以在settings.py中修改.Pipelines預設是空,同樣也可以在settings.py中配置。後面會對它們進行講解。
接下來就是輸出各個頁面的抓取結果了,可以看到爬蟲一邊解析,一邊翻頁,直至將所有內容抓取完畢,然後終止。
最後,Scrapy輸出了整個抓取過程的統計資訊,如請求的位元組數,請求次數,響應次數,完成原因等。
整個Scrapy程式成功執行。我們通過非常簡單的程式碼就完成了一個網站內容的爬取,這樣相比之前一點點寫程式簡潔很多。
十,儲存到檔案
執行完Scrapy後,我們只在控制檯看到了輸出結果。如果想儲存結果該怎麼辦呢?
要完成這個任務其實不需要任何額外的程式碼,Scrapy提供的Feed Export可以輕鬆將抓取結果輸出。例如,我們想將上面的結果儲存成JSON檔案,可以執行如下命令:
scrapy抓取引號-o quotes.json複製程式碼
命令執行後,專案內多了一個quotes.json檔案,檔案包含了剛才抓取的所有內容,內容是JSON格式。
另外我們還可以每一個專案輸出一行JSON,輸出字尾為JL,為jsonline的縮寫,命令如下所示:
scrapy抓取引號-o quotes.jl複製程式碼
或
scrapy抓取引號-o引用.jsonlines複製程式碼
輸出格式還支援很多種,例如CSV,XML,鹹菜,元帥等,還支援FTP,S3等遠端輸出,另外還可以通過自定義ItemExporter來實現其他的輸出。
例如,下面命令對應的輸出分別為CSV,XML,鹹菜,元帥格式以及FTP遠端輸出:
scrapy抓取引號-o quotes.csv
scrapy抓取引號-o quotes.xml
scrapy抓取引號-o quotes.pickle
scrapy抓取引號-o引用.marshal
scrapy抓取引號-o ftp:// user:pass@ftp.example.com/path/to/quotes.csv複製程式碼
其中,FTP輸出需要正確配置使用者名稱,密碼,地址,輸出路徑,否則會報錯。
通過Scrapy提供的Feed Exports,我們可以輕鬆地輸出抓取結果到檔案。對於一些小型專案來說,這應該足夠了。不過如果想要更復雜的輸出,如輸出到資料庫等,我們可以使用Item Pileline來完成。
十一,使用Item Pipeline
如果想進行更復雜的操作,如將結果儲存到MongoDB資料庫,或者篩選某些有用的Item,則我們可以定義Item Pileline來實現。
Item Pipeline為專案管道。當Item生成後,它會自動被送到Item Pipeline進行處理,我們常用Item Pipeline來做如下操作。
- 清理HTML資料。
- 驗證爬取資料,檢查爬取欄位。
- 查重並丟棄重複內容。
- 將爬取結果儲存到資料庫。
要實現Item Pipeline很簡單,只需要定義一個類並實現
process_item()
方法即可。啟用Item Pipeline後,Item Pipeline會自動呼叫這個方法。
process_item()
方法必須返回包含資料的字典或Item物件,或者丟擲DropItem異常。
process_item()
方法有兩個引數。一個引數是
item
,每次蜘蛛生成的專案都會作為引數傳遞過來。另一個引數是
spider
,就是蜘蛛的例項。
接下來,我們實現一個Item Pipeline,篩掉
text
長度大於50的Item,並將結果儲存到MongoDB。
修改專案裡的pipelines.py檔案,之前用命令列自動生成的檔案內容可以刪掉
,一個增加
TextPipeline
類,內容如下所示:
from scrapy.exceptions import DropItem
class TextPipeline (object):
def __init__ (self):
self.limit = 50
def process_item (self,item,spider):
if item [ 'text' ]:
if len(item [ 'text' ]] )> self.limit:
item [ 'text' ] = item [ 'text' ] [ 0:self.limit] .rstrip()+ '...'
return item
else:
return DropItem('Missing Text'))複製程式碼
這段程式碼在構造方法裡定義了限制長度為
50,了實現
process_item()
方法,引數其的英文
item
狀語從句:
spide
- [R首先該方法判斷。
item
的
text
屬性是否存在,如果不存在,丟擲則
DropItem
異常;如果存在,再判斷長度是否大於50,如果大於,那就截斷然後拼接省略號,再將
item
報導檢視即可。
接下來,將我們處理後的
item
存入MongoDB中,定義另外一個管道同樣在pipelines.py中,我們實現另一個類。
MongoPipeline
,內容如下所示:
匯入 pymongo
類 MongoPipeline (object):
def __init__ (self,mongo_uri,mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler (cls,crawler):
return cls(
mongo_uri = crawler.settings.get(' MONGO_URI'),
mongo_db = crawler.settings.get('MONGO_DB')
)
def open_spider (self,spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client [self.mongo_db]
def process_item (self,item,spider):
name = item .__ class __.__ name__
self.db [name] .insert(dict(item))
return item
def close_spider (self,蜘蛛):
self.client.close()複製程式碼
MongoPipeline
類實現了API定義的另外幾個方法。
from_crawler
。它是一個類方法,用@classmethod
標識,是一種依賴注入的方式。它的引數就是crawler
,通過crawler
我們可以拿到全域性配置的每個配置資訊。在全域性配置settings.py中,可以我們定義MONGO_URI
狀語從句:MONGO_DB
來指定MongoDB的連線需要的地址和資料庫名稱,拿到配置資訊之後返回類物件即可。所以這個方法的定義主要是用來獲取 settings.py中的配置的。open_spider
。當蜘蛛開啟時,這個方法被呼叫。上文程式中主要進行了一些初始化操作。close_spider
。當蜘蛛關閉時,這個方法會呼叫。上文程式中將資料庫連線關閉。
的最主要
process_item()
方法則執行了資料插入操作。
好定義
TextPipeline
狀語從句:
MongoPipeline
這兩個類後,我們需要在settings.py中使用它們.MongoDB的連線資訊還需要定義。
我們在settings.py中加入如下內容:
ITEM_PIPELINES = {
'tutorial.pipelines.TextPipeline':300,
'tutorial.pipelines.MongoPipeline':400,
}
MONGO_URI = 'localhost'MONGO_DB
= 'tutorial'複製程式碼
賦值
ITEM_PIPELINES
字典搜尋,鍵名是管道的類名稱,鍵值是呼叫優先順序,是一個數字,數字越小則對應的管道越先被呼叫。
再重新執行爬取,命令如下所示:
scrapy抓取報價複製程式碼
爬取結束後,MongoDB的中建立了一個教程的資料庫,QuoteItem的表,如下圖所示。
的長
text
已經被處理並追加了省略號,的短
text
保持不變,
author
狀語從句:
tags
也。都相應儲存。
十二,原始碼
本節程式碼地址為:HTTPS://github.com/Python3WebSpider/ScrapyTutorial。
本資源首發於崔慶才的個人部落格靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)