初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

秦子帥發表於2018-06-12

原文網址 : https://juejin.im/post/5b1f1dbf6fb9a01e4e5e6755

Scrapy簡介

Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支援。

Scrapy專案結構

scrapy.cfg: 專案的配置檔案 lianjia/: 該專案的python模組。之後您將在此加入程式碼。 lianjia/items.py: 專案中的item檔案. lianjia/pipelines.py: 專案中的pipelines檔案. lianjia/settings.py: 專案的設定檔案. lianjia/spiders/: 放置spider程式碼的目錄.

下面主要說一下幾個比較重要的： item.py

Item 是儲存爬取到的資料的容器。比如我下面將要爬取的鏈家網租房資訊的地點、平米數、價格，我會在item.py檔案中定義相應的欄位。

from scrapy import  Item,Field

class LianjiaItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    place=Field()    #爬取鏈家租房資訊的-地點
    size=Field()     #爬取鏈家租房資訊的-房屋平米數
    price = Field()  # 爬取鏈家租房資訊的-價格
複製程式碼

spider.py 此檔案是我們在spiders檔案下自己建立的，用來寫爬蟲的程式碼的，非常重要。我們需要建立一個Spider，必須繼承scrapy.Spider，並有下面三個屬性：

name: 用於區別Spider。該名字必須是唯一的，您不可以為不同的Spider設定相同的名字。 start_urls: 包含了Spider在啟動時進行爬取的url列表。因此，第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的資料中提取。 parse() 是spider的一個方法。被呼叫時，每個初始URL完成下載後生成的 Response 物件將會作為唯一的引數傳遞給該函式。該方法負責解析返回的資料(response data)，提取資料(生成item)以及生成需要進一步處理的URL的 Request 物件。 pipelines.py 主要作用是為爬取下的資料的做處理。比如txt或者存入資料庫的操作。 settings.py 主要是對爬蟲專案的設定

Scrapy框架爬蟲實戰

今天主要爬取一下鏈家網租房主頁的前一百頁資料，也是為了帶大家去入門熟悉一下Scrapy框架。

建立專案

命令列切換到你想建立Scrapy專案的路徑，我是在D盤pycharm資料夾建立的輸入：

scrapy startproject 專案名稱
複製程式碼

然後我們用PyCharm匯入：File-->Open

爬取鏈家網詳解

1.編寫item.py，定義爬取的欄位。我們爬取鏈家網條目的租房地點、平米數以及價位，所以定義三個欄位，程式碼如下：

from scrapy import  Item,Field

class LianjiaItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    place=Field()    #爬取鏈家租房資訊的-地點
    size=Field()     #爬取鏈家租房資訊的-房屋平米數
    price = Field()  # 爬取鏈家租房資訊的-價格

    pass
複製程式碼

2.在spiders資料夾下建立spider.py，用來爬取程式碼。程式碼如下：

import scrapy
from scrapy.http import Request
from lianjia.items import LianjiaItem

class LianjiaSpider(scrapy.Spider):#必須繼承scrapy.Spider

    name = "lianjia"   #名稱
    start_urls = ['https://tj.lianjia.com/zufang/']   #URL列表


    def parse(self, response):
        item=LianjiaItem()

        infos=response.xpath('//div[@class="info-panel"]')

        for info  in infos:
            # 獲取地點
            place = info.xpath('div/div/a[@class="laisuzhou"]/span/text()').extract()[0].replace('\xa0','')
            # 獲取平米數
            size = info.xpath('div/div/span[@class="meters"]/text()').extract()[0].replace('\xa0','')
            # 獲取價格
            price = info.xpath('div/div[@class="price"]/span/text()').extract()[0] + info.xpath(
                'div/div[@class="price"]/text()').extract()[0]

            item['place']=place
            item['size'] = size
            item['price'] = price

            yield  item   #返回資料

        #從新設定URL，從第2頁到第100頁  回撥parse方法
        for i in   range(2,101):
            url = 'https://tj.lianjia.com/zufang/pg{}/'.format(str(i))
            yield Request(url, callback=self.parse)  ## 回撥
複製程式碼

通過程式碼我們會發現，Item欄位是通過Selector選擇器提取的。它有四個基本的方法：

xpath(): 傳入xpath表示式，返回該表示式所對應的所有節點的selector list列表。 css(): 傳入CSS表示式，返回該表示式所對應的所有節點的selector list列表. **extract(): **序列化該節點為unicode字串並返回list。 re(): 根據傳入的正規表示式對資料進行提取，返回unicode字串list列表。

另外也可以在Shell中除錯xpath等，具體的操作在下面，慢慢看。

3.txt形式儲存 pipelines.py就是對爬取下的資料做處理的，所以我們可以在此檔案中寫txt或者資料庫儲存等等，今天就以TXT儲存為例：

class LianjiaPipeline(object):

    def process_item(self, item, spider):
        try:
            place = str(item['place'])
            size = str(item['size'])
            price = str(item['price'])
            fb = open("C:/Users/qzs/Desktop/qinzishuai.txt", "a+")
            fb.write(place + size + price + '\n')
            fb.close()
        except:
            pass

        return item
複製程式碼

另外還需要在settings.py中配置一下，名稱一定要換成你的專案名稱：

ITEM_PIPELINES = {
    'lianjia.pipelines.LianjiaPipeline': 300,    #儲存到txt檔案
}
複製程式碼

4.執行執行scrapy專案兩種方式： (1).在Terminal輸入命令執行，也就是在專案路徑的命令列輸入：

scrapy crawl 專案名稱
複製程式碼

(2).在Pycharm中執行。我們要在scrapy.cfg同層目錄下建一個begin.py檔案，輸入程式碼：

from scrapy import cmdline

cmdline.execute("scrapy crawl lianjia".split())
複製程式碼

然後再點選Run-->Edit Configurations...

然後我們就可以執行了。 **強調：**第一次執行的時候，我遇到no module named win32API錯誤，這是因為Python沒有自帶訪問windows系統API的庫的，需要下載第三方庫。

直接在pip安裝即可：

pip install pypiwin32
複製程式碼

安裝完成後執行成功，檢視TXT：

Scrapy Shell除錯xpath

快捷命令:

shelp() - 列印可用物件及快捷命令的幫助列表 fetch(request_or_url) - 根據給定的請求(request)或URL獲取一個新的response，並更新相關的物件 view(response) - 在本機的瀏覽器開啟給定的response。其會在response的body中新增一個 tag ，使得外部連結(例如圖片及css)能正確顯示。注意，該操作會在本地建立一個臨時檔案，且該檔案不會被自動刪除。

在命令列輸入：

scrapy shell "爬取的URL"
複製程式碼

然後會顯示你能內容如下,說明成功進入shell:

下面主要說一下response.xpath除錯，為了判斷我們的xpath是否正確。例如我們想除錯一下鏈家網租房的地點資訊，輸入：

response.xpath('//div/div/a[@class="laisuzhou"]/span/text()').extract()
複製程式碼

結果顯示：

說明我們的xpath沒有問題。再可以輸入：

view.(response)
複製程式碼

效果如下：

希望對大家有所幫助！ 大家可以關注我的微信公眾號：「秦子帥」一個有質量、有態度的公眾號！

python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
用python爬取鏈家的租房資訊
2020-10-29
Python
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬取鏈家成都二手房源資訊 asyncio + aiohttp 非同步爬蟲實戰
2020-09-22
PythonAIHTTP非同步爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
python爬取北京租房資訊
2018-05-18
Python
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
爬蟲初識
2024-07-13
爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲