Scrapy框架抓取安居客房源資訊

weixin_34116110發表於2016-11-08

1.我們抓取這個地址 http://bj.zu.anjuke.com/ditie/dt20-s435/

2.首先我們來抓取釋出的房源標題,分析下結構

1205414-c44a5955a532f5e2.png
Paste_Image.png

3.通過上面的分析我們看到我們需要房源的title在:

                div>h3>a 這樣的一個結構我們就可以拿到a標籤了
from scrapy.spider import Spider
from scrapy.selector import Selector

from tutorial.items import AnJuKeItem


class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://bj.zu.anjuke.com/ditie/dt20-s435/"
    ]

    def parse(self, response):
        sel = Selector(response)
        titleList = sel.xpath('//div/h3/a')
        for sel in titleList:
            item = AnJuKeItem()
            item['link'] = sel.xpath('@href').extract()
            item['title'] = sel.xpath('text()').extract()
            yield item


這樣我們就拿到了頁面的房屋標題,和進入詳情介面的url,為我們下一步抓取電話做準備

4.增加了抓取電話和聯絡地址,並且儲存資料到本地mysql

5.其中建立資料庫欄位的時候我們要 手動制定該字元的編碼格式,詳情見原始碼

專案地址持續更新:https://github.com/l123456789jy/ScrapyAnJuKe

相關文章