Scrapy框架抓取安居客房源資訊
1.我們抓取這個地址 http://bj.zu.anjuke.com/ditie/dt20-s435/
2.首先我們來抓取釋出的房源標題,分析下結構
3.通過上面的分析我們看到我們需要房源的title在:
div>h3>a 這樣的一個結構我們就可以拿到a標籤了
from scrapy.spider import Spider
from scrapy.selector import Selector
from tutorial.items import AnJuKeItem
class DmozSpider(Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://bj.zu.anjuke.com/ditie/dt20-s435/"
]
def parse(self, response):
sel = Selector(response)
titleList = sel.xpath('//div/h3/a')
for sel in titleList:
item = AnJuKeItem()
item['link'] = sel.xpath('@href').extract()
item['title'] = sel.xpath('text()').extract()
yield item
這樣我們就拿到了頁面的房屋標題,和進入詳情介面的url,為我們下一步抓取電話做準備
4.增加了抓取電話和聯絡地址,並且儲存資料到本地mysql
5.其中建立資料庫欄位的時候我們要 手動制定該字元的編碼格式,詳情見原始碼
相關文章
- Scrapy爬蟲:實習僧網最新招聘資訊抓取爬蟲
- 使用Scrapy抓取資料
- 網路爬蟲:使用Scrapy框架編寫一個抓取書籍資訊的爬蟲服務爬蟲框架
- Scrapy框架框架
- scrapy 爬電影 抓取資料
- 用scrapy進行網頁抓取網頁
- Scrapy框架的使用之Scrapy框架介紹框架
- scrapy抓取ajax請求的網頁網頁
- seleniums實踐爬取安居客
- Scrapy框架的使用之Scrapy入門框架
- 用Scrapy抓取豆瓣小組資料(一)
- 用Scrapy抓取豆瓣小組資料(二)
- 用Scrapy抓取豆瓣小組資料(三)
- Scrapy框架-Spider框架IDE
- Scrapy框架簡介框架
- Scrapy爬蟲框架爬蟲框架
- 安居客 Android APP 走向平臺化AndroidAPP
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- Scrapy框架的使用之Scrapy對接Splash框架
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- 安居客Android專案架構演進Android架構
- Scrapy框架的使用之Scrapy爬取新浪微博框架
- 如何匯入Scrapy框架框架
- 爬蟲練手:使用scrapy抓取噹噹網程式設計類圖書資訊,並儲存到MySQL爬蟲程式設計MySql
- 如何抓取網頁資訊?網頁
- 安居客 QA 的技術轉型之路 - 卞偉
- 爬蟲框架-scrapy的使用爬蟲框架
- python爬蟲Scrapy框架Python爬蟲框架
- Scrapy爬蟲框架的使用爬蟲框架
- Python爬蟲—Scrapy框架Python爬蟲框架
- Scrapy 示例 —— Web 爬蟲框架Web爬蟲框架
- scrapy實戰之定向抓取某網店商品資料
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- Scrapy 框架介紹之 Puppeteer 渲染框架
- scrapy框架持久化儲存框架持久化
- Scrapy 框架 (學習筆記-1)框架筆記
- 58同城&安居客:2019年樓市總結
- 安居客:2019年職場女性就業調查就業