windows安裝Anaconda3,Anaconda3安裝scrapy抓取鏈家資料入門例子

lightTrace發表於2018-12-12

一 windows安裝Anaconda3

主要介紹scrapy在win7下的安裝,這裡的話並不推薦大家用python+pip安裝,推薦使用Anaconda進行安裝,為什麼呢?因為如果你選擇前者,填坑的過程可能會讓你絕望,說不定會讓你砸鍵盤、內分泌失調,所以強烈建議用Anaconda!不信的話大家可以試試!

這裡的話簡單介紹一下anaconda的下載,下載地址為:https://www.anaconda.com/download/
注意要根據自己的python環境來選擇相應的版本下載,然後直接無腦下一步安裝,期間可能碰到什麼無法新增到選單之類的彈出框,沒關係直接忽略。
安裝完後新增相應的Anaconda3環境變數:
在這裡插入圖片描述

二 Anaconda3註冊scrapy

直接cmd執行:

conda install scrapy 

然後直接cmd:

scrapy

驗證scrapy是否安裝成功

三 抓取鏈家資料的例子

入門文件請看:scrapy1.5入門文件,寫的非常細非常好

建立一個scrapy專案

scrapy startproject lianjia

編寫程式碼抓取資料

在/lianjia/lianjia/spiders下建立lianjiaSpider.py:

import scrapy

class lianjiaSpider(scrapy.Spider):

    name = "lianjiaSpider"

    start_urls = ['https://sh.lianjia.com/ershoufang/pg1/']
     #迴圈抓取一百頁的資料
    for page in range(1,100):
        url = 'https://sh.lianjia.com/ershoufang/pg{0}/'.format(page)
        start_urls.append(url)
    print (start_urls)
    def parse(self, response):

        mingyan = response.xpath('//li[@class="clear LOGCLICKDATA"]') # 提取li元素class為clear LOGCLICKDA他的列表資料
        print (mingyan)
        fileName = '鏈家.txt'
        with open(fileName, "a+") as f:
          for v in mingyan:
            title = v.xpath('.//div[@class="title"]//text()').extract_first() #進一步提取class為title的資料
            print ('title')
            print (title)
            f.write(title)
            unitPrice = v.xpath('.//div[@class="unitPrice"]//text()').extract_first() #進一步提取class為unitPrice的單價資料
            f.write('---' + unitPrice)
            f.write('\n')  # ‘\n’ 表示換行

        f.close()

然後在/lianjia(和scrapy.cfg同級)目錄下執行

scrapy crawl lianjiaSpider

爬取一會後就會在/lianjia獲得資料鏈家.txt:

大三房,價格實惠,採光無遮擋,有鑰匙,看房方便---單價73615元/平米
雙南戶型、房型方正、精裝修稅費少、近地鐵---單價55125元/平米
滿五年稅費少,採光棒,南北通透,精裝修,配套齊全---單價39766元/平米
不靠路低總價小戶型,自住裝修,南北直通方正三房---單價77986元/平米
花木苑雙南兩房誠意出售+世紀公園一路之隔+2號線800米---單價73935元/平米
錦繡苑 2室2廳 670萬---單價65642元/平米
經典三房戶型,小區花園景觀,帶穩定租約,誠意出售---單價140540元/平米
本月必走房源、同戶型價位低、稅費少、業主已定好新房---單價60886元/平米
三房全明 南北通透  位置佳  採光充足看房隨時---單價58428元/平米
靜安豪景苑二期南北通廚衛全明大兩房+外地房東誠意賣---單價109049元/平米
新舒苑 3室2廳 163萬---單價15786元/平米
新上高區採光好小三房 南北直通 看房隨時 得房率高。---單價79434元/平米
全明戶型,總價是小區內價格低一套三房---單價115964元/平米
一手動遷、地鐵口 、總價低、看房有鑰匙---單價44576元/平米
1號線延長路地鐵口 全明南北通透兩居室 業主誠意出售---單價63392元/平米
品誠苑  經典小3房,誠意出售,皮夾子房源看房隨時!---單價43600元/平米
新 2號線世紀公園高區含車位、低總價、誠意出售隨時看---單價79751元/平米
地鐵毛坯大三房   滿五唯一    鑰匙房---單價39481元/平米
滿五唯一+正看小區花園+雙南戶型+採光寬闊+看房方便---單價86888元/平米
高區,南北通透,從未住過人次新房,浦明路一線濱江---單價96144元/平米
........
........
........

總共大概3000條左右,大家可以隨意修改程式碼組合其它的資料

相關文章