使用python3抓取鏈家二手房資料

秋水天發表於2018-04-18

原文網址 : https://juejin.im/post/5ad6ed0451882555784e7d82

有小夥伴說想拿鏈家二手房資訊做資料分析，讓幫忙抓點資料。並沒有搞過，網上搜了一些資料試了一下，感覺不難可以搞，下面小結一下。

工具

python3
python的三方庫：
- BeautifulSoup（用於解析資料）
- pandas（用於處理資料，儲存成Excel）
- requests (用於傳送請求)

三方庫庫的安裝也比較簡單，直接使用 pip install 相應的庫名即可：

pip install pandas
pip install requests
pip install beautifulsoup4
複製程式碼

思路

抓包基本的意思就是用程式碼模擬使用者的請求，然後解析相應的網頁內容，擇取出需要的資訊即可。簡單看了一下鏈家的網頁結構，是比較整齊的。這種就是深圳二手房列表分頁的連結：

https://sz.lianjia.com/ershoufang/pg1
https://sz.lianjia.com/ershoufang/pg2
...
https://sz.lianjia.com/ershoufang/pg99
https://sz.lianjia.com/ershoufang/pg100
複製程式碼

可以請求一下這個連結，然後解析返回結果，可以抓取到每一個房子詳情頁面的連結。我這邊是通過正則匹配的方式解析的（詳情參考原始碼中catchHouseList函式）。解析的結果大概像這樣子：

https://sz.lianjia.com/ershoufang/105101151981.html
https://sz.lianjia.com/ershoufang/105101102328.html
https://sz.lianjia.com/ershoufang/105100779210.html
https://sz.lianjia.com/ershoufang/105101254525.html
https://sz.lianjia.com/ershoufang/105101201989.html
https://sz.lianjia.com/ershoufang/105101262457.html
複製程式碼

獲取詳情連結之後，再請求這個詳情連結，可以獲得到詳情資訊。把獲取到的詳情資訊通過 BeautifulSoup 解析，就能得到你要的資料。最後，把這個資料通過 pandas 寫入到Excel中即可(參考appendToXlsx函式)。寫的時候是append的方式。

注意的是因為大部分網站對於連結訪問都有一些限制，諸如訪問太頻繁了，伺服器可能認為這個請求不正常，不會返回正確結果。因此每次請求一個網頁之後，會等一會兒再請求下一個網頁。不至於被伺服器拒絕。

# 我這裡設定為3秒
time.sleep(3)
複製程式碼

原始碼

下面是我的原始碼,應該安裝完相應的三方庫，在python環境執行下面的程式碼即可：


import requests
from bs4 import BeautifulSoup
import sys
import os
import time
import pandas as pd
import numpy as np
from parsel import Selector
import re



headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 BIDUBrowser/8.7 Safari/537.36'
    }


def catchHouseList(url):
    resp = requests.get(url, headers=headers, stream=True)
    if resp.status_code == 200:
        reg = re.compile('<li.*?class="clear">.*?<a.*?class="img.*?".*?href="(.*?)"')
        urls = re.findall(reg, resp.text)
        return urls
    return []

def catchHouseDetail(url):
    resp = requests.get(url, headers=headers)
    print(url)
    if resp.status_code == 200:
        info = {}
        soup = BeautifulSoup(resp.text, 'html.parser')
        info['標題'] = soup.select('.main')[0].text
        info['總價'] = soup.select('.total')[0].text
        info['總價單位'] = soup.select('.unit')[0].text
        info['每平方售價'] = soup.select('.unitPriceValue')[0].text
        # p = soup.select('.tax')
        # info['參考總價'] = soup.select('.tax')[0].text
        info['建造時間'] = soup.select('.subInfo')[2].text
        info['小區名稱'] = soup.select('.info')[0].text
        info['所在區域'] = soup.select('.info a')[0].text + ':' + soup.select('.info a')[1].text
        info['鏈家編號'] = str(url)[34:].rsplit('.html')[0]
        info['房屋戶型'] = str(soup.select('.content')[2].select('.label')[0].next_sibling)
        info['所在樓層'] = soup.select('.content')[2].select('.label')[1].next_sibling
        info['建築面積'] = soup.select('.content')[2].select('.label')[2].next_sibling
        info['戶型結構'] = soup.select('.content')[2].select('.label')[3].next_sibling
        info['套內面積'] = soup.select('.content')[2].select('.label')[4].next_sibling
        info['建築型別'] = soup.select('.content')[2].select('.label')[5].next_sibling
        info['房屋朝向'] = soup.select('.content')[2].select('.label')[6].next_sibling
        info['建築結構'] = soup.select('.content')[2].select('.label')[7].next_sibling
        info['裝修情況'] = soup.select('.content')[2].select('.label')[8].next_sibling
        info['梯戶比例'] = soup.select('.content')[2].select('.label')[9].next_sibling
        info['供暖方式'] = soup.select('.content')[2].select('.label')[10].next_sibling
        info['配備電梯'] = soup.select('.content')[2].select('.label')[11].next_sibling
      #  info['產權年限'] = str(soup.select('.content')[2].select('.label')[12].next_sibling)
        return info
    pass

def appendToXlsx(info):
    fileName = './鏈家二手房.xlsx'
    dfNew = pd.DataFrame([info])
    if(os.path.exists(fileName)):
        sheet = pd.read_excel(fileName)
        dfOld = pd.DataFrame(sheet)
        df = pd.concat([dfOld, dfNew])
        df.to_excel(fileName)
    else:
        dfNew.to_excel(fileName)


def catch():
    pages = ['https://sz.lianjia.com/ershoufang/pg{}/'.format(x) for x in range(1, 1001)]
    for page in pages:
        print(page)
        houseListURLs = catchHouseList(page)
        for houseDetailUrl in houseListURLs:
            try:
                info = catchHouseDetail(houseDetailUrl)
                appendToXlsx(info)
            except:
                pass
            time.sleep(3)

    pass

if __name__ == '__main__':
    catch()
    
複製程式碼

瞎墨跡

雖然技術含量並不高，只是涉及到一些三方工具的使用。不過實踐的過程中還是遇到一些問題，諸如對pandas的使用，因為從未接觸過，就折騰了很久。大概很多看起來很簡單的東西，真正弄起來的時候，依舊有預料不到的問題。
其次是抓包這件事，技術上覺得並不奇特（當然有些網站的抓包還是有難度的），但是小夥伴需要這個，也許一件事情並不僅僅從技術上考量其價值。

參考資料

谷歌百度一堆，無法判斷原創性，就懶得貼了。

scrapy爬取鏈家二手房存到mongo資料庫
2021-01-03
Go資料庫
使用beautifulsoup和re抓取鏈家資料基礎並儲存為csv檔案
2021-01-02
使用python3抓取pinpoint應用資訊入庫
2019-02-15
Python
利用Python對鏈家網北京二手房進行簡單資料分析
2018-12-17
Python
18.2 使用NPCAP庫抓取資料包
2023-10-26
PCA
windows安裝Anaconda3，Anaconda3安裝scrapy抓取鏈家資料入門例子
2018-12-12
Windows
[知識圖譜實戰篇] 一.資料抓取之Python3抓取JSON格式的電影實體
2019-01-31
PythonJSON
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
蘭州二手房資料自取(學習使用)
2024-06-21
Python爬取鏈家成都二手房源資訊 asyncio + aiohttp 非同步爬蟲實戰
2020-09-22
PythonAIHTTP非同步爬蟲
使用Chrome快速實現資料的抓取（三）——JQuery
2020-04-05
ChromejQuery
使用代理IP抓取資料需要注意什麼？
2023-02-03
UiBot無法抓取Chrome元素和資料抓取工具無法使用的解決方案
2020-03-16
UIChrome
python簡書資料抓取
2018-08-25
Python
Charles 抓取移動裝置資料包基本使用教程
2019-06-20
使用代理IP抓取資料的四大優勢
2022-06-09
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
資料包抓取工具：Debookee for mac
2022-07-06
Mac
Debookee for mac(資料包抓取工具)
2022-07-05
Mac
爬蟲原理與資料抓取
2020-12-17
爬蟲
TypeScript_抓取酒店價格資料
2023-11-07
TypeScript
Python抓取淘寶IP地址資料
2019-04-26
Python
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
業務資料抓取的影響
2022-01-17
網頁資料抓取之噹噹網
2020-12-21
網頁
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
使用scrapy抓取Youtube播放列表資訊
2019-02-16
使用代理IP抓取社交媒體資料對企業有哪些作用？
2022-06-13
Javascript抓取京東、淘寶商品資料
2023-10-19
JavaScript
過濾搜尋引擎的抓取資料
2020-04-17
網頁抓取如何幫助資料分析？
2022-02-11
網頁
Python3的資料型別
2018-09-02
Python資料型別
python3 使用 Selenium 自動化測試或爬取資料
2023-09-27
Python
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
Scrapy爬取二手房資訊+視覺化資料分析
2019-03-04
視覺化
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
node 抓取api資料匯出為excel表格
2018-06-19
APIExcel

使用python3抓取鏈家二手房資料

工具

思路

原始碼

瞎墨跡

參考資料

相關文章