分析一下點評網的反爬

沈仲強發表於2019-02-28

原文網址 : https://flycode.co/archives/264991

點評網的反爬設定在我們爬取點評網頁的時候給我們造成了不小的障礙。在網頁上我們看到的是這樣的

網頁上可以看到這家餐廳有1405條評論，人均387。但在分析頁面原始碼的時候，我們卻看不到網頁上的數字，看到是這樣的程式碼

點評網對數字做了處理，一些數字的資訊像評論條數、人均、評分等都做了反爬保護。上面的網頁中評論條數是1405條，但在頁面原始碼中，除了第一個數字1以外，後面的數字我們看不到，都是一些像隨機編碼一樣的css class。

如果我們仔細分析這個css class，其實是不難發現背後的原理的。

通過開發者工具，我們找到這個css的定義，可以看到是下面這樣的

background-image屬性裡面是一個url，我們在瀏覽器裡開啟它，看到它的內容是

lc-mY1i 這個css class裡面是一個background屬性，定義了背景圖片偏移的位置。

所以點評網上顯示數字的原理就是通過設定不同的偏移位置，顯示背景圖片相應位置上的數字。我們可以想象背景圖片的前面有一個視窗，視窗的大小剛好夠顯示一個數字。視窗是固定不動的，背景圖片在後面移動，移動到不同的位置就能顯示這個位置上的數字。

進一步分析背景圖片，我們可以發現，這是一個SVG圖片，圖片中的數字可以在svg的原始碼中看到，如下

理解了原理後，我們用程式碼來實現一下解析的過程。

首先我們從點評的網頁上找出css檔案的url，程式碼如下

def get_css():
    url = "http://www.dianping.com/shanghai/ch10"
    r = requests.get(url, headers=headers)
    content = r.content.decode("utf-8")
    matched = re.search(r'href="([^"]+svgtextcss[^"]+)"', content, re.M)
    if not matched:
        raise Exception("cannot find svgtextcss file")
    css_url = matched.group(1)
    css_url = fix_url(css_url)
    return css_url

複製程式碼

隨後我們從css裡找到背景圖片的路徑，並獲取SVG圖片中的每個數字

def get_svg(css_url):
    r = requests.get(css_url, headers=headers)
    content = r.content.decode("utf-8")
    matched = re.search(r'span\[class\^="lc\-"\].*?background\-image: url\((.*?)\);', content)
    if not matched:
        raise Exception("cannot find svg file")
    svg_url = matched.group(1)
    svg_url = fix_url(svg_url)
    r = requests.get(svg_url, headers=headers)
    content = r.content.decode("utf-8")
    matched = re.search(r'class="textStyle">(\d+)</text>', content)
    if not matched:
        raise Exception("cannot find digits")
    digits = list(matched.group(1))
    return digits

複製程式碼

這個函式返回一個陣列，陣列的內容是SVG圖片中的所有數字。

對於點評網頁中的用css class表示的數字，我們來解析一下css class和數字之間的對應關係

def get_class_offset(css_url):
    r = requests.get(css_url, headers=headers)
    content = r.content.decode("utf-8")
    matched = re.findall(r'(\.[a-zA-Z0-9-]+)\{background:(\-\d+\.\d+)px', content)
    result = {}
    for item in matched:
        css_class = item[0][1:]
        offset = item[1]
        result[css_class] = offset
    return result

複製程式碼

這個函式返回的是一個字典，它的key是css class的名字，value是css class對應的數字在背景圖片中的偏移量。

接下來，我們以評論條數為例，來獲取點評上一個頁面裡每家餐廳的評論條數。先定義函式，用於獲取評論條數

def get_review_num(page_url, class_offset, digits):
    r = requests.get(page_url, headers=headers)
    content = r.content.decode("utf-8")
    root = etree.HTML(content)
    shop_nodes = root.xpath('.//div[@id="shop-all-list"]/ul/li')
    for shop_node in shop_nodes:
        name_node = shop_node.xpath('.//div[@class="tit"]/a')[0]
        name = name_node.attrib["title"]
        review_num_node = shop_node.xpath('.//div[@class="comment"]/a[@class="review-num"]/b')[0]
        num = 0
        if review_num_node.text:
            num = num * 10 + int(review_num_node.text)
        for digit_node in review_num_node:
            css_class = digit_node.attrib["class"]
            offset = class_offset[css_class]
            index = int((float(offset)+7)/-12)
            digit = int(digits[index])
            num = num * 10 + digit
        last_digit = review_num_node[-1].tail
        if last_digit:
            num = num * 10 + int(last_digit)
        print("restaurant: {}, review num: {}".format(name, num))

複製程式碼

然後呼叫函式，爬一下頁面中每家餐廳的評論條數

css_url = get_css()
digits = get_svg(css_url)
class_offset = get_class_offset(css_url)
url = "http://www.dianping.com/shanghai/ch10/g116"
get_review_num(url, class_offset, digits)

複製程式碼

執行程式碼後，得到如下的結果

restaurant: 1886汽車主題德國餐廳(環宇薈店), review num: 1021
restaurant: Mia Fringe迷芬奇餐廳&酒吧, review num: 152
restaurant: Oyster EXPO江月蠔庭西餐生蠔吧(世博源店), review num: 1405
restaurant: 寶萊納餐廳(陸家嘴店), review num: 7854
restaurant: Pizza Marzano瑪尚諾(港匯店), review num: 7527
restaurant: love&salt牛排館, review num: 86
restaurant: Da Ivo 義大利魔鏡餐廳, review num: 3497
restaurant: Mr Nice好好先生餐廳(月星環球港店), review num: 9052
restaurant: L'ATELIER de Joël Robuchon, review num: 2821
restaurant: Stone Sal 言鹽西餐廳, review num: 62
restaurant: 夏朵花園, review num: 3031
restaurant: 殼裡西餐廳Coquille Seafood Bistro, review num: 322
restaurant: ICHA Chateau Bar & Restaurant(酒吧創意料理), review num: 496
restaurant: 菲斯特花園西餐廳, review num: 655
restaurant: 寶麗嘉酒店Cafe Bellagio(寶麗嘉西餐廳), review num: 598

複製程式碼

對照網頁上的資料，可以看到，餐廳的評論條數都被正確的解析出來了。

本文已同步更新到公眾號【Python與資料分析】，歡迎關注~

點評一下新手畫的電路圖
2024-07-13
大眾點評商家爬取
2024-06-25
[原創] 2018上半年網際網路惡意爬蟲分析：從全景視角看爬蟲與反爬蟲
2020-02-05
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
「資料分析」2種常見的反爬蟲策略，資訊驗證和動態反爬蟲
2022-02-23
爬蟲
常見網站反爬蟲的解決措施
2021-09-11
網站爬蟲
反爬與反反爬
2024-07-05
python解決反爬蟲方法的優缺點對比
2021-09-11
Python爬蟲
網站常見反爬解決方法
2019-10-18
網站
反網路爬蟲以及解決方案
2019-03-07
爬蟲
網易雲音樂評論爬蟲（2）：歌曲的全部評論
2018-10-10
爬蟲
只會用Selenium爬網頁？Appium爬App瞭解一下
2018-04-16
網頁APP
目標網站反爬基礎知識
2021-11-03
網站
百分之八十的網站都是有反爬蟲的！只需五部就能帶你破解反爬！
2018-07-05
網站爬蟲
Python反爬：利用js逆向和woff檔案爬取貓眼電影評分資訊
2022-01-30
PythonJS
如何解決網站登入後反爬的問題？
2023-02-16
網站
識別網路爬蟲的策略分析
2022-09-14
爬蟲
這種反爬蟲手段有點意思，看我破了它！
2019-11-14
爬蟲
大眾點評餐飲資料爬取（2020.11）
2020-11-10
反爬蟲的應對措施
2022-05-16
爬蟲
防止爬蟲被反爬的幾個主要策略
2021-12-15
爬蟲
Python爬蟲入門教程 62-100 30歲了，想找點文獻提高自己，還被反爬了，Python搞起，反爬第2篇
2019-04-23
Python爬蟲
我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
反爬蟲應對策略
2023-12-01
爬蟲
如何用http代理的ip池繞過網站反爬蟲機制？
2023-05-04
HTTP網站爬蟲
常見的反爬手段和解決思路
2018-12-14
scrapy突破反爬的幾種方式（三）
2018-09-17
常見的三種反爬蟲措施
2022-05-31
爬蟲
限制IP到全流程防控，講解網路爬蟲與技術反爬的動態攻防
2022-11-16
爬蟲
反-反爬蟲：用幾行程式碼寫出和人類一樣的動態爬蟲
2019-03-04
爬蟲行程
網路爬蟲在商業分析中的應用
2020-01-03
爬蟲
金山雲張巨集江點評網際網路
2019-05-11
天天聊爬蟲，今天我們來聊聊反爬
2018-12-19
爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
爬蟲與反爬：一場無休止之戰
2022-07-21
爬蟲

分析一下點評網的反爬

相關文章