Python爬蟲之路-jsonpath模組

Jiayu920716發表於2021-01-04

資料提取-jsonpath模組

知識點
  • 瞭解 jsonpath模組的使用場景
  • 掌握 jsonpath模組的使用

1. jsonpath模組的使用場景

如果有一個多層巢狀的複雜字典,想要根據key和下標來批量提取value,這是比較困難的。jsonpath模組就能解決這個痛點,接下來我們就來學習jsonpath模組

jsonpath可以按照key對python字典進行批量資料提取


知識點:瞭解 jsonpath模組的使用場景

2. jsonpath模組的使用方法

2.1 jsonpath模組的安裝

jsonpath是第三方模組,需要額外安裝

pip install jsonpath

2.2 jsonpath模組提取資料的方法

from jsonpath import jsonpath
ret = jsonpath(a, 'jsonpath語法規則字串')

2.3 jsonpath語法規則

在這裡插入圖片描述

2.4 jsonpath使用示例

book_dict = { 
  "store": {
    "book": [ 
      { "category": "reference",
        "author": "Nigel Rees",
        "title": "Sayings of the Century",
        "price": 8.95
      },
      { "category": "fiction",
        "author": "Evelyn Waugh",
        "title": "Sword of Honour",
        "price": 12.99
      },
      { "category": "fiction",
        "author": "Herman Melville",
        "title": "Moby Dick",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      { "category": "fiction",
        "author": "J. R. R. Tolkien",
        "title": "The Lord of the Rings",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "red",
      "price": 19.95
    }
  }
}

from jsonpath import jsonpath

print(jsonpath(book_dict, '$..author')) # 如果取不到將返回False # 返回列表,如果取不到將返回False

在這裡插入圖片描述

3. jsonpath練習

我們以拉勾網城市JSON檔案 http://www.lagou.com/lbs/getAllCitySearchLabels.json 為例,獲取所有城市的名字的列表,並寫入檔案。

參考程式碼:

import requests
import jsonpath
import json

# 獲取拉勾網城市json字串
url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"}
response =requests.get(url, headers=headers)
html_str = response.content.decode()

# 把json格式字串轉換成python物件
jsonobj = json.loads(html_str)

# 從根節點開始,獲取所有key為name的值
citylist = jsonpath.jsonpath(jsonobj,'$..name')

# 寫入檔案
with open('city_name.txt','w') as f:
    content = json.dumps(citylist, ensure_ascii=False)
    f.write(content)

知識點:掌握 jsonpath模組的使用

相關文章