Python 優雅地 dumps 非標準型別

z正小歪發表於2017-11-11

在 Python 很經常做的一件事就是 Python 資料型別和 JSON 資料型別的轉換。

但是存在一個明顯的問題，JSON 作為一種資料交換格式有固定的資料型別，但是 Python 作為程式語言除了內建的資料型別以為還能編寫自定義的資料型別。

牆裂推薦：去看看 JSON 官網對 JSON 的介紹：www.json.org/json-zh.htm…

比如你肯定遇到過類似的問題:

>>> import json
>>> import decimal
>>> 
>>> data = {'key1': 'string', 'key2': 10, 'key3': decimal.Decimal('1.45')}
>>> json.dumps(data)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
    json.dumps(data)
  File "/usr/lib/python3.6/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python3.6/json/encoder.py", line 199, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python3.6/json/encoder.py", line 257, in iterencode
    return _iterencode(o, 0)
  File "/usr/lib/python3.6/json/encoder.py", line 180, in default
    o.__class__.__name__)
TypeError: Object of type 'Decimal' is not JSON serializable複製程式碼

那麼問題就來了，如何把各種各樣的 Python 資料型別轉化成 JSON 資料型別。
一種很不 pythonic 的做法就是，先轉換成某種能和 JSON 資料型別直接轉換的值，然後在 dump，這麼做很直接很暴力，但是在各種花式資料型別面前就很無力。

Google 是解決問題的重要方式之一，當你一頓搜尋過後，你就會發現其實可以在 dumps 時 encode 這個階段對資料進行轉化。

所以你肯定是那麼做的，完美地解決了問題。

>>> class DecimalEncoder(json.JSONEncoder):
...     def default(self, obj):
...         if isinstance(obj, decimal.Decimal):
...             return float(obj)
...         return super(DecimalEncoder, self).default(obj)
...     
... 
>>> 
>>> json.dumps(data, cls=DecimalEncoder)
'{"key1": "string", "key2": 10, "key3": 1.45}'複製程式碼

JSON 的 Encode 過程

文中程式碼摘自 github.com/python/cpyt…

刪除了幾乎所有的 docstring，由於程式碼太長，直接擷取了重要片段。可以在片段最上方的連結檢視完整的程式碼。

熟悉 json 這個庫的都知道基本只有4個常用的 API，分別是 dump、dumps 和 load、loads。

原始碼位於 cpython/Lib/json 中

# https://github.com/python/cpython/blob/master/Lib/json/__init__.py#L183-L238

def dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True,
        allow_nan=True, cls=None, indent=None, separators=None,
        default=None, sort_keys=False, **kw):

     # cached encoder
    if (not skipkeys and ensure_ascii and
        check_circular and allow_nan and
        cls is None and indent is None and separators is None and
        default is None and not sort_keys and not kw):
        return _default_encoder.encode(obj)

    if cls is None:
        cls = JSONEncoder

    # 重點
    return cls(
        skipkeys=skipkeys, ensure_ascii=ensure_ascii,
        check_circular=check_circular, allow_nan=allow_nan, indent=indent,
        separators=separators, default=default, sort_keys=sort_keys,
        **kw).encode(obj)複製程式碼

直接看到最後的 return。可以發現如果不提供 cls 預設就使用 JSONEncoder，然後呼叫該類的例項方法 encode。

encode 方法也十分簡單：

# https://github.com/python/cpython/blob/191e993365ac3206f46132dcf46236471ec54bfa/Lib/json/encoder.py#L182-L202
def encode(self, o):
    # str 型別直接 encode 後返回
    if isinstance(o, str):
        if self.ensure_ascii:
            return encode_basestring_ascii(o)
        else:
            return encode_basestring(o)

    # chunks 是資料中的各個部分
    chunks = self.iterencode(o, _one_shot=True)
    if not isinstance(chunks, (list, tuple)):
        chunks = list(chunks)
    return ''.join(chunks)複製程式碼

可以看出最後的我們得到 JSON 都是 chunks 拼接得到的，chunks 是呼叫 self.iterencode 方法得到的。

# https://github.com/python/cpython/blob/191e993365ac3206f46132dcf46236471ec54bfa/Lib/json/encoder.py#L204-257
    if (_one_shot and c_make_encoder is not None
            and self.indent is None):
        _iterencode = c_make_encoder(
            markers, self.default, _encoder, self.indent,
            self.key_separator, self.item_separator, self.sort_keys,
            self.skipkeys, self.allow_nan)
    else:
        _iterencode = _make_iterencode(
            markers, self.default, _encoder, self.indent, floatstr,
            self.key_separator, self.item_separator, self.sort_keys,
            self.skipkeys, _one_shot)
return _iterencode(o, 0)複製程式碼

iterencode 方法比較長，我們只關心最後幾行。

返回值 _iterencode，是函式中 c_make_encoder 或者 _make_iterencode 這兩個高階函式的返回值。

c_make_encoder 是來自 _json 這個 module ，這個 module 是一個 c 模組，我們不去關心這個模組怎麼實現的。
轉去研究同等作用的 _make_iterencode 方法。

# https://github.com/python/cpython/blob/191e993365ac3206f46132dcf46236471ec54bfa/Lib/json/encoder.py#L259-441
def _iterencode(o, _current_indent_level):
    if isinstance(o, str):
        yield _encoder(o)
    elif o is None:
        yield 'null'
    elif o is True:
        yield 'true'
    elif o is False:
        yield 'false'
    elif isinstance(o, int):
        # see comment for int/float in _make_iterencode
        yield _intstr(o)
    elif isinstance(o, float):
        # see comment for int/float in _make_iterencode
        yield _floatstr(o)
    elif isinstance(o, (list, tuple)):
        yield from _iterencode_list(o, _current_indent_level)
    elif isinstance(o, dict):
        yield from _iterencode_dict(o, _current_indent_level)
    else:
        if markers is not None:
            markerid = id(o)
            if markerid in markers:
                raise ValueError("Circular reference detected")
            markers[markerid] = o
        o = _default(o)
        yield from _iterencode(o, _current_indent_level)
        if markers is not None:
            del markers[markerid]
return _iterencode複製程式碼

同樣需要關心的只有返回的這個函式，程式碼裡各種 if-elif-else 逐一把內建型別轉換成 JSON 型別。
在對面無法識別的型別時候就使用了 _default() 這個方法，然後遞迴呼叫解析各個值。

_default 就是最前面那個被覆蓋的 default。

到這裡就可以完全瞭解 Python 是如何 encode 成 JSON 資料。

總結一下流程，json.dumps() 呼叫 JSONEncoder 的例項方法 encode()，隨後使用 iterencode() 遞迴轉化各種型別，最後把 chunks 拼接成字串後返回。

優雅的解決方案

通過前面的流程分析之後，知道為什麼繼承 JSONEncoder 然後覆蓋 default 方法就可以完成自定義型別解析了。

也許你以後需要解析 datetime 型別資料，你可定會那麼做：

class ExtendJSONEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, decimal.Decimal):
            return int(obj)

        if isinstance(obj, datetime.datetime):
            return obj.strftime(DATETIME_FORMAT) 

        return super(ExtendJSONEncoder, self).default(obj)複製程式碼

最後呼叫父類是 default() 方法純粹是為了觸發異常。

Python 可以使用 singledispatch 來解決這種單泛型問題。

import json

from datetime import datetime
from decimal import Decimal
from functools import singledispatch

class MyClass:
    def __init__(self, value):
        self._value = value

    def get_value(self):
        return self._value

# 建立三個非內建型別的例項
mc = MyClass('i am class MyClass ')
dm = Decimal('11.11')
dt = datetime.now()

@singledispatch
def convert(o):
    raise TypeError('can not convert type')

@convert.register(datetime)
def _(o):
    return o.strftime('%b %d %Y %H:%M:%S') 

@convert.register(Decimal)
def _(o):
    return float(o)

@convert.register(MyClass)
def _(o):
    return o.get_value()

class ExtendJSONEncoder(json.JSONEncoder):
    def default(self, obj):
        try:
            return convert(obj)
        except TypeError:
            return super(ExtendJSONEncoder, self).default(obj)

data = {
    'mc': mc,
    'dm': dm,
    'dt': dt
}

json.dumps(data, cls=ExtendJSONEncoder)

# {"mc": "i am class MyClass ", "dm": 11.11, "dt": "Nov 10 2017 17:31:25"}複製程式碼

這種寫法比較符合設計模式的規範。假如以後有了新的型別，不用再修改 ExtendJSONEncoder 類，只需要新增適當的 singledispatch 方法就可以了，比較 pythonic 。

如果你執意的想在類中新增 singledispatch 可以參考: stackoverflow.com/a/24602374/… ，當然我仍然覺得還是不要寫在類中比較好。

【Python標準庫:fileinput】優雅的讀取檔案
2018-08-31
Python
Python標準資料型別-數字
2019-02-16
Python資料型別
Dcat Admin 教程 - 如何優雅地更改表單值的資料型別？
2020-05-11
資料型別
優雅地寫css
2017-12-25
CSS
go 方法接受者是指標型別和非指標型別的區別
2021-09-09
Go指標型別
java統一返回標準型別
2021-10-05
Java型別
非標準物件介面
2017-03-14
物件
如何優雅地使用 macOS
2019-03-04
Mac
如何優雅地使用 Git
2018-01-09
Git
SAP標準移動型別（Movement Type）
2010-02-13
型別
透過 VS Code 優雅地編輯 Pod 內的程式碼（非 NodePort）
2023-12-13
優雅地重新整理RecyclerView
2018-10-24
View
優雅地書寫 UIView 動畫
2016-12-13
UIView動畫
Git | 如何優♂雅地管理版本
2018-04-28
Git
如何優雅地黑C++？
2013-08-16
C++
Python標準型別的比較原則：字典VS列表(元組)
2016-08-22
Python型別
優雅地除錯線上程式碼
2020-04-17
除錯
【工具】WSL 下優雅地 Debug
2019-05-09
如何優雅地取消Retrofit請求？
2018-12-03
安全優雅地停止執行緒
2021-12-05
執行緒
更優雅地實現策略模式
2022-03-28
模式
Swift：如何優雅地使用 print()（三）
2016-08-25
Swift
如何優雅地提取 App 的素材
2017-03-13
APP
[C++][基礎]5_標準庫型別
2017-11-16
C++型別
python準確判斷檔案型別
2015-11-08
Python型別
如何優雅地列印一個Java物件？
2020-02-13
Java物件
面試時如何優雅地自我介紹？
2019-02-28
面試
如何優雅地定位外網問題？
2019-03-19
【系統】WSL 下優雅地 Coding
2019-03-16
如何更優雅地切換 Git 分支
2019-02-13
Git
Kotlin如何優雅地使用Scope Functions
2021-09-09
KotlinFunction
如何優雅地記錄操作日誌？
2021-09-18
優雅地亂玩Redux: Getting Started
2019-01-16
Redux
在Java中如何優雅地判空
2018-11-22
Java
如何優雅地處理前端異常？
2018-12-04
前端
如何優雅地改善程式中for迴圈
2018-10-17
如何優雅地生成測試資料
2020-09-11
如何優雅地記錄操作日誌
2022-12-31

Python 優雅地 dumps 非標準型別

JSON 的 Encode 過程

優雅的解決方案

相關文章