Golang 流式解析 Json

TaoWen發表於2019-02-16

原文網址 : https://flycode.co/archives/86527

GolangJSON

json-iterator 庫：https://github.com/json-iterator/go

動機

現有的golang解析json的庫都是push模式的，缺少一種基於pull api的庫。另外就是看一下golang解析json的速度到底如何，還有多少的提高空間。

API 風格

api 風格上是以 StAX 為基礎，但是針對 JSON 做了特別的優化。比 StAX 和 SAX 都更簡單可控。當然如果需要最簡單，還是 DOM 類的 api 最簡單。使用流式pull的api為的就是最大化控制解析過程。

解析 Array

iter := ParseString(`[1,2,3]`)
for iter.ReadArray() {
  iter.ReadUint64()
}

可以看到，pull api 的風格非常不同。整個解析流程是呼叫者驅動的

解析 Object

type TestObj struct {
    Field1 string
    Field2 uint64
}

iter := ParseString(`{"field1": "1", "field2": 2}`)
obj := TestObj{}
for field := iter.ReadObject(); field != ""; field = iter.ReadObject() {
    switch field {
    case "field1":
        obj.Field1 = iter.ReadString()
    case "field2":
        obj.Field2 = iter.ReadUint64()
    default:
        iter.ReportError("bind object", "unexpected field")
    }
}

解析過程不依賴反射，解析出來的值幹什麼事情完全由你來操縱。你可以直接做一些累加操作，而不把值先繫結到物件上。

SKIP

iter := ParseString(`[ {"a" : [{"b": "c"}], "d": 102 }, "b"]`)
iter.ReadArray()
iter.Skip()
iter.ReadArray()
if iter.ReadString() != "b" {
    t.FailNow()
}

對於不關心的欄位，可以選擇跳過。

效能優化

這個專案的另外一個目的是看一下golang原生的json api是快還是慢，有沒有提高空間。

基於流解析，無需一次讀到記憶體裡

// "encoding/json"
func Benchmark_stardard_lib(b *testing.B) {
    b.ReportAllocs()
    for n := 0; n < b.N; n++ {
        file, _ := os.Open("/tmp/large-file.json")
        result := []struct{}{}
        decoder := json.NewDecoder(file)
        decoder.Decode(&result)
        file.Close()
    }
}

5 215547514 ns/op 71467118 B/op 272476 allocs/op

// "github.com/json-iterator/go"
func Benchmark_jsoniter(b *testing.B) {
    b.ReportAllocs()
    for n := 0; n < b.N; n++ {
        file, _ := os.Open("/tmp/large-file.json")
        iter := jsoniter.Parse(file, 1024)
        for iter.ReadArray() {
            iter.Skip()
        }
        file.Close()
    }
}

10 110209750 ns/op 4248 B/op 5 allocs/op

可以看到 json iterator 的實現對於記憶體佔用非常節省。比標準庫的實現快一倍。GC壓力就小更多了。

直接解析出 int

對於 int 的解析無需兩遍，一次性讀取。把 ParseInt 的實現合併到 json 解析的程式碼裡。

func Benchmark_jsoniter_array(b *testing.B) {
    for n := 0; n < b.N; n++ {
        iter := ParseString(`[1,2,3]`)
        for iter.ReadArray() {
            iter.ReadUint64()
        }
    }
}

10000000 189 ns/op

func Benchmark_json_array(b *testing.B) {
    for n := 0; n < b.N; n++ {
        result := []interface{}{}
        json.Unmarshal([]byte(`[1,2,3]`), &result)
    }
}

1000000 1327 ns/op

這個場景是 7x 的速度

無反射的，有schema的解析

按照schema解析，減少if-else判斷。直接賦值，無需經過反射

type Level1 struct {
    Hello []Level2
}

type Level2 struct {
    World string
}

func Benchmark_jsoniter_nested(b *testing.B) {
    for n := 0; n < b.N; n++ {
        iter := ParseString(`{"hello": [{"world": "value1"}, {"world": "value2"}]}`)
        l1 := Level1{}
        for l1Field := iter.ReadObject(); l1Field != ""; l1Field = iter.ReadObject() {
            switch l1Field {
            case "hello":
                l1.Hello = readLevel1Hello(iter)
            default:
                iter.Skip()
            }
        }
    }
}

func readLevel1Hello(iter *Iterator) []Level2 {
    l2Array := make([]Level2, 0, 2)
    for iter.ReadArray() {
        l2 := Level2{}
        for l2Field := iter.ReadObject(); l2Field != ""; l2Field = iter.ReadObject() {
            switch l2Field {
            case "world":
                l2.World = iter.ReadString()
            default:
                iter.Skip()
            }
        }
        l2Array = append(l2Array, l2)
    }
    return l2Array
}

2000000 640 ns/op

func Benchmark_json_nested(b *testing.B) {
    for n := 0; n < b.N; n++ {
        l1 := Level1{}
        json.Unmarshal([]byte(`{"hello": [{"world": "value1"}, {"world": "value2"}]}`), &l1)
    }
}

1000000 1816 ns/op

總結

golang 自帶的 json 庫其實效能很不錯了。根據benchmark（https://github.com/json-itera…）其實速度比其他的基於流的解析庫還要快（https://github.com/ugorji/go/…）。而這個庫 https://github.com/pquerna/ff… 雖然號稱更快，但是不支援流式解析（要求所有的[]byte都提前讀入到記憶體裡）。大部分情況下，就用golang自帶的就足夠好了，別瞎整一些其他的json解析庫。

如果需要pull api，或者需要額外的2x~6x效能，可以考慮：https://github.com/json-iterator/go

細說 Golang 的 JSON 解析
2019-12-09
GolangJSON
golang 解析php輸出json相容問題
2018-09-26
GolangPHPJSON
golang JSON技巧
2024-11-26
GolangJSON
解析JDBC使用查詢MySQL【非流式、流式、遊標】
2024-12-07
JDBCMySql
Golang 的 JSON 包
2020-01-13
GolangJSON
Golang的流式程式碼 - 0x46
2022-03-18
Golang
Exercise:JSON解析
2024-06-11
JSON
cJSON：解析JSON
2024-07-03
JSON
js json解析
2024-06-07
JSON
golang json處理問題
2018-09-26
GolangJSON
golang bufio解析
2022-04-21
Golang
用JS解析JSON
2018-07-22
JSON
java解析json list
2020-11-14
JavaJSON
Swift iOS : 解析json
2019-02-20
SwiftiOSJSON
json解析模組
2021-01-03
JSON
golang json字串轉結構體
2023-08-02
GolangJSON字串結構體
Golang高效能json包：easyjson
2021-09-09
GolangJSON
Golang : cobra 包解析
2019-05-16
Golang
Flutter 中的 JSON 解析
2019-03-25
FlutterJSON
oracle json 解析函式
2018-12-03
OracleJSON函式
Spark Structured Streaming 解析 JSON
2018-09-14
SparkStructJSON
ajax解析json物件集合
2022-04-01
JSON物件
解析大資料json
2020-12-25
大資料JSON
Golang框架實戰-KisFlow流式計算框架(4)-資料流
2024-02-28
Golang框架
golang中struct、json、map互相轉化
2018-11-18
GolangStructJSON
golang讀取檔案的json資料流,並解析到struct,儲存到資料庫
2020-10-15
GolangJSONStruct資料庫
linux下json解析神器----jq
2018-09-21
LinuxJSON
Python中解析json資料
2018-08-30
PythonJSON
Flutter開發之JSON解析
2019-08-21
FlutterJSON
Flutter JSON 解析懶人攻略
2019-06-24
FlutterJSON
android解析HashMap格式的json
2018-03-06
AndroidHashMapJSON
Java JSON組成和解析
2024-06-17
JavaJSON
使用JSONPath解析JSON資料
2023-03-08
JSON
android使用Gson來解析json
2021-09-09
AndroidJSON
Flutter 三種JSON解析方式
2021-03-27
FlutterJSON
Flutter 解析JSON 三種方式
2021-03-29
FlutterJSON
🎩 JSON Wizard for Mac - 解析你的 JSON 資料！🔮
2023-12-22
JSONMac
php 透過 JSON RPC 與 golang 通訊
2023-01-12
PHPJSONRPCGolang