手寫Json解析器學習心得

抑菌發表於2020-12-08

噢~從"{"開始,看來是個物件了!

一. 介紹

一週前,老同學阿立給我轉了一篇知乎回答,答主說檢驗一門語言是否掌握的標準是實現一個Json解析器,網易遊戲過去的Python入門培訓作業之一就是五天時間實現一個Json解析器。

知乎回答---連結

該回答對應的問題提及了一個開源的“從零開始的JSON庫教程”,恰好我剛開始學習go語言,對Json的理解也僅停留在一種端到端之間互動的資料格式,於是便跟著教程寫了一遍,受益良多,至少對我這種程式設計經驗少的人來說十分有幫助,以下是我的學習心得。

從零開始的JSON庫教程地址---連結

自己的實現---連結

二. 總體收穫

1. 測試與重構

其實在剛開始接觸程式設計的時候,也經常聽說要給自己的程式碼寫測試,但是一直沒有學過相關的方法論,也不知道如何實踐,直到在公司實習的時候才慢慢意識到測試的重要性。當時每寫完一個功能,導師都會要求我造資料進行測試,從我當時的理解上看,自己寫測試用例的目的在於儘量去覆蓋使用者的各種行為,保證系統執行的穩定性。

但是在經歷了這門Json解析器教程後,我對編寫測試用例又有了更進一步的理解。該教程詳細地介紹了一種叫TDD的開發模式,中文是測試驅動開發,並從第一單元開始就貫徹執行。

在我看來,先寫測試後進行開發能幫助我們明確我們想要開發的功能,減少我們走彎路的可能性。但有時提前做計劃往往不太容易,可能會出現測試不太好寫的情況,這個時候我們先把功能開發出來反而會更輕鬆一些。教程作者也推薦我們在實際開發中兩種風格並用,以達到平衡。

說實話,剛開始看到自己的程式碼能順利通過全部測試的時候還蠻有成就感的。但是隨著課程的深入,我發現完備的測試不只是給我成就感這麼簡單,更多的是一種安全感。

因為隨著解析器的功能增加,我們的程式碼會出現一些通用的模組,為了提高通用性,我們需要進行重構,而完備的單元測試是我們放膽去重構的重要保障。

另外,由於和教程使用的語言不一樣,有些地方需要按自己的理解去寫,不能夠全盤照搬,許多地方一開始實現得不太周全。我印象最深的地方是一開始我們要解析null,false,true,數字和字串,這些都是單個功能,各自通過單獨的測試用例不會很難。但是當我們要解析陣列的時候,由於陣列中有多個值,而且還可能有巢狀陣列,這個時候就要保證單個值的解析不影響全域性的解析。

我當時在做陣列解析的時候遇到了不少的問題,基本都是單值解析的程式碼不夠完善而導致的。還好之前跟著教程寫了足夠的測試用例,支撐著我把整個陣列解析功能寫正確,從此愛上寫單元測試。

2. C語言的魅力

教程是用標準的C語言寫的,作者本身是C/C++的大牛,功力深厚。雖然我對C語言瞭解不多,但是跟著教程的解釋去閱讀C程式碼也沒有太大的問題。

教程關於C語言的知識點很多,比如巨集的定義,記憶體的分配與釋放,記憶體洩漏檢測等,最令我讚歎的是作者對指標的運用,太精巧了。雖然Go語言裡面也有指標,但是在我做這個教程的過程中,Go的指標更多時候只是用來傳址。也由於指標沒那麼強大,我不太方便像作者一樣實現一個通用強大的堆疊,用於暫存Json的解析內容。但Go語言有強大的Slices,用起來也很爽,很方便。

既然是用不同的語言實現同樣的功能,那我們肯定要充分發揮自己所用語言的優勢了,這也是我們想通過專案入門一門語言的關鍵。

三. 專案各個階段的收穫

1. 啟程

開始的第一章中我最大的收穫就是弄清楚了整個解析器的結構。

在專案的開始階段,我們首先搭建一個簡單測試框架,比如把測試通過的數量,沒有通過的數量和出錯資訊列印出來,方便自己觀察測試通過情況。

然後需要定義好Json解析器的資料結構,一旦資料結構定義好了,軟體就完成了一半。這裡我們會用一個樹狀結構來組織我們解析到的資料,每個資料儲存在一個節點裡,我們要做的就是把這個節點定義出來。

根據Json協議,Json一共有7種資料型別:

object, array, string, number, "true", "false", "null"

為了分辨一個節點是哪種資料型別,我們需要給節點增加一個type欄位,用於標識節點的型別,type的數值我們可以用一個列舉進行維護。同時為各種資料型別準備一個接收的欄位(為了方便處理,沒有為true/false/null設定欄位)。

type EasyValue struct {
	vType int //節點資料型別
	num   float64
	str   []byte
	len   int
	e     []EasyValue
	o     []EasyObj
}

資料結構搭建好了之後,我們整個解析器的框架就很清晰了:

  1. 傳入一個Json字串,建立一個根節點,並用解析器進行解析,具體來說就是逐個字元進行分析。
  2. 假設分析出是一個數字,那麼就把這個根節點的數字型別設定為數字,並將解析出來的數字放入到節點的num欄位中。
  3. 當我們想要獲取解析的結果時,只需要根據節點的資料型別到節點相應的欄位獲取對應的值就好了。

以上就是整個Json解析器的思路了,在第一章腦子裡奠定了這樣的基礎後,就有了整體的大局觀,後面的章節就是根據各種資料型別進行解析。

2. 解析數字

在解析數字的時候,作者選擇了直接呼叫字串轉數字的庫函式,由於庫函式的接收域比較寬,有些錯誤情況需要我們提前做處理,總體來說還是好實現的。

但是在處理的過程中我卻遇到了一個Go語言中比較棘手的問題:在我們呼叫字串轉數字的庫函式時,是有可能出錯的,通常會有兩種錯誤,一個是數字非法(這個字串不是一個數字),另一個是數字溢位。在其他語言中都能夠很好地判斷錯誤型別,然後向使用者端返回相應的錯誤碼。但是Go語言對錯誤的處理比較簡潔,它只提供了一個error介面,介面中只有一個string欄位用於說明錯誤資訊。這意味著如果一個函式裡同時丟擲兩個錯誤,得通過錯誤資訊來判斷髮生了什麼錯誤。具體來說就是通過判斷一個字串中是否包含另一個字串來分辨錯誤型別,這似乎有點土。

f, err := strconv.ParseFloat(convStr, 64)
if err != nil {
	if strings.Contains(err.Error(), strconv.ErrRange.Error()) {
		return EASY_PARSE_NUMBER_TOO_BIG
	}
	return EASY_PARSE_INVALID_VALUE
}

谷歌一番後似乎還是沒有特別好的解決方案,現有的開源方案和官方給出的方案基本都是對錯誤進行多一層封裝,但這招好像對庫函式不太管用。也可能是我剛開始用go語言,閱歷比較少,在今後的使用中我得留意一下這個問題。

3. 解析字串 - 4. Unicode

接下來到了解析字串,在這章被作者的一頓指標操作所折服,但是到了自己實現,發現用Go的Slices似乎很簡單就實現了,就是不知道效能差得大不大。

在這章最大的收穫是,入門了Unicode編碼。以前程式設計就是一把梭,編碼這些知識掃兩眼就跳過去了,出了亂碼就谷歌解決方案,沒有考慮過背後的知識。但在這裡得實打實地處理字元的轉換,我們的目標是把字串儲存為UTF-8的形式,背後的關係得搞清楚。

最早的時候用的是ASCII碼,ASCII碼只有7位,也就是隻能表示128個字元。但是世界上的字元太多了,128遠遠不夠,這個時候就出來了Unicode編碼。Unicode編碼記錄了成千上萬個字元,但這也意味著它要更多的儲存空間,Unicode的轉換形式的縮寫就是我們常見的UTF,而UTF-8就是說把Unicode以8位為一個單元進行儲存。

有了這些前置知識之後,我們就需要對字串中的Unicode編碼進行轉換,具體的過程是把Unicode字元轉換為對應的碼元(十六進位制數),然後把十六進位制數編碼成UTF-8的形式。

按照教程做下來對編碼也有了初步的認識,感覺良好,這估計就是知識的樂趣吧^_^

5. 解析陣列 - 6. 解析物件

到了做解析陣列和物件功能時,我感受到了遞迴的力量,這可能就是作者稱之為遞迴下降解析器的原因吧。

但是在這個部分,我最大的收穫是深度體會到了單元測試的好處。當解析陣列的時候,我們很可能需要對多個型別的值進行解析,這個時候就把之前單獨實現的解析功能給串起來了。

比如說這樣一個字串:

"[123,null,\"abc\",[1,2,3]]"

首先需要解析123,然後解析null,在我們解析完123的時候,指標應該來到,的位置,通過,進行劃分後再繼續下一個值的解析。記得當時我在解析單個值的時候沒有處理好指標的位置,導致整個陣列解析失敗了,不過這也加深了我對整個Json字串解析過程的理解。

至此整個Json解析器的功能已經基本完成,後面兩個小節是關於生成器和解析物件訪問及其他功能的。

四. 總結

這個教程是用C語言寫的,作者用了很多C語言的特性,能很好地提高效能,而我剛入門Go語言,對Go的特性瞭解甚少,可能在一些地方沒有用更適合Go語言的處理方式去處理。

而在我們日常的開發中,通常會這麼用Json:把一個自定義的資料結構轉化成Json串,或者是把Json串轉換為我們自定義的結構,目前我還沒有實現這樣的功能。而對於這樣的功能,Go語言給予了原生支援。

我看了一下Go原生解析Json的原始碼,在解析的思路上和教程是有很多相通之處的。比較大的區別是:在我們手寫的Json解析器中,我們把解析後的資料儲存放我們自定義的節點結構中。而在Go語言中,由於Json的使用場景常常和結構體相關聯,Go語言會把解析出來的數值通過反射直接賦給相應的結構體,這麼一來省去了自建資料結構的步驟。

最後非常感謝這個教程,讓我對Json的解析有了初步的認識,對測試與重構有了更深的理解,同時也達到了自己的初衷,能熟悉地使用Go語言寫分支迴圈判斷了。但我知道Go語言的魅力不在於此,還有很多特性等待著我去學習,繼續加油~