當涉及到網路通訊和資料儲存時,資料序列化一直都是一個重要的話題;特別是現在很多公司都在推行微服務,資料序列化更是重中之重,通常會選擇使用 JSON 作為資料交換格式,且 JSON 已經成為業界的主流。但是 Google 這麼大的公司使用的卻是一種被稱為 Protobuf 的資料交換格式,它是有什麼優勢嗎?這篇文章介紹 Protobuf 的相關知識。
GitHub:https://github.com/protocolbuffers/protobuf
官方文件:https://protobuf.dev/overview/
Protobuf 介紹
Protobuf(Protocol Buffers)是由 Google 開發的一種輕量級、高效的資料交換格式,它被用於結構化資料的序列化、反序列化和傳輸。相比於 XML 和 JSON 等文字格式,Protobuf 具有更小的資料體積、更快的解析速度和更強的可擴充套件性。
Protobuf 的核心思想是使用協議(Protocol)來定義資料的結構和編碼方式。使用 Protobuf,可以先定義資料的結構和各欄位的型別、欄位等資訊,然後使用Protobuf提供的編譯器生成對應的程式碼,用於序列化和反序列化資料。由於 Protobuf 是基於二進位制編碼的,因此可以在資料傳輸和儲存中實現更高效的資料交換,同時也可以跨語言使用。
相比於 XML 和 JSON,Protobuf 有以下幾個優勢:
-
更小的資料量:Protobuf 的二進位制編碼通常比 XML 和 JSON 小 3-10 倍,因此在網路傳輸和儲存資料時可以節省頻寬和儲存空間。
-
更快的序列化和反序列化速度:由於 Protobuf 使用二進位制格式,所以序列化和反序列化速度比 XML 和 JSON 快得多。
-
跨語言:Protobuf 支援多種程式語言,可以使用不同的程式語言來編寫客戶端和服務端。這種跨語言的特性使得 Protobuf 受到很多開發者的歡迎(JSON 也是如此)。
-
易於維護可擴充套件:Protobuf 使用 .proto 檔案定義資料模型和資料格式,這種檔案比 XML 和 JSON 更容易閱讀和維護,且可以在不破壞原有協議的基礎上,輕鬆新增或刪除欄位,實現版本升級和相容性。
編寫 Protobuf
使用 Protobuf 的語言定義檔案(.proto)可以定義要傳輸的資訊的資料結構,可以包括各個欄位的名稱、型別等資訊。同時也可以相互巢狀組合,構造出更加複雜的訊息結構。
比如想要構造一個地址簿 AddressBook 資訊結構。一個 AddressBook 可以包含多個人員 Person 資訊,每個 Person 資訊可以包含 id、name、email 資訊,同時一個 Person 也可以包含多個電話號碼資訊 PhoneNumber,每個電話號碼資訊需要指定號碼種類,如手機、家庭電話、工作電話等。
如果使用 Protobuf 編寫定義檔案如下:
// 檔案:addressbook.proto
syntax = "proto3";
// 指定 protobuf 包名,防止有相同類名的 message 定義
package com.wdbyte.protobuf;
// 是否生成多個檔案
option java_multiple_files = true;
// 生成的檔案存放在哪個包下
option java_package = "com.wdbyte.tool.protos";
// 生成的類名,如果沒有指定,會根據檔名自動轉駝峰來命名
option java_outer_classname = "AddressBookProtos";
message Person {
// =1,=2 作為序列化後的二進位制編碼中的欄位的唯一標籤,也因此,1-15 比 16 會少一個位元組,所以儘量使用 1-15 來指定常用欄位。
optional int32 id = 1;
optional string name = 2;
optional string email = 3;
enum PhoneType {
MOBILE = 0;
HOME = 1;
WORK = 2;
}
message PhoneNumber {
optional string number = 1;
optional PhoneType type = 2;
}
repeated PhoneNumber phones = 4;
}
message AddressBook {
repeated Person people = 1;
}
Protobuf 檔案中的語法解釋。
頭部全域性定義
syntax = "proto3";
指定 Protobuf 版本為版本3(最新版本)package com.wdbyte.protobuf;
指定 Protobuf 包名,防止有相同類名的message
定義,這個包名是生成的類中所用到的一些資訊的字首,並非類所在包。option java_multiple_files = true;
是否生成多個檔案。若false
,則只會生成一個類,其他類以內部類形式提供。option java_package =
生成的類所在包。option java_outer_classname
生成的類名,若無,自動使用檔名進行駝峰轉換來為類命名。
訊息結構具體定義
message Person
定一個了一個 Person 類。
Person 類中的欄位被 optional
修飾,被 optional
修飾說明欄位可以不賦值。
- 修飾符
optional
表示可選欄位,可以不賦值。 - 修飾符
repeated
表示資料重複多個,如陣列,如 List。 - 修飾符
required
表示必要欄位,必須給值,否則會報錯RuntimeException
,但是在 Protobuf 版本 3 中被移除。即使在版本 2 中也應該慎用,因為一旦定義,很難更改。
欄位型別定義
修飾符後面緊跟的是欄位型別,如 int32
、string
。常用的型別如下:
-
int32、int64、uint32、uint64
:整數型別,包括有符號和無符號型別。 -
float、double
:浮點數型別。 -
bool
:布林型別,只有兩個值,true 和 false。 -
string
:字串型別。 -
bytes
:二進位制資料型別。 -
enum
:列舉型別,列舉值可以是整數或字串。 -
message
:訊息型別,可以巢狀其他訊息型別,類似於結構體。
欄位後面的 =1,=2
是作為序列化後的二進位制編碼中的欄位的對應標籤,因為 Protobuf 訊息在序列化後是不包含欄位資訊的,只有對應的欄位序號,所以節省了空間。也因此,1-15 比 16 會少一個位元組,所以儘量使用 1-15 來指定常用欄位。且一旦定義,不要隨意更改,否則可能會對不上序列化資訊。
編譯 Protobuf
使用 Protobuf 提供的編譯器,可以將 .proto
檔案編譯成各種語言的程式碼檔案(如 Java、C++、Python 等)。
下載編譯器:https://github.com/protocolbuffers/protobuf/releases/latest
安裝完成後可以使用 protoc
命令編譯 proto
檔案,如編譯示例中的 addressbook.proto
.
protoc --java_out=./java ./resources/addressbook.proto
# --java_out 指定輸出 java 格式檔案,輸出到 ./java 目錄
# ./resources/addressbook.proto 為 proto 檔案位置
生成後可以看到生產的類檔案。
./
├── java
│ └── com
│ └── wdbyte
│ └── tool
│ ├── protos
│ │ ├── AddressBook.java
│ │ ├── AddressBookOrBuilder.java
│ │ ├── AddressBookProtos.java
│ │ ├── Person.java
│ │ ├── PersonOrBuilder.java
└── resources
├── addressbook.proto
使用 Protobuf
使用 Java 語言操作 Protobuf,首先需要引入 Protobuf 依賴。
Maven 依賴:
<dependency>
<groupId>com.google.protobuf</groupId>
<artifactId>protobuf-java</artifactId>
<version>3.22.3</version>
</dependency>
構造訊息物件
// 直接構建
PhoneNumber phoneNumber1 = PhoneNumber.newBuilder().setNumber("18388888888").setType(PhoneType.HOME).build();
Person person1 = Person.newBuilder().setId(1).setName("www.wdbyte.com").setEmail("xxx@wdbyte.com").addPhones(phoneNumber1).build();
AddressBook addressBook1 = AddressBook.newBuilder().addPeople(person1).build();
System.out.println(addressBook1);
System.out.println("------------------");
// 鏈式構建
AddressBook addressBook2 = AddressBook
.newBuilder()
.addPeople(Person.newBuilder()
.setId(2)
.setName("www.wdbyte.com")
.setEmail("yyy@126.com")
.addPhones(PhoneNumber.newBuilder()
.setNumber("18388888888")
.setType(PhoneType.HOME)
)
)
.build();
System.out.println(addressBook2);
輸出:
people {
id: 1
name: "www.wdbyte.com"
email: "xxx@wdbyte.com"
phones {
number: "18388888888"
type: HOME
}
}
------------------
people {
id: 2
name: "www.wdbyte.com"
email: "yyy@126.com"
phones {
number: "18388888888"
type: HOME
}
}
序列化、反序列化
序列化:將記憶體中的資料物件序列化為二進位制資料,可以用於網路傳輸或儲存等場景。
反序列化:將二進位制資料反序列化成記憶體中的資料物件,可以用於資料處理和業務邏輯。
下面演示使用 Protobuf 進行字元陣列和檔案的序列化及反序列化過程。
package com.wdbyte.tool.protos;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
/**
*
* @author www.wdbyte.com
*/
public class ProtobufTest2 {
public static void main(String[] args) throws IOException {
PhoneNumber phoneNumber1 = PhoneNumber.newBuilder().setNumber("18388888888").setType(PhoneType.HOME).build();
Person person1 = Person.newBuilder().setId(1).setName("www.wdbyte.com").setEmail("xxx@wdbyte.com").addPhones(phoneNumber1).build();
AddressBook addressBook1 = AddressBook.newBuilder().addPeople(person1).build();
// 序列化成位元組陣列
byte[] byteArray = addressBook1.toByteArray();
// 反序列化 - 位元組陣列轉物件
AddressBook addressBook2 = AddressBook.parseFrom(byteArray);
System.out.println("位元組陣列反序列化:");
System.out.println(addressBook2);
// 序列化到檔案
addressBook1.writeTo(new FileOutputStream("AddressBook1.txt"));
// 讀取檔案反序列化
AddressBook addressBook3 = AddressBook.parseFrom(new FileInputStream("AddressBook1.txt"));
System.out.println("檔案讀取反序列化:");
System.out.println(addressBook3);
}
}
輸出:
位元組陣列反序列化:
people {
id: 1
name: "www.wdbyte.com"
email: "xxx@wdbyte.com"
phones {
number: "18388888888"
type: HOME
}
}
檔案讀取反序列化:
people {
id: 1
name: "www.wdbyte.com"
email: "xxx@wdbyte.com"
phones {
number: "18388888888"
type: HOME
}
}
Protobuf 為什麼高效
在分析 Protobuf 高效之前,我們先確認一下 Protobuf 是否真的高效,下面將 Protobuf 與 JSON 進行對比,分別對比序列化和反序列化速度以及序列化後的儲存佔用大小。
測試工具:JMH,FastJSON,
測試物件:Protobuf 的 addressbook.proto
,JSON 的普通 Java 類。
Maven 依賴:
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>2.0.7</version>
</dependency>
<dependency>
<groupId>org.openjdk.jmh</groupId>
<artifactId>jmh-core</artifactId>
<version>1.33</version>
</dependency>
<dependency>
<groupId>org.openjdk.jmh</groupId>
<artifactId>jmh-generator-annprocess</artifactId>
<version>1.33</version>
<scope>provided</scope>
</dependency>
先編寫與addressbook.proto
結構相同的 Java 類 AddressBookJava.java
.
public class AddressBookJava {
List<PersonJava> personJavaList;
public static class PersonJava {
private int id;
private String name;
private String email;
private PhoneNumberJava phones;
// get...set...
}
public static class PhoneNumberJava {
private String number;
private PhoneTypeJava phoneTypeJava;
// get....set....
}
public enum PhoneTypeJava {
MOBILE, HOME, WORK;
}
public List<PersonJava> getPersonJavaList() {
return personJavaList;
}
public void setPersonJavaList(List<PersonJava> personJavaList) {
this.personJavaList = personJavaList;
}
}
序列化大小對比
分別在地址簿中新增 1000 個人員資訊,輸出序列化後的陣列大小。
package com.wdbyte.tool.protos;
import java.io.IOException;
import java.util.ArrayList;
import com.alibaba.fastjson.JSON;
import com.wdbyte.tool.protos.AddressBook.Builder;
import com.wdbyte.tool.protos.AddressBookJava.PersonJava;
import com.wdbyte.tool.protos.AddressBookJava.PhoneNumberJava;
import com.wdbyte.tool.protos.AddressBookJava.PhoneTypeJava;
import com.wdbyte.tool.protos.Person.PhoneNumber;
import com.wdbyte.tool.protos.Person.PhoneType;
/**
* @author https://www.wdbyte.com
*/
public class ProtobufTest3 {
public static void main(String[] args) throws IOException {
AddressBookJava addressBookJava = createAddressBookJava(1000);
String jsonString = JSON.toJSONString(addressBookJava);
System.out.println("json string size:" + jsonString.length());
AddressBook addressBook = createAddressBook(1000);
byte[] addressBookByteArray = addressBook.toByteArray();
System.out.println("protobuf byte array size:" + addressBookByteArray.length);
}
public static AddressBook createAddressBook(int personCount) {
Builder builder = AddressBook.newBuilder();
for (int i = 0; i < personCount; i++) {
builder.addPeople(Person.newBuilder()
.setId(i)
.setName("www.wdbyte.com")
.setEmail("xxx@126.com")
.addPhones(PhoneNumber.newBuilder()
.setNumber("18333333333")
.setType(PhoneType.HOME)
)
);
}
return builder.build();
}
public static AddressBookJava createAddressBookJava(int personCount) {
AddressBookJava addressBookJava = new AddressBookJava();
addressBookJava.setPersonJavaList(new ArrayList<>());
for (int i = 0; i < personCount; i++) {
PersonJava personJava = new PersonJava();
personJava.setId(i);
personJava.setName("www.wdbyte.com");
personJava.setEmail("xxx@126.com");
PhoneNumberJava numberJava = new PhoneNumberJava();
numberJava.setNumber("18333333333");
numberJava.setPhoneTypeJava(PhoneTypeJava.HOME);
personJava.setPhones(numberJava);
addressBookJava.getPersonJavaList().add(personJava);
}
return addressBookJava;
}
}
輸出:
json string size:108910
protobuf byte array size:50872
可見測試中 Protobuf 的序列化結果比 JSON 小了將近一倍左右。
序列化速度對比
使用 JMH 進行效能測試,分別測試 JSON 的序列化和反序列以及 Protobuf 的序列化和反序列化效能情況。每次測試前進行 3 次預熱,每次 3 秒。接著進行 5 次測試,每次 3 秒,收集測試情況。
package com.wdbyte.tool.protos;
import java.util.ArrayList;
import java.util.concurrent.TimeUnit;
import com.alibaba.fastjson.JSON;
import com.google.protobuf.InvalidProtocolBufferException;
import com.wdbyte.tool.protos.AddressBook.Builder;
import com.wdbyte.tool.protos.AddressBookJava.PersonJava;
import com.wdbyte.tool.protos.AddressBookJava.PhoneNumberJava;
import com.wdbyte.tool.protos.AddressBookJava.PhoneTypeJava;
import com.wdbyte.tool.protos.Person.PhoneNumber;
import com.wdbyte.tool.protos.Person.PhoneType;
import org.openjdk.jmh.annotations.Benchmark;
import org.openjdk.jmh.annotations.BenchmarkMode;
import org.openjdk.jmh.annotations.Fork;
import org.openjdk.jmh.annotations.Measurement;
import org.openjdk.jmh.annotations.Mode;
import org.openjdk.jmh.annotations.OutputTimeUnit;
import org.openjdk.jmh.annotations.Scope;
import org.openjdk.jmh.annotations.Setup;
import org.openjdk.jmh.annotations.State;
import org.openjdk.jmh.annotations.Warmup;
/**
* @author https://www.wdbyte.com
*/
@State(Scope.Thread)
@Fork(2)
@Warmup(iterations = 3, time = 3)
@Measurement(iterations = 5, time = 3)
@BenchmarkMode(Mode.Throughput) // Throughput:吞吐量,SampleTime:取樣時間
@OutputTimeUnit(TimeUnit.MILLISECONDS)
public class ProtobufTest4 {
private AddressBookJava addressBookJava;
private AddressBook addressBook;
@Setup
public void init() {
addressBookJava = createAddressBookJava(1000);
addressBook = createAddressBook(1000);
}
@Benchmark
public AddressBookJava testJSON() {
// 轉 JSON
String jsonString = JSON.toJSONString(addressBookJava);
// JSON 轉物件
return JSON.parseObject(jsonString, AddressBookJava.class);
}
@Benchmark
public AddressBook testProtobuf() throws InvalidProtocolBufferException {
// 轉 JSON
byte[] addressBookByteArray = addressBook.toByteArray();
// JSON 轉物件
return AddressBook.parseFrom(addressBookByteArray);
}
public static AddressBook createAddressBook(int personCount) {
Builder builder = AddressBook.newBuilder();
for (int i = 0; i < personCount; i++) {
builder.addPeople(Person.newBuilder()
.setId(i)
.setName("www.wdbyte.com")
.setEmail("xxx@126.com")
.addPhones(PhoneNumber.newBuilder()
.setNumber("18333333333")
.setType(PhoneType.HOME)
)
);
}
return builder.build();
}
public static AddressBookJava createAddressBookJava(int personCount) {
AddressBookJava addressBookJava = new AddressBookJava();
addressBookJava.setPersonJavaList(new ArrayList<>());
for (int i = 0; i < personCount; i++) {
PersonJava personJava = new PersonJava();
personJava.setId(i);
personJava.setName("www.wdbyte.com");
personJava.setEmail("xxx@126.com");
PhoneNumberJava numberJava = new PhoneNumberJava();
numberJava.setNumber("18333333333");
numberJava.setPhoneTypeJava(PhoneTypeJava.HOME);
personJava.setPhones(numberJava);
addressBookJava.getPersonJavaList().add(personJava);
}
return addressBookJava;
}
}
JMH 吞吐量測試結果(Score 值越大吞吐量越高,效能越好):
Benchmark Mode Cnt Score Error Units
ProtobufTest3.testJSON thrpt 10 1.877 ± 0.287 ops/ms
ProtobufTest3.testProtobuf thrpt 10 2.813 ± 0.446 ops/ms
JMH 取樣時間測試結果(Score 越小,取樣時間越小,效能越好):
Benchmark Mode Cnt Score Error Units
ProtobufTest3.testJSON sample 53028 0.565 ± 0.005 ms/op
ProtobufTest3.testProtobuf sample 90413 0.332 ± 0.001 ms/op
從測試結果看,不管是吞吐量測試,還是取樣時間測試,Protobuf 都優於 JSON。
為什麼高效?
Protobuf 是如何實現這種高效緊湊的資料編碼和解碼的呢?
首先,Protobuf 使用二進位制編碼,會提高效能;其次 Protobuf 在將資料轉換成二進位制時,會對欄位和型別重新編碼,減少空間佔用。它採用 TLV
格式來儲存編碼後的資料。TLV
也是就是 Tag-Length-Value ,是一種常見的編碼方式,因為資料其實都是鍵值對形式,所以在 TAG
中會儲存對應的欄位和型別資訊,Length
儲存內容的長度,Value
儲存具體的內容。
還記得上面定義結構體時每個欄位都對應一個數字嗎?如 =1
,=2
,=3
.
message Person {
optional int32 id = 1;
optional string name = 2;
optional string email = 3;
}
在序列化成二進位制時候就是透過這個數字來標記對應的欄位的,二進位制中只儲存這個數字,反序列化時透過這個數字找對應的欄位。這也是上面為什麼說盡量使用 1-15 範圍內的數字,因為一旦超過 15,就需要多一個 bit 位來儲存。
那麼型別資訊呢?比如 int32
怎麼標記,因為型別個數有限,所以 Protobuf 規定了每個型別對應的二進位制編碼,比如 int32
對應二進位制 000
,string
對應二進位制 010
,這樣就可以只用三個位元位儲存型別資訊。
這裡只是舉例描述大概思想,具體還有一些變化。
詳情可以參考官方文件:https://protobuf.dev/programming-guides/encoding/
其次,Protobuf 還會採用一種變長編碼的方式來儲存資料。這種編碼方式能夠保證資料佔用的空間最小化,從而減少了資料傳輸和儲存的開銷。具體來說,Protobuf 會將整數和浮點數等型別變換成一個或多個位元組的形式,其中每個位元組都包含了一部分資料資訊和一部分識別符號資訊。這種編碼方式可以在資料值比較小的情況下,只使用一個位元組來儲存資料,以此來提高編碼效率。
最後,Protobuf 還可以透過採用壓縮演算法來減少資料傳輸的大小。比如 GZIP 演算法能夠將原始資料壓縮成更小的二進位制格式,從而在網路傳輸中能夠節省頻寬和傳輸時間。Protobuf 還提供了一些可選的壓縮演算法,如 zlib 和 snappy,這些演算法在不同的場景下能夠適應不同的壓縮需求。
綜上所述,Protobuf 在實現高效編碼和解碼的過程中,採用了多種最佳化方式,從而在實際應用中能夠有效地提升資料傳輸和處理的效率。
總結
ProtoBuf 是一種輕量、高效的資料交換格式,它具有以下優點:
- 語言中立,可以支援多種程式語言;
- 資料結構清晰,易於維護和擴充套件;
- 二進位制編碼,資料體積小,傳輸效率高;
- 自動生成程式碼,開發效率高。
但是,ProtoBuf 也存在以下缺點:
- 學習成本較高,需要掌握其語法規則和使用方法;
- 需要先定義資料結構,然後才能對資料進行序列化和反序列化,增加了一定的開發成本;
- 由於二進位制編碼,可讀性較差,這點不如 JSON 可以直接閱讀。
總體來說,Protobuf 適合用於資料傳輸和儲存等場景,能夠提高資料傳輸效率和減少資料體積。但對於需要人類可讀的資料,或需要實時修改的資料,或者對資料的傳輸效率和體積沒那麼在意的場景,選擇更加通用的 JSON 未嘗不是一個好的選擇。
參考:https://protobuf.dev/overview/
一如既往,文章程式碼都存放在 Github.com/niumoo/javaNotes.
文章持續更新,可以微信搜一搜「 程式猿阿朗 」或訪問「程式猿阿朗部落格 」第一時間閱讀。本文 Github.com/niumoo/JavaNotes 已經收錄,有很多系列文章,歡迎Star。