Node.js之Buffer

姚飛亮發表於2019-01-22

Node.js之Buffer

什麼是 Buffer

如同官方 API 中介紹的那樣,在 ES6 引入 TypedArray 之前,JavaScript 沒有讀取或者操作二進位制資料流的機制。 Buffer 類作為 NodeJS API 的一部分被引入,以便能夠和 TCP 等網路流和檔案流等進行互動。

現在 TypedArray 已經被新增到了 ES6 中,Buffer 類以一種更優化和適用於 NodeJS 操作的方式實現了 Unit8Array API。

總而言之,Buffer 類是用來處理二進位制資料,因為太常用了,所以直接放在了全域性變數裡,使用的時候無需 require。

Buffer 類的例項類似於整型陣列,不過緩衝區的大小在建立時確定,不能調整。Buffer 物件不同之處在於它不經 V8 的記憶體分配機制,Buffer 是一個 JavaScript 和 C++ 結合的模組,記憶體由 C++ 申請,JavaScript 分配。

關於 Buffer 記憶體分配相關知識不展開討論,感興趣同學可以看看樸老溼的書。

例項化 Buffer

在 NodeJS v6 之前都是通過呼叫建構函式的方式例項化 Buffer,根據引數返回不同結果。處於安全性原因,這種方式在 v6 後的版本中已經被廢除,提供了

Buffer.from()
Buffer.alloc()

Buffer.allocUnsafe()

三個單獨的,職責清晰的函式處理例項化 Buffer 的工作。

Buffer.from(array):返回一個內容包含所提供的位元組副本的 Buffer,陣列中每一項是一個表示八位位元組的數字,所以值必須在 0 ~ 255 之間,否則會取模

Buffer.from(arrayBuffer):返回一個與給定的 ArrayBuffer 共享記憶體的新 Buffer
Buffer.from(buffer):返回給定 Buffer 的一個副本 Buffer
Buffer.from(string [, encoding]):返回一個包含給定字串的 Buffer
Buffer.alloc(size [, fill [, encoding]]):返回指定大小並且“已填充”的 Buffer
Buffer.allocUnsafe(size):返回指定大小的 Buffer,內容必須用 buf.fill(0) 等方法填充
// 0x 表示 16 進位制

Buffer.from([1, 2, 3]) // [0x1, 0x2, 0x3]
Buffer.from(`test`, `utf-8`) // [0x74, 0x65, 0x73, 0x74]
Buffer.alloc(5, 1) // [0x1, 0x1, 0x1, 0x1, 0x1]
Buffer.allocUnsafe(5); // 值不確定,後面詳談

Buffer.allocUnsafe() 的執行會快於 Buffer.alloc() 看名字很不安全,確實也不安全。
當呼叫 Buffer.allocUnsafe() 時分配的記憶體段尚未初始化(不歸零),這樣分配記憶體速度很塊,但分配到的記憶體片段可能包含舊資料。如果在使用的時候不覆蓋這些舊資料就可能造成記憶體洩露,雖然速度快,儘量避免使用。

編碼

Buffer 支援以下幾種編碼格式

ascii

utf8
utf16le
base64
binary
hex

Buffer 和 String 轉換

字串轉為 Buffer 比較簡單

Buffer.from(string [, encoding])

同時 Buffer 例項也有 toString 方法將 Buffer 轉為字串

buf.toString([encoding[, start[, end]]])

Buffer 拼接

使用 concat 方法可以講多個 Buffer 例項拼接為一個 Buffer 例項

Buffer.concat(list[, totalLength])

StringDecoder

在 NodeJS 中一個漢字由三個位元組表示,如果我們處理中文字元的時候使用了不是3的倍數的位元組數就會造成字元拼接亂碼問題。

const buf = Buffer.from(`中文字串!`);

for(let i = 0; i < buf.length; i+=5){
  var b = Buffer.allocUnsafe(5);
  buf.copy(b, 0, i);
  console.log(b.toString());
}

這樣可以看到結果中出現了亂碼
但如果使用 string_decoder 模組便可以解決這個問題

const StringDecoder = require(`string_decoder`).StringDecoder;
const decoder = new StringDecoder(`utf8`);
const buf = Buffer.from(`中文字串!`);
for(let i = 0; i < buf.length; i+=5){
  var b = Buffer.allocUnsafe(5);
  buf.copy(b, 0, i);
  console.log(decoder.write(b));
}

StringDecoder 在得到編碼後,知道寬位元組在utf-8下佔3個位元組,所以在處理末尾不全的位元組時,會保留到第二次 write()。目前只能處理UTF-8、Base64 和 UCS-2/UTF-16LE。

Buffer 其它常用 API

還有一些 Buffer 常用的 API

Buffer.isBuffer:判斷物件是否為 Buffer

Buffer.isEncoding:判斷 Buffer 物件編碼
buf.length:返回 記憶體為此 Buffer 例項所申請的位元組數,並不是 Buffer 例項內容的位元組數
buf.indexOf:和陣列的 indexOf 類似,返回某字串、acsii 碼或者 buf 在改 buf 中的位置
buf.copy:將一個 buf 的(部分)內容複製到另外一個 buf 中


相關文章