PostgreSQL Tuple在記憶體中組織形式

Rings發表於2016-10-13

#0. 所需預備知識

諸位需要對於PostgreSQL中的儲存方式有一個初步的瞭解。瞭解元組,頁等術語所描述的含義。雖然這些術語不是必須知道，但是對於這些術語的瞭解有助於對應PostgreSQL儲存方式的瞭解。

#1. PostgreSQL如何儲存資料.

PostgreSQL中資料是按照頁的形式組織，一個頁的大小通常為8K。在資料表建立的過程中建立相應的資料檔案，而這些資料檔案就是我們通常所說的表中資料所存放的位置。

正如資料庫功能所描述的一樣，通過以一種合理的方式將資料儲存至非易失裝置上，並提供某類方式來快速的查詢出所儲存的資料。這也是資料庫原理的一種樸素的解釋。當然，資料庫在實現的過程中並非如上述我們所給出的一句話可以解釋清楚。

一個可使用的資料庫系統，工程上應該包括：伺服器框架部分：該部分管理使用者請求連線，為使用者提供使用資料庫服務提供介面；儲存引擎：用來完成與檔案系統的之間的操作，將使用者所需要儲存的資料按照一定的形式組織起來，並將其儲存至非易失裝置中；查詢/執行引擎：負責將所儲存的資料以一種快速且高效的方式獲取並將其展現給使用者。其它模組：例如：後設資料管理等，在此就不在詳細討論了。

在上一段中，我們曾提及，PostgreSQL中資料檔案是以Page的方式儲存的。那麼下面我們首先來給出一個Page的Layout。

我們曾在另一篇文章中從整體架構上討論了PostgreSQL的資料儲存相關知識[…]該文章中我們討論了Page構成的詳細說明。並討論了PageHeaderData，HeapTupleHeaderData，HeapTupleData等資料結構。在此文章中，我們從理解層面討論了儲存層的相關知識，而本文中我們從程式層面來討論，如何將資料組裝成特定Page形式並討論如何在程式碼層實現儲存。

在進行後續的介紹之前，我們首先來看看除了PostgreSQL外，SQL Server以及Oracle中的一行記錄的相關格式。首先，我們來看看Sql server的Row Format：

其每個記錄行由五部分構成：（1）用來描述該行記錄的頭部資訊；（2）不變資料（固定長度的資料型別，例如：int, double等等）；（3）NULL值的點陣圖資訊，由於NULL值在資料庫中屬於一個特別的資料型別，其與空有著區別，因此在儲存該NULL值的時候，為了能夠節省儲存空間我們並不是儲存一個特殊的值（因為無論我們使用何種方式，即使最小的使用1 bit來表示，當資料量巨大時，也會造成儲存空間的增長），例如：INF或是其它值來標識，而是使用一個NULL點陣圖資訊來描述該行記錄中NULL值所在的位置。同樣，在PostgreSQL中，我們也使用相同的方式來描述NULL在一條記錄中的相關資訊，在HeaptTupleHeader中的t_bits就描述了該條記錄(Tuple)中NULL值的分佈情況；（4）可變資料，由於我們在支援類似於string, varchar, varchar2, text等可變長度的資料，正是由於這些資料長度的不確定性，使得我們將這些需要對此類的資料做特殊的處理（通常是記錄該資料的真實長度）。讀者可以思考一下，為什麼SQL-Server會將可以長度的資料放在該記錄的最後一部分，該種方式下，有何有點（提示：可以從儲存引擎的特定出發，由於儲存引擎的設計到資料的儲存和讀取，且由於資料庫的特點，任何單條記錄存取空間或者效率的改進都將會極大的影響整個資料庫系統的效能）。（5）版本資訊（可選）。

相關的上述關於sql-server以及oracle的row格式的相關資料均來自於Sydney University[…]

由上述PostgreSQL，SQL-Server以及Oracle的row的資料格式可以看出，無論哪種型別的資料庫，都需要對於變長資料型別和NULL資料型別進行額外的處理，當然前提條件是資料庫系統需要支援著兩種型別的資料型別，當然我們無法想象一個不支援變長資料型別和NULL型資料型別的資料庫是如何存在與市場中。PostgreSQL為了支援NULL型別，在HeapTupleHeaderData資料結構中使用t_bits來描述該tuple中的NULL屬性的相關資訊。

我們知道，heap_form_tuple函式為，PostgreSQL中構成一個Tuple組裝函式。有該函式的如下原型：

HeapTuple heap_form_tuple(TupleDesc tupleDescriptor, Datum *values,bool *isnull)

1	HeapTuple heap_form_tuple(TupleDesc tupleDescriptor, Datum values,bool isnull)

我們可以知道，該函式以Datum*型別的資料values為基礎並按isnull陣列中所描述的一行資料中為NULL的屬性資料。從heap_form_tuple函式中，我們可以有一個問題：為什麼會在 heap_form_tuple 函式中，首先技術heaptupleheaderdata時候，只是偏移到t_bits，而非是使用sizeof (heaptupleheaderdata)來計算呢？

len = offsetof(HeapTupleHeaderData, t_bits);

1	len = offsetof(HeapTupleHeaderData, t_bits);

我們知道，對於t_bits來說其描述了NULL的bitmap關係，由於其是與列（屬性）個數有關，因此其長度是一個可變的值，而這也是為什麼t_bits在heaptupleheaderdata中的定義是一個uint8 t_bits[1]這樣一個形式；

在計算完heaptupleheaderdata的長度時候，我們便根據是否存在著null列，來計算相應的資料。

if (hasnull)
    len += BITMAPLEN(numberOfAttributes);

1 2	if (hasnull) len += BITMAPLEN(numberOfAttributes);

以及是否存在著tuple oid資訊。

if (tupleDescriptor->tdhasoid)
    len += sizeof(Oid);

1 2	if (tupleDescriptor->tdhasoid) len += sizeof(Oid);

再加上padding大小 hoff = len = MAXALIGN(len); /* align user data safely */

最後加上資料的長度：

data_len = heap_compute_data_size(tupleDescriptor, values, isnull);
len += data_len;

1 2	data_len = heap_compute_data_size(tupleDescriptor, values, isnull); len += data_len;

從而獲得整個tuple的大小

，在完成對Tuple所需的空間計算之後進行記憶體空間的分配：

/*
* Allocate and zero the space needed. Note that the tuple body and
* HeapTupleData management structure are allocated in one chunk.
*/
tuple = (HeapTuple) palloc0(HEAPTUPLESIZE + len);
//然後，設定t_len, t_self, t_tableoid等資訊，以及heaptupleheaderdata中的相關標誌資訊。
tuple->t_data = td = (HeapTupleHeader) ((char *) tuple + HEAPTUPLESIZE);
tuple->t_len = len;
ItemPointerSetInvalid(&(tuple->t_self));
tuple->t_tableOid = InvalidOid;
HeapTupleHeaderSetDatumLength(td, len);
HeapTupleHeaderSetTypeId(td, tupleDescriptor->tdtypeid);
HeapTupleHeaderSetTypMod(td, tupleDescriptor->tdtypmod);
HeapTupleHeaderSetNatts(td, numberOfAttributes);
td->t_hoff = hoff;

* Allocate and zero the space needed. Note that the tuple body and

* HeapTupleData management structure are allocated in one chunk.

tuple = (HeapTuple) palloc0(HEAPTUPLESIZE + len);

//然後，設定t_len, t_self, t_tableoid等資訊，以及heaptupleheaderdata中的相關標誌資訊。

tuple->t_data = td = (HeapTupleHeader) ((char *) tuple + HEAPTUPLESIZE);

tuple->t_len = len;

ItemPointerSetInvalid(&(tuple->t_self));

tuple->t_tableOid = InvalidOid;

HeapTupleHeaderSetDatumLength(td, len);

HeapTupleHeaderSetTypeId(td, tupleDescriptor->tdtypeid);

HeapTupleHeaderSetTypMod(td, tupleDescriptor->tdtypmod);

HeapTupleHeaderSetNatts(td, numberOfAttributes);

td->t_hoff = hoff;

其中，hoff中包括了：從TupleHeaderData起始位置到，t_bits的位置，然後t_bits由表的列是否為空確定大小；然後使用者資料是從，t_hoff開始，加上b_bits的偏移，以及tableoid的偏移，開始真正儲存資料的。由上圖可以得知。

heap_fill_tuple 函式中依據，tupledesc中atts做提供的資訊來儲存資料到相應的位置。att[i]->attlen == -1 當為此種情況時候，表明其是varlen資料，例如varchar之類的數量型別，att[i]->attlen == -2 當為此種情況時候，為cstring，即字串形式的資料。never needs alignment 無需進行對齊操作。否則，為固定長度的型別。

如果是varlen型別資料時候。還需要使用VARATT_IS_EXTERNAL來判定是否是儲存在外存上面。下面的註釋說明了情況。

/*
* Bit layouts for varlena headers on big-endian machines:
*
* 00xxxxxx 4-byte length word, aligned, uncompressed data (up to 1G)
* 01xxxxxx 4-byte length word, aligned, *compressed* data (up to 1G)
* 10000000 1-byte length word, unaligned, TOAST pointer
* 1xxxxxxx 1-byte length word, unaligned, uncompressed data (up to 126b)
*
* Bit layouts for varlena headers on little-endian machines:
*
* xxxxxx00 4-byte length word, aligned, uncompressed data (up to 1G)
* xxxxxx10 4-byte length word, aligned, *compressed* data (up to 1G)
* 00000001 1-byte length word, unaligned, TOAST pointer
* xxxxxxx1 1-byte length word, unaligned, uncompressed data (up to 126b)
*
* The “xxx” bits are the length field (which includes itself in all cases).
* In the big-endian case we mask to extract the length, in the little-endian
* case we shift. Note that in both cases the flag bits are in the physically
* first byte. Also, it is not possible for a 1-byte length word to be zero;
* this lets us disambiguate alignment padding bytes from the start of an
* unaligned datum. (We now *require* pad bytes to be filled with zero!)
*
* In TOAST pointers the va_tag field (see varattrib_1b_e) is used to discern
* the specific type and length of the pointer datum.
*/

linux記憶體管理（一）實體記憶體的組織和記憶體分配
2024-06-07
Linux記憶體
PostgreSQL：記憶體結構
2023-02-17
SQL記憶體
C#--得到物件在記憶體中的大小和把記憶體中的位元組轉換為字串
2024-12-02
C#物件記憶體字串
PostgreSQL TID及tuple slot
2020-02-19
SQL
GO slice 切片-在記憶體中如何分配
2020-06-15
Go記憶體
Swoole 原始碼分析——記憶體模組之記憶體池
2018-08-03
原始碼記憶體
JS中的棧記憶體、堆記憶體
2019-02-23
JS記憶體
PostgreSQL共享記憶體裡的內容（initCommunication）
2022-09-06
SQL記憶體
堆外記憶體及其在 RxCache 中的使用
2019-01-16
記憶體
在 ArkTS 中，如何有效地進行記憶體管理和避免記憶體洩漏？
2024-09-27
記憶體
Swift記憶體賦值探索一：理解物件在記憶體中的儲存狀態
2018-03-16
Swift記憶體賦值物件
PostgreSQL DBA(158) - Locks(tuple locks)
2020-01-14
SQL
iOS 記憶體位元組對齊
2019-05-12
iOS記憶體
小數在記憶體中是如何儲存的？
2020-04-28
記憶體
怎麼手動在rstudio中釋放記憶體?
2024-10-09
記憶體
【C語言】整型在記憶體中的儲存
2021-06-30
C語言記憶體
記憶體屏障在CPU、JVM、JDK中的實現
2021-02-02
記憶體JVMJDK
什麼是Java記憶體模型(JMM)中的主記憶體和本地記憶體？
2024-07-30
Java記憶體模型
Python元組tuple
2024-04-08
Python
Python tuple(元組)
2018-12-24
Python
JVM中java例項物件在記憶體中的佈局
2018-04-25
JVMJava物件記憶體
PostgreSQL-PG的體系架構之記憶體管理（三）
2019-08-17
SQL架構記憶體
MRAM快取記憶體的組成
2020-11-06
快取記憶體
使用 Calcurse 在 Linux 命令列中組織任務
2018-11-16
Linux命令列
Java記憶體模型FAQ（九）在新的Java記憶體模型中，final欄位是如何工作的
2021-12-02
Java記憶體模型
3 python的數值在記憶體中如何儲存
2024-03-19
Python記憶體
Redis記憶體——記憶體消耗(記憶體都去哪了？)
2021-05-20
Redis記憶體
Postgresql資料庫體系結構-程式和記憶體結構
2019-04-11
SQL資料庫記憶體
元組tuple的方法
2020-12-28
PostgreSQL 原始碼解讀（226）- Linux Kernel(虛擬記憶體)
2019-09-11
SQL原始碼Linux記憶體
gf框架之gmlock – 記憶體鎖模組
2019-02-16
框架記憶體
go中的記憶體逃逸
2023-11-02
Go記憶體
javascript中的記憶體管理
2021-03-01
JavaScript記憶體
深圳Java培訓：Java中的float在記憶體中的儲存
2019-08-01
Java記憶體
Java應用程式中的記憶體洩漏及記憶體管理
2019-08-29
Java記憶體
記憶體管理記憶體管理概述
2020-11-03
記憶體
【記憶體管理】記憶體佈局
2024-06-10
記憶體
PostgreSQL儲存引擎之heap tuple結構
2018-11-18
SQL儲存引擎
在Linux中，如何檢視linux中記憶體使用率最高的程序？
2024-03-22
Linux記憶體

PostgreSQL Tuple在記憶體中組織形式

#0. 所需預備知識

#1. PostgreSQL如何儲存資料.

相關文章