SQL Server 2008中的資料壓縮功能
SQL Server 2005 SP2為我們帶來了vardecimal功能,這項功能使得原來定長的decimal資料在資料檔案中以可變長的格式儲存,據稱這項功能可以為典型的資料倉儲節省30%的空間,而SQL Server 2008在這一基礎上又進一步增強了資料壓縮功能。SQL Server 2008現在支援行壓縮和頁面壓縮兩種選項,資料壓縮選項可以在以下物件上啟用:
- 未建立聚簇索引的表
- 建立聚簇索引的表
- 非聚簇索引(對錶設定壓縮選項不會影響到該表上的非聚簇索引,因此聚簇索引的壓縮需要單獨設定)
- 索引檢視
- 分割槽表和分割槽索引中的單個分割槽
為什麼需要資料壓縮
首先可能需要討論的問題就是為什麼在儲存成本不斷降低的今天,微軟還要煞費苦心地在SQL Server中實現並且不斷改進資料壓縮技術呢?
儘管儲存成本已經不再是傳統意義上的首要考慮因素,但是這並不代表資料庫尺寸不是一個問題,因為資料庫尺寸除了會影響到儲存成本之外,還極大地關聯到管理成本和效能問題。
首先我們來討論為什麼會有管理成本的問題?因為資料庫需要備份,資料庫的尺寸越大,那麼備份時間就會越長,當然另外一點就是消耗的備份硬體成本也會隨之提高(包括需要的備份介質成本和為了滿足備份視窗而需要更高階的備份裝置帶來的採購成本),還有一種管理成本就是資料庫的維護成本,例如我們經常需要完成的DBCC任務,資料庫尺寸越大,我們就需要更多的時間來完成這些任務。
接著我們再看看效能問題。SQL Server在掃描磁碟讀取資料的時候都是按照資料頁為單位進行讀取的,因此如果一張資料頁中包含的資料行數越多,SQL Server在一次資料頁IO中獲得的資料就會越多,這樣也就帶來了效能的提升。
最後考慮儲存的成本,按照原先SQL Server 2005 SP2中vardecimal的壓縮資料為例,30%的空間節省也就意味著30%的儲存成本,而按照SQL Server 2008當前放出的測試資料,採用新的資料壓縮技術可以達到2X-7X的儲存率,再加上如果企業要考慮容災而增加的儲存空間,這樣節省的儲存硬體成本也將是想當可觀的。
如何使用資料壓縮
SQL Server 2008中的壓縮選項可以在建立表或索引時通過Option進行設定,例如:
CREATE TABLE TestTable (col1 int, col2 varchar(200)) WITH (DATA_COMPRESSION = ROW);
如果需要改變一個分割槽的壓縮選項,則可以用以下語句:
ALTER TABLE TestTable REBUILD PARTITION = 1 WITH (DATA COMPRESSION = PAGE);
如果需要為分割槽表的各個分割槽設定不同的壓縮選項,可以使用以下的語句:(SQL Server 2008可以對不同的分割槽使用不同的壓縮選項,這一點對於資料倉儲應用是非常重要的,因為資料倉儲的事實表通常都會有一個或數個熱分割槽,這些分割槽中的資料經常需要更新,為了避免資料壓縮給這些分割槽上的資料更新帶來額外的處理載荷,可以對這些分割槽關閉壓縮選項)
CREATE TABLE PartitionedTable (col1 int, col2 varchar(200))
ON PS1 (col1)
WITH (
DATA_COMPRESSION = ROW ON PARTITIONS(1),
DATA_COMPRESSION = PAGE ON PARTITION(2 TO 4));
如果是為某個索引設定壓縮選項的話,可以使用:
CREATE INDEX IX_TestTable_Col1 ON TestTable (Col1) WITH (DATA_COMPRESSION = ROW);
如果是修改某個索引的壓縮選項,可以使用:
ALTER INDEX IX_TestTable_Col1 ON TestTable REBUILD WITH (DATA_COMPRESSION = ROW);
SQL Server 2008同時還提供了一個名為sp_estimate_data_compression_savings儲存過程幫助DBA估計啟用壓縮選項後物件尺寸。
資料壓縮是怎樣工作的
對於行壓縮,SQL Server 2008採用以下三種方法來節省儲存空間:
對於頁面壓縮,SQL Server 2008則是在一張資料頁面上依次採用:
- 行壓縮
- 字首壓縮
- 字典壓縮
配置資料壓縮功能需要注意的
儘管SQL Server 2008的資料壓縮功能非常有價值,但是仍然需要注意一些問題:
- 資料壓縮功能僅在企業版和開發版中可用
- 資料壓縮可以讓一張資料頁儲存更多的資料行,但是並不能改變單行資料最長8060位元組這一限制
- 在一張已經設定了資料壓縮的表上建立聚簇索引時,聚簇索引預設繼承原表上的壓縮選項
- 在未設定聚簇索引的表上設定頁面壓縮時,只有以下情況才會獲得頁面壓縮的實際效果:
- 資料使用BULK INSERT語法新增到表中
- 資料使用INSERT INTO ... WITH (TABLOCK)語法新增到表中
- 執行帶有頁面壓縮選項的ALTER TABLE ... REBUILD命令
- 在未設定聚簇索引的表上更改壓縮選項,會導致該表上所有非聚簇索引都需要重建,因為這些非聚簇索引指向的資料行地址已經都發生了改變。
- 在改變壓縮選項時所需要的臨時空間大小與建立索引是所需要的空間是一樣的,因此對於分割槽表,我們可以逐個分割槽設定壓縮選項來減少臨時空間的需求壓力。
- 由於SQL Server 2008中資料壓縮技術其實是SQL Server 2005 SP2中vardecimal技術的一個超集,因此設定了資料壓縮後就沒有必要保留vardecimal了。當然SQL Server 2008為了保持向後相容性,在當前版本中仍然保留了vardecimal,但是SQL Server 2008的下一個版本及可能就會棄用vardecimal選項,因此做了這些設定的資料庫應該儘早改變到資料壓縮設定下。
- SQL Server 2008的壓縮選項是工作在儲存引擎層的,對於SQL Server的其他部件來說這一特性是透明的,因此當我們用BULK LOAD的方式將外面的資料匯入SQL Server時,會顯著的增加CPU的工作載荷,同時將以壓縮的資料表匯出到外部檔案時,可能會消耗比原來多很多的空間。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/9079672/viewspace-203964/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- sql server 資料庫收縮SQLServer資料庫
- SQL Server收縮資料庫SQLServer資料庫
- SQL Server 2008中的行壓縮(上)JUSQLServer
- SQL Server 2000/2005/2008刪除或壓縮資料庫日誌的方法SQLServer資料庫
- 在SQL Server中完美壓縮.mdf檔案DVSQLServer
- Python 壓縮資料夾併傳送郵件功能Python
- SQL Server 收縮日誌SQLServer
- SQL Server資料庫恢復,SQL Server資料恢復,SQL Server資料誤刪除恢復工具SQLRescueSQLServer資料庫資料恢復
- SQL Server 2014的資料庫引擎新增功能(參考sqlserver官方文件)SQLServer資料庫
- Mac安裝壓縮版MySQL ServerMacMySqlServer
- Windows的壓縮資料夾(zip/cab)Windows
- 0910 – iPaste 搞定資料壓縮AST
- linux 下壓縮與解壓資料夾Linux
- 資料庫映象 (SQL Server)資料庫SQLServer
- SQL server 修改表資料SQLServer
- SQL Server資料庫安全SQLServer資料庫
- 使用SQL-Server分割槽表功能提高資料庫的讀寫效能SQLServer資料庫
- 高效的資料壓縮編碼方式 Protobuf
- Hadoop(十九)MapReduce OutputFormat 資料壓縮HadoopORM
- Java實現壓縮資料夾Java
- Blazor使用sql server 資料庫BlazorSQLServer資料庫
- SQL Server資料庫巡檢SQLServer資料庫
- sql server 2005資料庫快照SQLServer資料庫
- SQL Server-資料型別SQLServer資料型別
- 管理SQL Server資料庫安全SQLServer資料庫
- SQL Server資料庫遷移SQLServer資料庫
- 用ASP實現線上壓縮與解壓縮功能程式碼
- SQL Server實戰四:查詢資料庫的資料SQLServer資料庫
- 關於資料庫壓縮技術的Survey資料庫
- 解析ws訂閱返回的GZIP 壓縮資料
- 怎麼把資料夾壓縮成壓縮包發給微信好友
- Apache開啟GZIP壓縮功能方法Apache
- sql server 2005 資料修改的內部原理SQLServer
- SQL Server日期資料型別DATE的使用SQLServer資料型別
- openGauss 支援OLTP場景資料壓縮
- Linux加密壓縮檔案/資料夾Linux加密
- 序列化資料傳輸壓縮
- SQL Server 2016 的各版本和支援的功能SQLServer
- 資料庫映象 (SQL Server)操作模式資料庫SQLServer模式